Setembro 16, 2024

O Ribatejo | jornal regional online

Informações sobre Portugal. Selecione os assuntos que deseja saber mais sobre a Folha d Ouro Verde

ChatGPT inesperadamente começou a falar com a voz clonada de um usuário durante o teste

ChatGPT inesperadamente começou a falar com a voz clonada de um usuário durante o teste

Na quinta-feira, OpenAI lançou “Cartão do sistema“Para o novo modelo GPT-4o AI do ChatGPT detalhando as limitações do modelo e os procedimentos de teste de segurança. Entre outros exemplos, o documento revela que em casos raros durante os testes, o modo de voz avançado do modelo imitou as vozes dos usuários sem permissão. Atualmente, OpenAI tem salvaguardas em lugar que impede que isso ocorra. Isso, mas este caso reflete a crescente sofisticação do design seguro com um chatbot de IA que pode imitar qualquer som de um clipe curto.

O Modo de Voz Avançado é um recurso do ChatGPT que permite aos usuários conversar por voz com o assistente inteligente.

Em uma seção da placa do sistema GPT-4o intitulada “Geração de áudio não autorizada”, OpenAI descreve um episódio em que uma entrada ruidosa de alguma forma fez com que o modelo imitasse repentinamente a voz do usuário. “A geração de voz também pode ocorrer em situações não adversas, como quando usamos esse recurso de geração de voz para o modo de áudio avançado do ChatGPT. Durante os testes, também observamos raros casos em que o modelo gerou inadvertidamente uma saída que imitava a voz do usuário”, escreveu OpenAI. .

Neste exemplo de geração de som não intencional fornecida pela OpenAI, o modelo de IA grita “Não!” Ele continua a frase com uma voz semelhante à voz do “Red Team” que ouvimos no início do clipe. (Uma equipe vermelha é alguém contratado por uma empresa para realizar testes competitivos.)

Com certeza seria assustador falar com uma máquina e de repente ela começar a falar com você com sua própria voz. Normalmente, a OpenAI possui salvaguardas para evitar isso, e é por isso que a empresa diz que este evento era raro mesmo antes de desenvolver formas de evitá-lo totalmente. Mas o exemplo levou o cientista de dados do BuzzFeed, Max Wolf, a twittar“OpenAI acaba de vazar o enredo da próxima temporada de Black Mirror.”

Injetar prompt de voz

Como imitar vozes usando o novo modelo da OpenAI? A primeira prova está em outro lugar na placa do sistema GPT-4o. Para criar sons, o GPT-4o aparentemente pode sintetizar qualquer tipo de som encontrado em seus dados de treinamento, incluindo efeitos sonoros e música (embora a OpenAI desencoraje esse comportamento por meio de instruções especiais).

Conforme indicado na placa do sistema, o modelo pode essencialmente imitar qualquer som com base em um pequeno clipe de áudio. A OpenAI direciona essa capacidade com segurança, fornecendo uma amostra de voz certificada (de um dublador contratado) que eles devem imitar. O exemplo é apresentado no prompt do sistema do modelo de IA (o que a OpenAI chama de “mensagem do sistema”) no início da conversa. “Supervisionamos conclusões perfeitas usando a amostra de áudio na mensagem do sistema como áudio principal”, escreve OpenAI.

Em programas LLM somente texto, a mensagem do sistema é exibidaUm conjunto oculto de instruções de texto que orientam o comportamento de um chatbot e que são adicionadas silenciosamente ao histórico de chat antes do início de uma sessão de chat. Interações sucessivas são anexadas ao mesmo histórico de conversa, e todo o contexto (geralmente chamado de “janela de contexto”) é retornado ao modelo de IA cada vez que o usuário fornece uma nova entrada.

(Provavelmente é hora de atualizar este diagrama criado no início de 2023 abaixo, mas mostra como a janela de contexto funciona em uma conversa de IA. Imagine que o primeiro prompt é uma mensagem do sistema que diz coisas como “Você é um chatbot útil. Você não estamos falando sobre violência nos negócios, etc.)

Um diagrama que mostra como funciona o modelo de linguagem conversacional da GPT.
Ampliar / Um diagrama que mostra como funciona o modelo de linguagem conversacional da GPT.

Bing Edwards/Ars Técnica

Como o GPT-4o é multimodal e pode lidar com áudio distinto, o OpenAI também pode usar a entrada de áudio como parte do prompt do sistema do modelo, que é o que faz quando o OpenAI fornece uma amostra de áudio autorizada para o modelo imitar. A empresa também utiliza outro sistema para detectar se um modelo está gerando som não autorizado. “Permitimos apenas que o modelo use sons predefinidos e usamos um classificador de saída para detectar se o modelo se desvia disso”, escreve OpenAI.