Novembro 16, 2024

O Ribatejo | jornal regional online

Informações sobre Portugal. Selecione os assuntos que deseja saber mais sobre a Folha d Ouro Verde

O modelo de IA de reprodução de áudio da OpenAI só precisa de uma amostra de 15 segundos para funcionar

O modelo de IA de reprodução de áudio da OpenAI só precisa de uma amostra de 15 segundos para funcionar

A OpenAI oferece acesso limitado a uma plataforma de conversão de texto em voz desenvolvida por ela, chamada Voice Engine, que pode criar uma voz sintética baseada em um clipe de 15 segundos da voz de alguém. A voz gerada por IA pode ler prompts de texto sob demanda no mesmo idioma do locutor ou em vários outros idiomas. “Essas implantações em pequena escala ajudam a informar nossa abordagem, salvaguardas e pensamento sobre como o Voice Engine pode ser usado para um bem maior em todos os setores”, OpenAI ele disse em sua postagem no blog.

As empresas com acesso incluem a empresa de tecnologia educacional Age of Learning, a plataforma de narrativa visual HeyGen, a fabricante de software de saúde de linha de frente Dimagi, a construtora de aplicativos de comunicação de IA Livox e o sistema de saúde Lifespan.

Nestes exemplos publicados pela OpenAI, você pode ouvir o que… Era de aprendizagem A tecnologia foi manipulada para criar conteúdo de áudio pré-escrito, bem como ler as “respostas pessoais em tempo real” dos alunos escritas pelo GPT-4.

Primeiro: Áudio de referência em inglês:

Aqui estão três clipes de áudio gerados por IA com base nessa amostra:

A OpenAI disse que começou a desenvolver o Voice Engine no final de 2022 e que a tecnologia já alimentou vozes pré-fabricadas para a API de conversão de texto em fala e o recurso de leitura em voz alta do ChatGPT. Em entrevista com TechCrunchO modelo foi treinado em “uma combinação de dados licenciados e disponíveis publicamente”, disse Jeff Harris, membro da equipe de produto OpenAI para Voice Engine. A OpenAI disse à publicação que o modelo estará disponível apenas para cerca de 10 desenvolvedores.

A geração de conversão de texto em fala usando IA é uma área de IA generativa que continua a evoluir. Embora a maioria se concentre em sons de instrumentos ou sons naturais, um número menor se concentrou na geração de som, em parte devido às questões citadas pela OpenAI. Alguns nomes neste espaço incluem empresas como Podcastle e ElevenLabs, que fornecem tecnologia e ferramentas de clonagem de áudio de IA vertcast Explorar o ano passado.

De acordo com a OpenAI, os seus parceiros concordaram em aderir às suas políticas de utilização, que afirmam que não utilizarão a Geração de Voz para se fazer passar por pessoas ou organizações sem o seu consentimento. Também exige que os parceiros obtenham “consentimento explícito e informado” do falante nativo, não criem formas para os utilizadores individuais criarem as suas próprias vozes e divulguem aos ouvintes que as vozes são geradas por inteligência artificial. A OpenAI também adicionou uma marca d'água aos clipes de áudio para rastrear sua origem e monitorar como o áudio está sendo usado de forma eficaz.

A OpenAI propôs várias etapas que acredita que poderiam limitar os riscos relacionados a ferramentas como essas, incluindo a eliminação progressiva da autenticação baseada em voz para acesso a contas bancárias, políticas para proteger o uso da voz das pessoas na IA e o aumento da educação sobre deepfakes de IA e desenvolvimento de sistemas de rastreamento. Para conteúdo de inteligência artificial.