OpenAI considera sua ferramenta de clonagem de voz muito arriscada para lançamento geral

Atrasar a implementação da tecnologia Voice Engine minimiza o potencial de desinformação num importante ano eleitoral global

Uma nova ferramenta da OpenAI que pode gerar um clone convincente da voz de qualquer pessoa usando apenas 15 segundos de áudio gravado foi considerada demasiado arriscada para divulgação geral, uma vez que o laboratório de IA procura minimizar a ameaça de desinformação prejudicial num ano global de eleições.

O Voice Engine foi desenvolvido pela primeira vez em 2022 e uma versão inicial foi usada para o recurso de conversão de texto em fala integrado ao ChatGPT , a ferramenta de IA líder da organização.

Mas o seu poder nunca foi revelado publicamente, em parte devido à abordagem “cautelosa e informada” que a OpenAI está a adotar para divulgá-lo de forma mais ampla.

“Esperamos iniciar um diálogo sobre a implantação responsável de vozes sintéticas e como a sociedade pode se adaptar a essas novas capacidades”, disse a OpenAI em uma postagem não assinada no blog.

“Com base nestas conversas e nos resultados destes testes em pequena escala, tomaremos uma decisão mais informada sobre se e como implementar esta tecnologia em escala.”

Em sua postagem, a empresa compartilhou exemplos de usos reais da tecnologia de vários parceiros que tiveram acesso a ela para incorporar em seus próprios aplicativos e produtos.

A empresa de tecnologia educacional Age of Learning o utiliza para gerar narrações com roteiro, enquanto o aplicativo de “narrativa visual de IA” HeyGen oferece aos usuários a capacidade de gerar traduções de conteúdo gravado de uma forma fluente, mas que preserva o sotaque e a voz do locutor original.

Por exemplo, gerar inglês com uma amostra de áudio de um falante francês produz uma fala com sotaque francês.

Notavelmente, investigadores do Instituto Norman Prince de Neurociências, em Rhode Island, usaram um clip de 15 segundos de má qualidade de uma jovem a fazer uma apresentação num projeto escolar para “restaurar a voz” que tinha perdido devido a um tumor cerebral vascular.

“Optamos por pré-visualizar, mas não divulgar amplamente esta tecnologia neste momento”, disse OpenAI, a fim de “reforçar a resiliência da sociedade contra os desafios trazidos por modelos generativos cada vez mais convincentes”.

No futuro imediato, afirmou: “Encorajamos medidas como a eliminação progressiva da autenticação baseada em voz como medida de segurança para aceder a contas bancárias e outras informações sensíveis”.

A OpenAI também apelou à exploração de “políticas para proteger o uso das vozes dos indivíduos na IA” e “educar o público na compreensão das capacidades e limitações das tecnologias de IA, incluindo a possibilidade de conteúdo enganoso de IA”.

As gerações do Voice Engine têm marca d’água, disse a OpenAI, o que permite à organização rastrear a origem de qualquer áudio gerado.

Atualmente, acrescentou, “nossos termos com esses parceiros exigem consentimento explícito e informado do orador original e não permitimos que os desenvolvedores criem maneiras para que usuários individuais criem suas próprias vozes”.

Mas embora a ferramenta OpenAI se destaque pela simplicidade técnica e pela pequena quantidade de áudio original necessária para gerar um clone convincente, os concorrentes já estão disponíveis ao público.

Com apenas “alguns minutos de áudio”, empresas como a ElevenLabs podem gerar um clone de voz completo.

Para tentar mitigar os danos, a empresa introduziu uma salvaguarda de “vozes proibidas”, concebida para detectar e prevenir a criação de clones de voz “que imitem candidatos políticos ativamente envolvidos em eleições presidenciais ou de primeiro-ministro, começando pelos dos EUA e o Reino Unido”.