A OpenAI está dedicada a criar Inteligência Artificial (IA) que seja tanto segura quanto benéfica para todos.
Recentemente, ela divulgou um relatório inicial sobre os testes de um novo modelo chamado Voice Engine, capaz de produzir falas naturais que imitam com precisão a voz de uma pessoa a partir de texto e uma única amostra de áudio de 15 segundos.
É impressionante que um modelo tão compacto e com apenas uma pequena amostra de áudio consiga gerar vozes tão realistas e expressivas.
Criado no fim de 2022, o Voice Engine tem sido utilizado para fornecer as vozes padrão na API de conversão de texto em fala, além de ser incorporado ao ChatGPT Voice e ao recurso Read Aloud.
No entanto, a OpenAI está procedendo com cautela quanto ao seu lançamento mais abrangente, considerando os possíveis riscos de abuso associados às vozes sintéticas.
A organização espera abrir um debate sobre como essas vozes podem ser implementadas de maneira responsável e de que forma a sociedade pode se adaptar a essas inovações.
Para avaliar melhor as aplicações possíveis desta tecnologia, testes privados foram iniciados com um grupo seleto de parceiros no final do ano passado.
As soluções criativas desenvolvidas por esses parceiros têm sido fonte de inspiração.
Esses testes em menor escala estão fornecendo insights valiosos para a OpenAI em termos de medidas de proteção e estratégias sobre como o Voice Engine pode ser empregado para promover o bem em diversos setores.
Um exemplo notável é o uso da tecnologia para apoiar a leitura para indivíduos que não sabem ler, incluindo crianças, por meio de vozes que soam naturais e emocionais, representando uma diversidade maior de falantes do que as vozes padrão atuais.
A Age of Learning, uma empresa focada no sucesso educacional de crianças, tem aproveitado essa inovação para produzir conteúdo de voz pré-gravado.
Eles também estão combinando o Voice Engine com o GPT-4 para gerar respostas customizadas em tempo real, visando melhorar a interação com os estudantes.
Com isso, a Age of Learning conseguiu expandir seu alcance de conteúdo.
Outra aplicação está na tradução de conteúdos multimídia, como vídeos e podcasts, possibilitando a criadores e empresas ampliarem seu público globalmente, mantendo a fluência e a autenticidade da voz original.
HeyGen, uma plataforma que utiliza IA para criar narrativas visuais, está entre os pioneiros nessa aplicação, ajudando clientes corporativos a produzir avatares digitais realistas para diversos propósitos, desde marketing até demonstrações de vendas.
Eles estão utilizando o Voice Engine para traduzir conteúdo de voz em múltiplas línguas, visando atingir audiências internacionais.
Dimagi, focada em desenvolver ferramentas para agentes de saúde comunitários, está utilizando a tecnologia para fornecer serviços essenciais e aprimorar habilidades, como o suporte a mães que amamentam, usando feedback interativo no idioma nativo de cada trabalhador, incluindo Swahili e Sheng.
A capacidade de gerar vozes que imitam pessoas reais traz preocupações significativas, especialmente em contextos como eleições.
A OpenAI está colaborando com parceiros em diversos campos, tanto nos EUA quanto internacionalmente, para integrar suas perspectivas e feedbacks no desenvolvimento do modelo.
Os participantes dos testes atuais concordaram com diretrizes estritas de uso, que vetam a imitação sem consentimento.
A OpenAI sustenta que qualquer uso generalizado de tecnologias de voz sintética deve ser acompanhado por sistemas de autenticação de voz, garantindo a adição consciente da voz ao serviço pelo usuário original, e um mecanismo para prevenir a criação de vozes similares a de personalidades conhecidas.
O Voice Engine é parte do empenho contínuo da OpenAI em explorar os limites da IA e compartilhar as possibilidades emergentes.
Alinhado com seu compromisso com a segurança da IA, a organização escolheu apresentar esta tecnologia ao público, mas ainda não promoveu seu lançamento em larga escala.
Espera-se que a apresentação do Voice Engine destaque seu potencial e incentive a adoção de medidas para fortalecer a resiliência da sociedade diante dos desafios impostos por modelos gerativos cada vez mais sofisticados.