O ChatGPT agora pode ver, ouvir e falar

A OpenAI anunciou a implementação de novas capacidades de voz e imagem em ChatGPT.

Essas funcionalidades proporcionam uma interface mais intuitiva, permitindo que os usuários tenham uma conversa por voz ou mostrem ao ChatGPT sobre o que estão falando.

Utilização Prática
Com as novas capacidades, os usuários podem tirar uma foto de um ponto turístico durante uma viagem e ter uma conversa ao vivo sobre ele.

Em casa, podem tirar fotos da geladeira e despensa para decidir o jantar e até obter receitas passo a passo.

Além disso, é possível ajudar uma criança com um problema de matemática tirando uma foto e recebendo dicas.

Disponibilidade
As novas funcionalidades serão disponibilizadas para os usuários Plus e Enterprise nas próximas duas semanas.

A função de voz estará disponível em dispositivos iOS e Android, enquanto a de imagem estará acessível em todas as plataformas.

Conversa por Voz
Os usuários agora podem usar a voz para interagir com o assistente.

Para começar, basta ir às configurações e ativar as conversas por voz.

A capacidade de voz é alimentada por um novo modelo de texto para fala, que gera áudio semelhante ao humano a partir de texto e alguns segundos de fala.

Imagens
Os usuários podem mostrar uma ou mais imagens ao ChatGPT.

Seja para solucionar um problema com um equipamento, planejar uma refeição ou analisar um gráfico complexo.

A compreensão de imagens é alimentada pelos modelos GPT-3.5 e GPT-4.

Implementação Gradual
A OpenAI tem como objetivo construir uma AGI segura e benéfica.

]Eles acreditam em disponibilizar suas ferramentas gradualmente, o que permite aprimoramentos contínuos e a preparação para sistemas mais potentes no futuro.

Limitações e Segurança
A OpenAI é transparente sobre as limitações do modelo e desencoraja usos de alto risco sem a devida verificação.

Eles também aconselham os usuários que não falam inglês a não usar o ChatGPT para transcrição.

Links de Referências