OpenAI pode ter quebrado as regras do YouTube ao treinar ChatGPT em 1 milhão de horas de vídeo

OpenAI e outras empresas de tecnologia estão enfrentando dificuldades para coletar dados suficientes para treinar modelos massivos de IA

Segundo o site Gizmodo, a OpenAI supostamente transcreveu mais de um milhão de horas de vídeos do YouTube para treinar o GPT-4, segundo o The New York Times no sábado.

O relatório surge poucos dias depois de o CEO do YouTube, Neal Mohan, ter dito numa entrevista à Bloomberg que transcrever vídeos do YouTube para treino de IA seria uma “violação clara” das suas políticas.

“Quando um criador carrega seu trabalho duro em nossa plataforma, ele tem certas expectativas. Uma dessas expectativas é que os termos dos serviços sejam cumpridos”, disse Mohan em entrevista à Bloomberg na semana passada. “Mas não permite o download de coisas como transcrições ou bits de vídeo.”

A reportagem do New York Times alega que membros da equipe OpenAI, incluindo o presidente Greg Brockman, ajudaram pessoalmente a coletar os vídeos do YouTube, segundo fontes.

O artigo detalha como a OpenAI e muitas empresas de tecnologia estão enfrentando dificuldades para coletar dados suficientes para treinar modelos massivos de IA.

A OpenAI supostamente usou o Whisper, seu software de transcrição de IA, para coletar mais dados para treinar o GPT-4, o melhor e mais recente modelo subjacente ao ChatGPT.

OpenAI e Google não responderam imediatamente aos pedidos de comentários do Gizmodo.

O relatório do New York Times pode ter implicações enormes para a OpenAI e a batalha contínua do Google na vanguarda do desenvolvimento de IA generativa.

É improvável que o Google fique quieto se a OpenAI estiver usando seu conteúdo para tornar o ChatGPT ainda melhor. No entanto, a empresa ainda não fez tais alegações.

Em uma declaração ao The Verge neste fim de semana, um porta-voz do Google apenas disse que “viu relatórios não confirmados” sobre o treinamento da OpenAI.

Os termos de serviço do YouTube proíbem qualquer usuário de baixar seu conteúdo, incluindo o uso de botnets ou scrapers, a menos que tenha permissão clara da empresa.

O YouTube também proíbe a utilização de seu conteúdo para qualquer uso “independente” de seu serviço.

A diretora de tecnologia da OpenAI, Mira Murati, disse que “não tinha certeza” se os vídeos do YouTube foram usados para treinar o modelo de IA de texto para vídeo de sua empresa, Sora, quando questionada pelo The Wall Street Journal em março.

A reportagem do New York Times não menciona nada sobre Sora, ou sobre os próprios trechos do YouTube.

No entanto, a sua hesitação em responder diretamente a esta questão leva a maiores especulações.

O próprio New York Times está em uma batalha de direitos autorais com a OpenAI no momento.

OpenAI e Meta também estão sendo processados por vários autores e empresas de conteúdo por treinarem sua IA em obras protegidas por direitos autorais.

Se esses relatórios forem verdadeiros, poderão surgir questões inteiramente novas sobre as leis de direitos autorais no mundo da IA.

A maioria das reclamações de direitos autorais em torno da IA foram apresentadas por pequenos editores, mas o Google poderia adicionar algum peso real a essa luta se decidir participar.

Também representaria uma forma de o Google desacelerar a OpenAI, que sem dúvida está vencendo a corrida da IA no momento.