A OpenAI apresentou uma nova direção de pesquisa em generalização fraca para forte, uma abordagem promissora na supervisão de modelos de inteligência artificial (IA) superiores por modelos inferiores.
Este avanço, detalhado em um artigo publicado em 14 de dezembro de 2023, aborda o desafio central de alinhar sistemas de IA super-humanos, conhecido como superalinhamento.
A ideia principal é que, embora acreditamos que a superinteligência – IA significativamente mais inteligente que humanos – possa ser desenvolvida nos próximos dez anos, ainda não sabemos como controlar e orientar sistemas de IA super-humanos de maneira confiável.
- Apresentando o ChatGPT-4o com CANVAS
- Apple desiste de negociações para participar da rodada de investimentos da OpenAI
- Mercado Livre cria plataforma usando GPT-4o
- CEO da OpenAI, Sam Altman, se afasta do comitê focado na segurança dos modelos de IA
- Lançamento da Série OpenAI o1-preview: Avanços em Modelos de Raciocínio para IA
- OpenAI tem 1 milhão de usuários pagantes
O objetivo é garantir que os sistemas de IA mais avançados permaneçam seguros e benéficos para a humanidade.
A equipe de Superalinhamento da OpenAI busca resolver este problema alinhando empiricamente modelos super-humanos.
A abordagem proposta compara a supervisão de modelos menores (menos capazes) sobre modelos maiores (mais capazes).
Enquanto na aprendizagem de máquina tradicional, os humanos supervisionam sistemas de IA mais fracos do que eles, o desafio agora é supervisionar sistemas de IA mais inteligentes que os humanos.
O objetivo é verificar se um modelo forte generalizará conforme a intenção subjacente do supervisor fraco, mesmo em problemas difíceis onde o supervisor fraco falha.
Nos experimentos, um modelo de nível GPT-2 foi usado como supervisor fraco para ajustar o GPT-4. Isso resultou em uma melhoria significativa na generalização em várias configurações.
O método adotado encoraja o modelo forte a ser mais confiante, incluindo discordar confiantemente do supervisor fraco quando necessário.
Os resultados mostraram que o modelo resultante tipicamente apresenta desempenho entre GPT-3 e GPT-3.5, recuperando grande parte das capacidades do GPT-4 com supervisão muito mais fraca.
Embora existam desafios significativos entre a configuração empírica atual e o problema final de alinhar modelos super-humanos, a OpenAI acredita que sua abordagem captura algumas das principais dificuldades de alinhar modelos super-humanos futuros.
Para estimular mais pesquisas nesta área, a OpenAI lançou um código de fonte aberta e um programa de bolsas de $10 milhões para pesquisadores que trabalham no alinhamento de IA super-humana.
Este esforço representa uma oportunidade empolgante para a comunidade de pesquisa de aprendizado de máquina avançar no alinhamento.
Leia o artigo completo aqui para mais detalhes sobre esta pesquisa inovadora.