Como a OpenAI pensa sobre segurança e alinhamento

A missão da OpenAI é garantir que a inteligência artificial geral (AGI) beneficie toda a humanidade. Segurança—prática de ampliar os impactos positivos da IA ao mesmo tempo em que reduz os negativos—é, portanto, central para essa missão.

A compreensão sobre como promover a segurança evoluiu significativamente com o tempo, e o texto a seguir é um retrato atual dos princípios que orientam essa visão. A OpenAI não tem certeza absoluta de que todas as suas crenças sejam corretas, mas reconhece que a IA transformará grande parte do mundo.

Portanto, é crucial refletir antecipadamente sobre os benefícios, mudanças e riscos dessa tecnologia.

AGI em muitos passos, não em um salto gigante

Anteriormente, a OpenAI encarava o desenvolvimento da Inteligência Artificial Geral (AGI) como um momento repentino, em que os sistemas de IA passariam abruptamente de resolver problemas simples para enfrentar desafios globais.

Atualmente, a organização vê a primeira AGI como um ponto em uma sequência contínua de sistemas cada vez mais úteis.

Em um cenário descontínuo, a preparação para o momento da AGI se limitava a tratar os sistemas atuais com extrema cautela, desproporcional ao seu aparente poder.

Foi o que aconteceu, por exemplo, com o GPT-2, que inicialmente não foi lançado devido a preocupações com aplicações mal-intencionadas.

Já em um cenário contínuo, o caminho para tornar o próximo sistema seguro e benéfico é aprender com o atual.

Por isso, a OpenAI adotou a estratégia de implantação iterativa, permitindo que o conhecimento sobre segurança e usos indevidos seja aprofundado, dando tempo para a sociedade se adaptar e aproveitando os benefícios da IA na prática. Atualmente, a OpenAI explora o paradigma dos modelos de raciocínio encadeado (chain-of-thought), que prometem grande impacto futuro.

Nesse contexto contínuo, o lançamento de modelos apoia a segurança, ao invés de prejudicá-la.

Essas visões distintas levam a diferentes interpretações sobre o que é seguro. O lançamento do ChatGPT, por exemplo, foi interpretado de diversas formas na comunidade, dependendo se os especialistas acreditavam em um progresso contínuo ou descontínuo da IA.

Impactos da AGI

A OpenAI desenvolve AGI acreditando em seu potencial transformador positivo. Praticamente qualquer desafio enfrentado pela humanidade pode ser superado com uma AGI suficientemente capaz, já que a inteligência historicamente impulsionou melhorias como alfabetização, máquinas e avanços médicos.

Contudo, a inteligência é um conceito neutro e, por si só, não garante transformações positivas. Alcançar o potencial da AGI exige esforços contínuos para mitigar possíveis danos, assegurando o desenvolvimento e operação alinhados aos valores humanos e ao controle humano.

À medida que a IA se torna mais poderosa, os riscos aumentam. Os possíveis problemas futuros são divididos em três categorias principais:

Uso indevido por humanos: Aplicação da IA que viole leis e valores democráticos, incluindo censura, vigilância ou propaganda personalizada.
IA desalinhada: Ações ou comportamentos da IA que divergem dos valores, objetivos ou intenções humanas relevantes.
Disrupção social: Mudanças rápidas trazidas pela IA que podem gerar tensões sociais, desigualdades ou alterar profundamente normas e valores sociais.

Princípios centrais da OpenAI

A OpenAI admite não saber exatamente como será o futuro, mas segue princípios claros:

Aceitação da incerteza: Encarar segurança como ciência, aprendendo com a implantação iterativa em vez de apenas princípios teóricos.
Defesa em profundidade: Combinar múltiplas camadas de intervenções para garantir segurança.
Métodos escaláveis: Desenvolver métodos de segurança que se tornam mais eficazes com modelos mais inteligentes.
Controle humano: Criar IA que promova a humanidade e valores democráticos.
Esforço comunitário: Reconhecer que avançar a segurança é uma responsabilidade coletiva.

Esses princípios orientam a abordagem proativa e rigorosa da OpenAI para enfrentar os desafios e riscos emergentes à medida que a IA avança.