Agente que usa computador inovador da OpenAI

O avanço da tecnologia em inteligência artificial (IA) está transformando a forma como interagimos com o mundo digital. A mais recente inovação da OpenAI, o Computer-Using Agent (CUA), apresenta um marco significativo nesse campo. Este agente combina a poderosa visão do GPT-4 com um raciocínio avançado baseado em aprendizado por reforço, permitindo que ele realize tarefas complexas na web de maneira semelhante aos humanos.

O Que é o CUA (Agente que usa computador)?

O CUA é um modelo treinado para operar diretamente com interfaces gráficas de usuário (GUIs), como botões, menus e campos de texto. Isso significa que ele pode navegar em aplicativos e páginas da web sem depender de APIs específicas, tornando-o altamente versátil para resolver problemas multimodais. Sua capacidade de se autocorrigir adaptativamente ao enfrentar obstáculos é um diferencial que o posiciona como uma ferramenta essencial para tarefas digitais.

Resultados Promissores

Embora ainda esteja em estágio inicial, o CUA já demonstra resultados impressionantes. Ele alcançou:

38,1% de taxa de sucesso no OSWorld para tarefas complexas de uso de computador.
58,1% de sucesso no WebArena e 87% no WebVoyager para tarefas baseadas na web.

Esses números destacam sua capacidade de operar eficientemente em diferentes ambientes digitais usando um único sistema.

Segurança em Primeiro Lugar

A OpenAI prioriza a segurança ao desenvolver o CUA. Com acesso potencial a um vasto mundo digital, medidas rigorosas foram implementadas para garantir sua operação responsável. Este compromisso é detalhado no Operator System Card, um guia que orienta o uso seguro do agente.

Disponibilidade e Próximos Passos

O CUA está disponível em versão prévia para usuários nos Estados Unidos, por meio da plataforma Operator. Durante esse período, o feedback dos usuários será essencial para refinar sua funcionalidade e fortalecer as medidas de segurança.

Como funciona o CUA

Agente que usa computador

Como o CUA Transforma Dados Visuais em Ações Digitais

O CUA é projetado para processar dados de pixel em tempo real, interpretando o que está na tela e utilizando ferramentas como mouse e teclado virtuais para executar ações. Ele é capaz de navegar por tarefas complexas, corrigir erros e se adaptar a mudanças inesperadas no ambiente digital. Isso o torna ideal para uma ampla gama de aplicações, incluindo preenchimento de formulários e navegação em sites, sem a necessidade de APIs especializadas.

Operação Baseada em Loop Iterativo

O funcionamento do CUA é baseado em um loop contínuo que combina percepção, raciocínio e ação. Esse método garante eficiência e adaptabilidade mesmo em cenários desafiadores.

1. Percepção

O CUA captura capturas de tela do computador e as enquadra do modelo, criando um instantâneo visual do estado atual do sistema. Essas imagens servem como base para análise e planejamento das próximas etapas.

2. Raciocínio

Utilizando a técnica de cadeia de pensamento, o CUA avalia capturas de tela, ações anteriores e o contexto atual para determinar os próximos passos. Esse processo de raciocínio interno melhora a tomada de decisão, permitindo adaptações em tempo real com base em novas observações e mudanças no ambiente.

3. Ação

Após o planejamento, o CUA executa as ações necessárias, como cliques, rolagens ou digitação, até concluir a tarefa ou identificar a necessidade de intervenção do usuário. Em ações sensíveis, como inserir dados de login ou resolver CAPTCHAs, o CUA solicita confirmação, garantindo segurança e precisão.

Avaliações: Um Novo Padrão para o Uso de Computadores

O CUA redefine o estado da arte na interação com computadores e navegadores, ao integrar a interface universal composta por tela, mouse e teclado. Essa abordagem inovadora simplifica a experiência do usuário, unificando ferramentas amplamente conhecidas para proporcionar acessibilidade e eficiência.

Explorando o Desempenho de Navegadores com WebArena e WebVoyager

Os navegadores WebArena e WebVoyager são ferramentas avançadas projetadas para medir a eficiência de agentes de navegação em tarefas reais. O WebArena utiliza sites auto-hospedados de código aberto em ambientes offline, simulando cenários cotidianos como comércio eletrônico, gerenciamento de conteúdo (CMS) e fóruns sociais. Já o WebVoyager avalia o desempenho em sites ativos, como Amazon, GitHub e Google Maps, fornecendo insights valiosos sobre a interação com plataformas ao vivo.

Desempenho do Agente Universal de Navegação (CUA)

Nos testes, o CUA (Common Universal Agent) definiu novos padrões ao usar uma interface única que interpreta a tela do navegador como pixels, realizando ações com mouse e teclado. Os resultados incluem:

Taxa de sucesso de 58,1% no WebArena: Indica um bom desempenho, mas demonstra desafios em cenários mais complexos.
Taxa de sucesso de 87% no WebVoyager: Mostra eficiência em tarefas mais simples e bem estruturadas.

Embora o CUA se destaque em benchmarks como o WebVoyager, ele ainda enfrenta desafios para atingir níveis de desempenho humano em tarefas mais sofisticadas, como as apresentadas no WebArena.

Avaliação de Sistemas Operacionais com OSWorld

O OSWorld é um benchmark robusto que mede a habilidade de modelos para operar sistemas operacionais completos, incluindo Ubuntu, Windows e macOS. Neste teste, o CUA demonstrou um desempenho de 38,1% de sucesso. É importante destacar que o desempenho do modelo melhora proporcionalmente quando há mais etapas disponíveis, sugerindo um benefício claro no dimensionamento do tempo de teste.

Uma comparação gráfica abaixo ilustra a evolução do desempenho do CUA em relação ao estado da arte anterior, considerando diferentes limites máximos de etapas. Atualmente, o desempenho humano neste benchmark é de 72,4%, indicando um amplo potencial de melhoria para sistemas automatizados.

Explorando o CUA no Operator: Um Avanço no Aprendizado de Tarefas Online

O CUA (Capability to Utilize Automation) agora está disponível em uma prévia de pesquisa no Operator, um agente inovador projetado para executar tarefas na web de maneira eficiente. Exclusivo para usuários Pro nos EUA, o Operator pode ser acessado através do operator.chatgpt.com. Esta versão inicial é uma oportunidade valiosa para aprender com a comunidade de usuários, refinando continuamente o desempenho e ampliando as capacidades do Operator.

Como qualquer tecnologia em estágio inicial, o CUA ainda pode apresentar limitações em alguns cenários. No entanto, ele já demonstra grande potencial em várias aplicações práticas, o que nos incentiva a aprimorar sua confiabilidade e expandir seu alcance. A implementação no Operator busca reunir insights úteis de sua utilização, ajudando a direcionar futuras melhorias e a desenvolver casos de uso ainda mais relevantes.

Abaixo, destacamos o desempenho do CUA em testes específicos, ilustrando seus principais pontos fortes e identificando áreas a serem otimizadas.

Destaques do CUA

Precisão nas Tarefas: Resultados promissores em diversas situações cotidianas.
Flexibilidade: Capacidade de adaptação a diferentes contextos de pesquisa.
Potencial de Crescimento: Grande espaço para avanços em confiabilidade e funcionalidade.

Desempenho Atual

A tabela a seguir detalha os resultados obtidos em testes recentes, mostrando as vantagens e limitações observadas.

Tarefa Avaliada	Desempenho	Observação
Busca de informações gerais	Alta precisão	Confirmação consistente de fontes confiáveis.
Resolução de problemas técnicos	Desempenho moderado	Requer refinamento para questões complexas.
Automação de fluxos de trabalho	Em progresso	A eficiência aumenta com melhorias iterativas.

Como Contribuir

Se você já está utilizando o Operator, aproveite para explorar as funções do CUA e compartilhar feedbacks detalhados. Suas sugestões são cruciais para moldar o futuro desta ferramenta e garantir sua utilidade em um número cada vez maior de cenários.

Segurança do Operador: Estrutura e Mitigações Essenciais

Palavras-chave: segurança no operador, mitigação de riscos, modelo CUA

Introdução O CUA, um dos primeiros produtos agentic capazes de executar ações diretamente no navegador, apresenta novos desafios de segurança. Para lidar com esses desafios, adotamos uma abordagem robusta, com salvaguardas integradas no modelo CUA, no sistema Operator e em processos pós-implantação. Nosso objetivo é criar camadas de proteção que reduzam progressivamente os riscos.

Mitigações por Categorias de Risco

1. Uso Indevido

Para prevenir atividades maliciosas ou proibidas, implementamos medidas específicas:

Recusas Integradas: O modelo CUA foi treinado para rejeitar tarefas prejudiciais ou ilegais.
Lista de Bloqueio: Sites como os de apostas, entretenimento adulto e revendedores ilegais estão bloqueados.
Moderação Ativa: Ferramentas automatizadas revisam interações em tempo real, emitindo alertas ou bloqueios para violações.
Detecção Offline: Sistemas automatizados e revisões humanas identificam usos proibidos em áreas sensíveis, como segurança infantil e atividades enganosas.

2. Erros de Modelo

Minimizar ações não intencionais que possam causar danos é essencial. Nossas estratégias incluem:

Confirmações do Usuário: O modelo solicita confirmação antes de executar tarefas com impacto externo.
Limitações de Tarefas: Funções de alto risco, como transações bancárias, estão desativadas.
Modo de Observação: Supervisão ativa é exigida em sites sensíveis, como e-mails.

Para combater ataques adversários, como injeções rápidas e phishing:

Navegação Cautelosa: O modelo reconhece e ignora injeções em quase todos os casos.
Monitoramento Avançado: Um modelo adicional identifica conteúdos suspeitos e pausa a execução.
Pipeline de Detecção: Padrões de acesso suspeitos são identificados e monitorados rapidamente.

3. Riscos de Fronteira

Analisamos o modelo CUA com base em cenários críticos, como replicação autônoma e ferramentas de biorisco, utilizando nossa Estrutura de Preparação. Os resultados indicam que os riscos não aumentam em relação ao GPT-4.

Refinamento Contínuo

Com capacidades inovadoras, novos desafios surgem. Utilizamos o período de pré-visualização para colher feedback, aprimorar salvaguardas e fortalecer a segurança do Operador.

O Agente que usa computador (CUA) representa o futuro dos agentes digitais. Ao possibilitar que modelos de IA usem as mesmas ferramentas que os humanos, ele abre caminho para uma infinidade de aplicações.

Seja para resolver problemas cotidianos ou enfrentar desafios tecnológicos mais complexos, o CUA está configurado para redefinir o papel da inteligência artificial em nossas vidas.

Explorando o Potencial dos Agentes Computacionais da OpenAI