GPT-4o mini: Avançando na Inteligência com Eficiência de Custos

Apresentando Nosso Modelo Pequeno Mais Econômico

A OpenAI está comprometida em tornar a inteligência o mais amplamente acessível possível. Hoje, anunciamos o GPT-4o mini, nosso modelo pequeno mais econômico.

GPT-4o mini: Avançando na Inteligência com Eficiência de Custos

Esperamos que o GPT-4o mini expanda significativamente a gama de aplicativos criados com IA, tornando a inteligência muito mais acessível.

O GPT-4o mini alcança 82% no MMLU e supera atualmente o GPT-4 1 em preferências de bate-papo no placar do LMSYS.

Ele custa 15 centavos por milhão de tokens de entrada e 60 centavos por milhão de tokens de saída, sendo muito mais acessível do que os modelos anteriores e mais de 60% mais barato que o GPT-3.5 Turbo.

O GPT-4o mini possibilita uma ampla gama de tarefas devido ao seu baixo custo e latência, como aplicativos que encadeiam ou paralelizam várias chamadas de modelo (por exemplo, chamando várias APIs), passam um grande volume de contexto para o modelo (por exemplo, base de código completa ou histórico de conversas) ou interagem com clientes por meio de respostas de texto rápidas e em tempo real (por exemplo, chatbots de suporte ao cliente).

Hoje, o GPT-4o mini suporta texto e visão na API, com suporte para entradas e saídas de texto, imagem, vídeo e áudio previsto para o futuro.

O modelo tem uma janela de contexto de 128K tokens, suporta até 16K tokens de saída por solicitação e tem conhecimento até outubro de 2023.

Graças ao tokenizador aprimorado compartilhado com o GPT-4o, lidar com texto que não seja em inglês agora é ainda mais econômico.

Um Pequeno Modelo com Inteligência Textual Superior e Raciocínio Multimodal

O GPT-4o mini supera o GPT-3.5 Turbo e outros modelos pequenos em benchmarks acadêmicos em inteligência textual e raciocínio multimodal, e suporta a mesma gama de idiomas que o GPT-4o.

Ele também demonstra forte desempenho em chamadas de função, permitindo que os desenvolvedores criem aplicativos que buscam dados ou realizam ações com sistemas externos, e melhora o desempenho de longo contexto em comparação com o GPT-3.5 Turbo.

O GPT-4o mini foi avaliado em vários benchmarks importantes:

Tarefas de raciocínio: O GPT-4o mini é melhor do que outros modelos pequenos em tarefas de raciocínio envolvendo texto e visão, pontuando 82,0% no MMLU, em comparação com 77,9% do Gemini Flash e 73,8% do Claude Haiku.
Proficiência em matemática e codificação: O GPT-4o mini se destaca em raciocínio matemático e tarefas de codificação, superando modelos pequenos anteriores no mercado. No MGSM, medindo raciocínio matemático, o GPT-4o mini pontuou 87,0%, em comparação com 75,5% para o Gemini Flash e 71,7% para o Claude Haiku. No HumanEval, que mede o desempenho de codificação, o GPT-4o mini pontuou 87,2%, comparado a 71,5% para o Gemini Flash e 75,9% para o Claude Haiku.
Raciocínio multimodal: O GPT-4o mini também mostra um desempenho forte no MMMU, uma avaliação de raciocínio multimodal, pontuando 59,4% em comparação com 56,1% do Gemini Flash e 50,2% do Claude Haiku.

Pontuações de Avaliação do Modelo

Modelo	MMLU	GPQA	DERRUBAR	MGSM	Matemática	Avaliação Humana	MMU	MathVista
GPT-4o mini	82.0	87.0	87.2	59.4	87.0	76.6	59.4	90.2
Gemini Flash	77.9	75.5	71.5	56.1	75.5	70.2	56.1	70.2
Claude Haiku	73.8	71.7	75.9	50.2	71.7	68.0	50.2	56.7
GPT-3.5 Turbo	69.8	56.3	68.0	40.9	68.0	43.1	40.9	46.4
GPT-4o	88.7	83.4	90.5	87.2	90.5	90.2	87.2	63.8

Avaliação e Feedback

Como parte do nosso processo de desenvolvimento de modelo, trabalhamos com vários parceiros confiáveis para entender melhor os casos de uso e as limitações do GPT-4o mini.

Fizemos parcerias com empresas como Ramp e Sobre-Humano, que descobriram que o GPT-4o mini tem um desempenho significativamente melhor do que o GPT-3.5 Turbo em tarefas como extrair dados estruturados de arquivos de recibos e gerar respostas de e-mail de alta qualidade quando fornecido com histórico de threads.

Medidas de Segurança Integradas

A segurança é incorporada em nossos modelos desde o início e reforçada em cada etapa do nosso processo de desenvolvimento.

No pré-treinamento, filtramos informações indesejadas, como discurso de ódio, conteúdo adulto, sites que agregam principalmente informações pessoais e spam.

No pós-treinamento, alinhamos o comportamento do modelo às nossas políticas usando técnicas como aprendizado por reforço com feedback humano (RLHF) para melhorar a precisão e a confiabilidade das respostas dos modelos.

O GPT-4o mini possui as mesmas medidas de segurança do GPT-4o, que avaliamos cuidadosamente usando avaliações automatizadas e humanas.

Mais de 70 especialistas externos em áreas como psicologia social e desinformação testaram o GPT-4o para identificar riscos potenciais, que abordamos e planejamos compartilhar os detalhes no próximo cartão do sistema GPT-4o e no cartão de pontuação de Preparação.

Insights dessas avaliações ajudaram a melhorar a segurança do GPT-4o e do GPT-4o mini.

Com base nesses aprendizados, nossas equipes também trabalharam para melhorar a segurança do GPT-4o mini usando novas técnicas informadas por nossa pesquisa.

O GPT-4o mini na API é o primeiro modelo a aplicar nosso método hierárquico de instruções, que ajuda a melhorar a capacidade do modelo de resistir a jailbreaks, injeções de prompt e extrações de prompt do sistema.

Isso torna as respostas do modelo mais confiáveis e ajuda a torná-lo mais seguro para uso em aplicativos em escala.

Continuaremos monitorando como o GPT-4o mini está sendo usado e melhoraremos a segurança do modelo à medida que identificarmos novos riscos.

Disponibilidade e Preços

O GPT-4o mini está disponível como um modelo de texto e visão na API Assistants, API Chat Completions e API Batch.

Os desenvolvedores pagam 15 centavos por 1 milhão de tokens de entrada e 60 centavos por 1 milhão de tokens de saída (aproximadamente o equivalente a 2500 páginas em um livro padrão). Planejamos lançar o ajuste fino para o GPT-4o mini nos próximos dias.

No ChatGPT, usuários Free, Plus e Team poderão acessar o GPT-4o mini a partir de hoje, no lugar do GPT-3.5.

Usuários Enterprise também terão acesso a partir da próxima semana, alinhados com nossa missão de tornar os benefícios da IA acessíveis a todos.

Qual é o Próximo

Nos últimos anos, testemunhamos avanços notáveis na inteligência de IA combinados com reduções substanciais em custos.

Por exemplo, o custo por token do GPT-4o mini caiu 99% desde o text-davinci-003, um modelo menos capaz introduzido em 2022. Estamos comprometidos em continuar essa trajetória de redução de custos enquanto aprimoramos as capacidades do modelo.

Imaginamos um futuro onde os modelos se tornam perfeitamente integrados em todos os aplicativos e sites.

O GPT-4o mini está abrindo caminho para que os desenvolvedores criem e dimensionem aplicativos de IA poderosos de forma mais eficiente e acessível.

O futuro da IA está se tornando mais acessível, confiável e incorporado em nossas experiências digitais diárias, e estamos animados para continuar a liderar o caminho.