PUBLICIDADE

GPT-5.5: O Novo Padrão em Inteligência Artificial Autônoma da OpenAI

29/04/2026
6 visualizações
5 min de leitura
Imagem principal do post

GPT-5.5: OpenAI lança modelo autônomo com resultados expressivos e preço duplicado na API

A OpenAI anunciou no dia 23 de abril o lançamento do GPT-5.5, apresentado pela empresa como uma nova categoria de inteligência voltada para trabalho real e para a execução de agentes autônomos. Trata-se do primeiro modelo de base completamente retreinado desde o GPT-4.5, o que significa que todas as versões intermediárias — como 5.0, 5.1, 5.2 e 5.4 — representavam ajustes incrementais sobre a mesma base. Dessa vez, a companhia construiu o sistema desde a fundação com o objetivo de planejar, utilizar ferramentas, verificar a própria saída e concluir tarefas de forma independente, reduzindo a necessidade de intervenção humana durante o processo.

Imagem complementar

O novo modelo ficou disponível inicialmente para usuários dos planos Plus, Pro, Business e Enterprise dentro do ChatGPT e da plataforma Codex, voltada a tarefas de programação. No dia seguinte, 24 de abril, o acesso por meio de interface de programação de aplicações, ou API, foi liberado para desenvolvedores. A OpenAI também informou que o GPT-5.5 foi coprojetado com os sistemas de rack NVL72 GB200 e GB300 da NVIDIA, uma parceria que ajudou a viabilizar a arquitetura necessária para operar um modelo dessa complexidade.

PUBLICIDADE

Nos testes de referência, os números apresentados pela OpenAI chamam a atenção, especialmente no Terminal-Bench 2.0, uma avaliação que mede a capacidade do modelo de executar fluxos de trabalho em linha de comando, exigindo planejamento e coordenação de ferramentas em um ambiente controlado. O GPT-5.5 atingiu 82,7% de acerto, superando o GPT-5.4 com 75,1% e o Claude Opus 4.7, da Anthropic, com 69,4%. Esse resultado é relevante porque o Terminal-Bench simula cenários de automação de infraestrutura e operações de desenvolvimento, áreas onde a execução autônoma pode trazer ganhos significativos de produtividade.

No SWE-Bench Pro, que avalia a resolução de problemas reais registrados no GitHub, o GPT-5.5 alcançou 58,6%, resolvendo mais questões em uma única tentativa do que as versões anteriores da própria OpenAI. Nesse critério, porém, o Claude Opus 4.7 lidera com 64,3%, o que indica que a Anthropic segue competitiva em tarefas de correção de código aberto. A OpenAI introduziu também o Expert-SWE, um benchmark interno no qual cada tarefa tem um tempo mediano estimado de 20 horas para conclusão por um engenheiro humano. Nesse teste, o GPT-5.5 marcou 73,1%, contra 68,5% do GPT-5.4, sugerindo avanço em problemas de maior complexidade.

Na avaliação de contexto longo, denominada MRCR v2 e executada com um milhão de tokens — unidade que representa fragmentos de texto processados pelo modelo —, o GPT-5.5 atingiu 74,0%, enquanto o GPT-5.4 ficou em 36,6%. Esse salto é particularmente expressivo, pois o teste verifica se o sistema consegue localizar uma resposta específica escondida dentro de um documento extenso, algo essencial para aplicações que envolvem análise de grandes volumes de informações. O modelo também lidera o BrowseComp, benchmark da própria OpenAI que mede a capacidade de navegação autônoma na web, com a versão Pro alcançando 90,1%.

Apesar dos resultados positivos em diversas frentes, há um ponto em que o GPT-5.5 não apresentou desempenho registrado. O MCP Atlas, benchmark de uso de ferramentas desenvolvido pela Scale AI que avalia o Protocolo de Contexto de Modelo, tem como líder o Claude Opus 4.7 com 79,1%. A OpenAI incluiu a própria ausência de pontuação nesse teste em sua tabela comparativa, o que demonstra transparência e sinaliza confiança no desempenho geral do modelo.

Do ponto de vista de custo, o acesso à API do GPT-5.5 na versão padrão custa 5 dólares por cada milhão de tokens de entrada e 30 dólares por cada milhão de tokens de saída, exatamente o dobro do valor cobrado pelo GPT-5.4. A versão Pro, destinada aos planos Pro, Business e Enterprise, é cobrada a 30 dólares por milhão de tokens de entrada e 180 dólares por milhão de tokens de saída, aplicando cálculo computacional adicional em paralelo para problemas mais difíceis. A OpenAI argumenta que o novo modelo resolve as mesmas tarefas do Codex consumindo menos tokens do que a versão anterior, o que tornaria o custo efetivo cerca de 20% mais alto, e não 100%. Essa assertiva foi validada pelo laboratório independente Artificial Analysis.

Na prática, a matemática varia conforme o perfil de uso. Para um volume de 10 milhões de tokens de saída por mês, o GPT-5.5 padrão custaria 300 dólares, contra 250 dólares do Claude Opus 4.7. A diferença só se justifica se o modelo conseguir completar tarefas com menos iterações e menos correções humanas, reduzindo o número total de chamadas necessárias. Empresas que dependem de processos autônomos em grande escala precisarão testar o modelo em suas cargas de trabalho reais antes de decidir pela migração.

Internamente, a OpenAI relata que mais de 85% de seus funcionários já utilizam o Codex semanalmente em departamentos que incluem engenharia e marketing. Um exemplo citado é o da equipe de comunicações, que empregou o GPT-5.5 para processar dados de solicitações de palestras acumulados ao longo de seis meses, com o modelo criando um quadro de pontuação e risco que ajudou a automatizar aprovações de baixa complexidade. Essa aplicação ilustra o conceito de agente inteligente, sistema de inteligência artificial capaz de receber uma tarefa multifacetada e conduzi-la de ponta a ponta com mínima supervisão.

Greg Brockman, presidente da OpenAI, classificou o lançamento como um avanço real em direção ao tipo de computação que a empresa espera para o futuro. Já o cientista-chefe Jakub Pachocki observou que os últimos dois anos de evolução dos modelos haviam parecido surpreendentemente lentos, sugerindo que o GPT-5.5 representa uma aceleração nesse ritmo. A companhia também destacou que o modelo mantém a mesma latência por token do GPT-5.4 em produção, o que nem sempre ocorre quando modelos maiores e mais capazes são lançados, geralmente acompanhados de lentidão adicional.

O desafio agora é verificar se os resultados expressivos nos benchmarks se traduzem em ganhos concretos para equipes que operam pipelines de agentes em ambientes reais. A pontuação no Terminal-Bench 2.0 é promissora para agentes de terminal sem supervisão e automação de operações de infraestrutura. Por outro lado, a lacuna no MCP Atlas merece atenção de quem constrói aplicações intensivas em orquestração de ferramentas. As próximas semanas deverão trazer respostas mais claras sobre o impacto do GPT-5.5 na rotina de desenvolvedores e empresas que adotam inteligência artificial autônoma.

PUBLICIDADE

Leitura recomendada

Comentários

Nenhum comentário ainda. Seja o primeiro a comentar!