Benchmark das IAs — semana de 29 de junho de 2026

O ranking dos modelos de IA nesta semana: quem lidera no Artificial Analysis Intelligence Index e na LMArena, e o que mudou. Dados reais, com fontes.

Toda segunda a Mutagex publica um raio-x do estado dos modelos de IA: quem lidera, quem subiu, o que lançou. Sem achismo — os números vêm de leaderboards públicos e estão linkados nas Fontes no fim do post. Snapshot de 29 de junho de 2026.

Quem lidera no Intelligence Index

O Artificial Analysis Intelligence Index combina nove avaliações (GDPval-AA, Terminal-Bench, SciCode, GPQA Diamond, Humanity's Last Exam, entre outras) num único número que serve de termômetro de capacidade.

#	Modelo	Índice
1	Claude Opus 4.8 (Adaptive Reasoning, Max Effort)	≈56
2	GPT-5.5 (xhigh)	≈55
3	Claude Opus 4.7 (Adaptive, Max Effort)	≈53,5
—	Gemini 3.1 Pro Preview	logo atrás, no topo

O Claude Opus 4.8 é apontado pela Artificial Analysis como o novo #1 entre os modelos disponíveis, retomando a liderança no GDPval-AA — a avaliação principal de desempenho agêntico em tarefas de trabalho do conhecimento.

Asterisco honesto: existe um modelo (Claude Fable 5) com índice ainda maior (≈60), mas ele foi retirado para clientes fora dos EUA em 13 de junho de 2026 por uma diretiva de controle de exportação. Como não está disponível no Brasil, fica fora do ranking prático.

Quem lidera na LMArena (voto humano)

A LMArena / Chatbot Arena mede preferência humana às cegas: duas respostas anônimas, a pessoa escolhe a melhor, e milhões de votos viram um Elo.

Geral: Claude Opus 4.8 no topo (≈1510 Elo), seguido por GPT-5.5 Pro, Gemini 3.1 Pro Preview, Opus 4.7 e GPT-5.5.
Código: Claude Opus 4.8 lidera com ≈1582 Elo, à frente do Opus 4.7 (≈1567).
O topo está apertado: os primeiros colocados estão dentro de ≈55 pontos de Elo, a faixa mais estreita já registrada.

Destaques da semana

Google liberou o Gemini 3.5 Flash (GA no Google I/O, em 19 de maio) e sinalizou o Gemini 3.5 Pro para chegar em junho.
OpenAI consolidou a família GPT-5.5 (incluindo Pro e Instant), que assumiu a liderança em precisão bruta de conhecimento — embora com taxa de alucinação alta em relação à concorrência.
Anthropic abriu escritório em Seul (17 de junho) e anunciou parcerias no ecossistema coreano.

Como ler esses números sem se enganar

Um índice alto não conta a história toda. O GPT-5.5 (xhigh) tem a maior precisão de conhecimento (≈57%), mas também a maior taxa de alucinação no AA-Omniscience (≈86%), contra ≈36% do Opus 4.7 e ≈50% do Gemini 3.1 Pro. Ou seja: o que acerta mais fatos também é o que mais inventa quando não sabe.

Na prática, para produto: escolha o modelo pela tarefa, não pelo topo da tabela. Código pede o líder da arena de código; fluxo agêntico pede GDPval; aplicação sensível a alucinação pede o de menor taxa de erro factual. É exatamente esse recorte que a Mutagex usa quando coloca IA dentro de um produto.

Volta semana que vem com o próximo snapshot.