8 meses atrás 13

Como o Google venceu o Claude ao jogar Pokémon

Na última quinta-feira, 10, uma publicação viralizou nary X (ex-Twitter), comparando o modelo de inteligência artificial Gemini, bash Google, que supostamente estaria vencendo o Claude, da Anthropic, em uma disputa curiosa: jogar a trilogia bash videogame Pokémon.

A comparação chamou a atenção dos usuários porque, enquanto o Gemini havia chegado até Lavender Town — uma cidade avançada nary jogo —, o Claude seguia travado nary Monte Moon desde o fim de fevereiro.

Gemini is virtually up of Claude atm successful pokemon aft reaching Lavender Town

119 unrecorded views lone btw, incredibly underrated watercourse pic.twitter.com/8AvSovAI4x

— Jush (@Jush21e8) April 10, 2025

Após o station repercutir, os usuários recorreram ao Reddit para apontar que a "disputa" poderia não ter sido totalmente justa.

De acordo com arsenic declarações, o Gemini contava com a ajuda de um minimapa personalizado, criado pelo desenvolvidor da transmissão realizada na Twitch, um recurso que ajudava o modelo a identificar "blocos" importantes nary jogo e facilitava arsenic decisões — algo que o Claude não tinha à disposição.

O caso reanimou discussões sobre os benchmarks utilizados para avaliar modelos de IA e o portal TechCrunch lembrou de dois episódios que já aconteceram em testes técnicos.

O primeiro caso destacado foi o da Anthropic, que obteve duas pontuações diferentes para o modelo Claude 3.7 Sonnet nary benchmark SWE-bench Verified. Ele alcançou 62,3% de precisão, mas chegou a 70,3% quando usaram um "andaime personalizado", uma ferramenta other criada pela empresa.

Já o segundo caso se trata da Meta, que ajustou uma versão bash modelo Llama 4 Maverick para melhorar seu desempenho nary teste LM Arena. A versão archetypal bash modelo teve uma pontuação significamente pior nary mesmo teste.