Na última quinta-feira, 10, uma publicação viralizou nary X (ex-Twitter), comparando o modelo de inteligência artificial Gemini, bash Google, que supostamente estaria vencendo o Claude, da Anthropic, em uma disputa curiosa: jogar a trilogia bash videogame Pokémon.
A comparação chamou a atenção dos usuários porque, enquanto o Gemini havia chegado até Lavender Town — uma cidade avançada nary jogo —, o Claude seguia travado nary Monte Moon desde o fim de fevereiro.
Gemini is virtually up of Claude atm successful pokemon aft reaching Lavender Town
119 unrecorded views lone btw, incredibly underrated watercourse pic.twitter.com/8AvSovAI4x
— Jush (@Jush21e8) April 10, 2025
Após o station repercutir, os usuários recorreram ao Reddit para apontar que a "disputa" poderia não ter sido totalmente justa.
De acordo com arsenic declarações, o Gemini contava com a ajuda de um minimapa personalizado, criado pelo desenvolvidor da transmissão realizada na Twitch, um recurso que ajudava o modelo a identificar "blocos" importantes nary jogo e facilitava arsenic decisões — algo que o Claude não tinha à disposição.
O caso reanimou discussões sobre os benchmarks utilizados para avaliar modelos de IA e o portal TechCrunch lembrou de dois episódios que já aconteceram em testes técnicos.
O primeiro caso destacado foi o da Anthropic, que obteve duas pontuações diferentes para o modelo Claude 3.7 Sonnet nary benchmark SWE-bench Verified. Ele alcançou 62,3% de precisão, mas chegou a 70,3% quando usaram um "andaime personalizado", uma ferramenta other criada pela empresa.
Já o segundo caso se trata da Meta, que ajustou uma versão bash modelo Llama 4 Maverick para melhorar seu desempenho nary teste LM Arena. A versão archetypal bash modelo teve uma pontuação significamente pior nary mesmo teste.

German (DE)
English (US)
Spanish (ES)
French (FR)
Hindi (IN)
Italian (IT)
Portuguese (BR)
Russian (RU)
8 meses atrás
13





:strip_icc()/i.s3.glbimg.com/v1/AUTH_59edd422c0c84a879bd37670ae4f538a/internal_photos/bs/2023/l/g/UvNZinRh2puy1SCdeg8w/cb1b14f2-970b-4f5c-a175-75a6c34ef729.jpg)










Comentários
Aproveite ao máximo as notícias fazendo login
Entrar Registro