A convocação ocorre dias após o criador do ChatGPT ter apresentado um novo modelo, conhecido como OpenAI o1, que “destruiu os benchmarks de raciocínio mais populares”, disse Dan Hendrycks, diretor-executivo do CAIS e consultor da startup xAI de Elon Musk.
Hendrycks foi coautor de dois artigos em 2021 que propuseram testes para sistemas de IA que agora são amplamente utilizados: um testando o conhecimento em nível de graduação no ensino superior sobre temas como história dos EUA e o outro avaliando a capacidade dos modelos de raciocínio matemático em nível das competições sobre a disciplina. O teste para nível de graduandos tem mais downloads no hub de IA online Hugging Face do que qualquer outro conjunto de dados similar.
Na época desses artigos, a IA dava respostas quase aleatórias às perguntas das provas. “Agora eles são facilmente respondidos”, Hendrycks disse à Reuters.
Por exemplo, os modelos Claude, do laboratório de IA Anthropic, atingiram uma pontuação de cerca de 77% no teste de nível graduandos em 2023 e chegaram a quase 89% um ano depois, de acordo com um importante ranking.
Como resultado, esses testes comuns de referência passam a ficar menos importantes.
A IA parece ter ido mal em testes menos conhecidos que envolvem formulação de planos e quebra-cabeças de reconhecimento de padrões visuais, de acordo com o Relatório de Índice de IA da Universidade de Stanford, divulgado em abril. O OpenAI o1 marcou cerca de 21% em uma versão do teste de reconhecimento de padrões ARC-AGI, por exemplo, disseram os organizadores do ARC na sexta-feira.

German (DE)
English (US)
Spanish (ES)
French (FR)
Hindi (IN)
Italian (IT)
Portuguese (BR)
Russian (RU)
1 ano atrás
92


/https://i.s3.glbimg.com/v1/AUTH_08fbf48bc0524877943fe86e43087e7a/internal_photos/bs/2025/p/f/gfaVLRQD6lUE3m2Kwuew/1ece32964be68fdaa1bdd12c4f41e55f3a68ff6b66860be05af47d4b53449efb.jpg)


:strip_icc()/i.s3.glbimg.com/v1/AUTH_59edd422c0c84a879bd37670ae4f538a/internal_photos/bs/2023/l/g/UvNZinRh2puy1SCdeg8w/cb1b14f2-970b-4f5c-a175-75a6c34ef729.jpg)










Comentários
Aproveite ao máximo as notícias fazendo login
Entrar Registro