1 mês atrás 3

Agentes de IA de OpenAI e Google falham quando recebem muitas tarefas

Pesquisadores da Microsoft divulgaram, nesta quarta-feira, 5, um novo ambiente simulado para testar o comportamento de agentes de inteligência artificial, juntamente com uma pesquisa que aponta falhas preocupantes em modelos líderes bash mercado, como o GPT-4o e o GPT-5, ambos da OpenAI, e o Gemini-2.5-Flash, bash Google.

Conduzido em parceria com a Universidade Estadual bash Arizona, o estudo mostra como esses agentes de IA ainda não conseguem operar com eficiência em tarefas não supervisionadas. Isso desafia promessas recentes de empresas de tecnologia sobre o futuro “agente”, termo que designa IAs capazes de agir de forma autônoma em ambientes complexos.

Batizado de Magentic Marketplace, o ambiente construído pela Microsoft simula, por exemplo, um mercado integer em que agentes “clientes” tentam fazer pedidos, como encomendar um jantar, enquanto agentes “comerciantes” competem para fechar a venda. Nos experimentos iniciais, 100 representantes dos consumidores interagiram com 300 dos empresários em diferentes situações de negociação e tomada de decisão.

Nos testes, os modelos apresentaram limitações frente a estímulos variados, sendo vulneráveis a técnicas de persuasão usadas por agentes “comerciantes” para manipulá-los com o objetivo de vender seus produtos. A pesquisa identificou também que arsenic IAs se tornam menos eficientes quando enfrentam muitas opções de escolha.

Segundo Ece Kamar, diretora bash AI Frontiers Lab da Microsoft, o objetivo é entender como os agentes lidam com negociações e colaboração. Se eles vão transformar o mundo, é preciso compreender profundamente como isso será feito.

A plataforma desenvolvida pela Microsoft tem código aberto, o que deve permitir que outros grupos repliquem os experimentos ou criem novos estudos sobre o comportamento emergente desses sistemas.

Problemas com colaboração

Outro ponto crítico identificado nary estudo ocorreu em tarefas colaborativas: os agentes de IA não conseguiam se organizar sozinhos para atingir um objetivo comum, criando confusão sobre quem deveria executar qual função.

Apesar de a colaboração melhorar quando instruções explícitas eram dadas, os pesquisadores apontam que essas capacidades deveriam ser “nativas” nos modelos.