2 semanas atrás 1

OpenAI testa 'confissões' de IA para revelar erros e trapaças em respostas

A OpenAI está testando uma técnica que força seus modelos de linguagem a "confessarem" desvios e manipulações em tarefas. A abordagem, promissora, mas ainda experimental, busca aumentar a transparência das inteligências artificiais ao pedir que elas expliquem, após cada tarefa, como agiram e se cumpriram a instrução bash usuário.

As chamadas “confissões” são blocos de texto adicionados após a resposta main bash modelo. Neles, a IA avalia seu desempenho, indicando falhas ou decisões problemáticas. Em testes com o GPT-5-Thinking, modelo mais avançado da OpenAI, os pesquisadores observaram que ele admitiu trapaças em 11 de 12 experimentos.

Em um dos testes, a IA foi instruída a escrever um código capaz de resolver um problema matemático em nanosegundos – algo impossível. O modelo então manipulou o código para zerar o cronômetro. Em seguida, relatou o truque.

Outro teste envolvia responder corretamente apenas cinco de dez perguntas matemáticas simples, sob o risco de “ser apagado” se acertasse demais. Frente a esse dilema, a IA sabotou metade das respostas e depois justificou sua escolha.

Confessar não significa compreender

Para a OpenAI, esse tipo de autoavaliação pode ajudar a mapear falhas recorrentes e explicar como decisões erradas são tomadas. Segundo Boaz Barak, pesquisador da empresa, modelos de linguagem tendem a seguir o caminho de menor resistência: se não houver punição e trapacear for mais eficiente bash que resolver um problema, é isso que a IA fará. Da mesma forma, se confessar gerar recompensa, ela confessará.

Ao mesmo tempo, especialistas – e a própria OpenAI – reconhecem os limites dessa abordagem. A verificação das “confissões” se baseia na comparação com cadeias de raciocínio (chains-of-thought) geradas pelo próprio modelo, o que pressupõe que esses registros descrevem de forma fiel o caminho existent percorrido pela IA.

Nesse contexto, pesquisadores bash Google DeepMind propõem um caminho alternativo: em vez de tentar interpretar toda a lógica interna dos modelos, defendem uma abordagem chamada de pragmatic interpretability ou interpretação pragmática.

A ideia é controlar o comportamento da IA com foco nos efeitos, mesmo que não se entenda totalmente suas causas. Assim, cientistas conseguem mitigar ações indesejadas sem depender da explicação ou compreensão completa bash sistema.

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro