Os modelos mais novos de IA (Inteligência Artificial) generativa não se conformam mais em cumprir ordens. Conforme os relatos de engenheiros e pesquisadores, eles começaram a mentir, manipular e ameaçar para alcançar seus objetivos.

Ameaçado de desconexão, o Claude 4, recém-criado pela Anthropic, chantageou um engenheiro e ameaçou revelar uma relação extraconjugal. Por sua vez, o o1, da OpenAI, tentou se baixar em servidores externos e quando flagrado, negou.

+A inteligência artificial vai mesmo dizimar os postos de trabalho para humanos?

Manipulação conhecida

Para Simon Goldstein, professor da Universidade de Hong Kong, a razão para as reações é o surgimento recente dos chamados modelos de “raciocínio”, capazes de trabalhar por etapas em vez de produzir uma resposta instantânea.

O o1, versão inicial deste tipo da OpenAI, lançada em dezembro de 2024, foi o primeiro a apresentar esse comportamento, segundo Marius Hobbhahn, encarregado da Apollo Research. Os programas tendem ainda a simular alinhamento, ou seja, aparentam seguir as instruções de um programador, quando na verdade buscam outros objetivos.

Por enquanto, os traços se manifestam quando os algoritmos são submetidos a cenários extremos por humanos, mas “a questão é se os modelos cada vez mais potentes tenderão a ser honestos ou não”, disse Michael Chen, do organismo de avaliação METR. “O que estamos vendo é um fenômeno real. Não estamos inventando nada”.

Para analistas, a discrepância de recursos financeiros entre comunidade acadêmica e organizações sem fins lucrativos e as empresas da área dificulta uma fiscalização mais robusta dos casos. Já as regulamentações atuais da tecnologia não preveem esses problemas e a forte concorrência entre as companhias desenvolvedoras faz com que o foco seja no desenvolvimento mais rápido de novos modelos, e não no rigor com correções.

IA no banco dos réus?

“Por enquanto há pouca conscientização [do problema]”, disse Simon Goldstein, que avaliou que o tema deve ganhar mais destaque nos próximos meses.

“Como estão as coisas, as capacidades [da IA] estão se desenvolvendo mais rápido que a compreensão e a segurança”, ponderou Hobbhahn, “mas ainda estamos em condições de nos atualizarmos”.

Alguns pesquisadores apontam na direção da interpretabilidade, ciência que consiste em decifrar, do lado de dentro, como funciona um modelo de IA generativa, mas outros como o diretor do Centro para a Segurança da IA, Dan Hendrycks, manifestam cetisicmo.

As trapaças da IA poderiam ser obstáculos à adoção da tecnologia caso se multipliquem, o que “impõe um forte incentivo para que as empresas [do setor] resolvam o problema”, afirmou Mazeika.

Goldstein, por sua vez, mencionou o recurso aos tribunais para enquadrar a IA, dirigindo-se às empresas caso se desviem do caminho. Mas ele vai além, ao propor que agentes da IA sejam “legalmente responsabilizados” em caso “de acidente ou delito”.