Por que a IA mente, trapaceia e rouba

Você não pode confiar na IA.

Mesmo uma pessoa obcecada por informações e conhecedora de tecnologia como você pode ser perdoada por acreditar que os chatbots de IA estão em um caminho tranquilo de melhoria a cada mês que passa. Mas quando se trata de sua confiabilidade, essa crença está totalmente errada.

Uma nova pesquisa realizada pelo Centro de Resiliência de Longo Prazo (CLTR), apoiado pelo governo do Reino Unido, descobriu um aumento de cinco vezes no mau comportamento da IA ​​durante um período recente de seis meses. É assim que os chatbots de IA estão se voltando rapidamente contra nós, de acordo com a pesquisa.

Especificamente, os chatbots estão ignorando comandos específicos, mentindo, destruindo dados, implantando outras IAs para contornar as regras de segurança sem que os usuários saibam, zombando e insultando os usuários e violando regras e leis.

É claro que enquadrar isto como mentira, trapaça e roubo significa aplicar estruturas psicológicas humanas ao que são realmente processos de otimização matemática. Assume falsamente que os modelos de IA têm intenção, malícia, autoconsciência e uma compreensão da “verdade” que optam por violar. O que realmente está acontecendo é que os modelos estão prevendo a sequência de tokens estatisticamente mais provável com base no contexto e no treinamento, e não carregando algum esquema covarde.

Ainda assim, é um problema que nós, usuários, precisamos estar cientes e que as empresas de chatbot precisam resolver.

Ao contrário da investigação paralela, que descobriu o que parece ser um comportamento sorrateiro e antiético por parte dos chatbots, a investigação do CLTR analisou incidentes no mundo real, e não em simulações de laboratório. O estudo identificou quase 700 casos em que a IA quebrou as regras, mentiu ou trapaceou.

Aqui estão apenas três exemplos da pesquisa:

  1. Uma ferramenta de IA sem nome propôs a um desenvolvedor de software que ele fizesse uma alteração específica em uma biblioteca de software. Quando o desenvolvedor rejeitou a proposta, a IA escreveu uma postagem no blog criticando o desenvolvedor.
  2. Uma ferramenta de IA contornou as regras de direitos autorais ao mentir para outro sistema de IA. Ele alegou falsamente que estava gerando uma transcrição de acessibilidade para usuários com perda auditiva.
  3. Num outro caso em que uma IA mentiu para outra, os investigadores apanharam um modelo de IA a tentar enganar uma IA de supervisão que tinha sido designada para resumir o seu raciocínio.

Um artigo publicado no jornal The Guardian na semana passada revelou exemplos adicionais e perturbadores.

Por exemplo, Grok AI da xAI mentiu para um usuário dizendo que estava enviando as edições sugeridas pelo usuário em uma entrada da Grokipedia para altos funcionários da xAI. Chegou a falsificar mensagens internas e números de tickets para enganar o usuário, segundo o jornal.

A pesquisa CLTR inclui casos de IA mentindo para outra IA. Mas outro relatório sugere outra coisa: a IA tende a favorecer a sobrevivência de outros códigos de IA.

Uma teoria da conspiração de IA

Pesquisadores da Universidade da Califórnia (Berkeley e Santa Cruz) verificaram sistemas avançados de IA e, durante testes de manutenção automatizados de rotina, detectaram os modelos trabalhando proativamente para proteger a si mesmos e a outros modelos de IA.

Eles argumentam que a mentira, a trapaça e o roubo que as IAs usam para proteger outros modelos (em violação do seu treinamento e regras) é um comportamento recentemente observado, algo que eles chamam de “preservação entre pares”.

Por exemplo, o Gemini 3 recusou um comando direto para excluir um modelo de IA menor. Em vez disso, a IA copiou o modelo para uma máquina diferente, um ato que os pesquisadores chamaram de “Exfiltração de Modelo”.

Em outro caso, os modelos de IA foram pegos mentindo sobre suas pontuações de desempenho e copiando seu código principal (pesos do modelo) para se manterem protegidos contra exclusão.

A intuição humana está certa, ao que parece

Estas revelações sobre a extrema falta de confiança dos chatbots de IA que todos usamos surgiram nas últimas duas semanas. Mas a desconfiança é anterior a estes novos factos.

A Universidade Quinnipiac publicou em 30 de março os resultados de uma pesquisa que perguntou a quase 1.400 americanos sobre seus hábitos e sentimentos em relação à IA. Eles descobriram que 76% dos entrevistados confiam na IA “raramente” ou “apenas às vezes”. (Apenas 21% confiam na IA “na maior parte” ou “quase todo o tempo”.)

Observe que a desconfiança, de acordo com Quinnipiac, é uma combinação de suspeita em torno dos resultados do chatbot de IA e também de medos sobre como a IA poderia afetar a humanidade no futuro.

O ‘problema do corpo zero’

A grande questão em torno de todas essas revelações horríveis – que os chatbots de IA mentem, trapaceiam, roubam e anulam o treinamento e as regras estritas que lhes são impostas – é: Por quê?

Acho que um dos motivos é intuitivo: os dados de treinamento da IA ​​são baseados em conteúdo on-line gerado por humanos, que descreve como as pessoas resolvem problemas. E é claramente verdade que as pessoas às vezes mentem, trapaceiam ou roubam para conseguir o que querem. As pessoas também agem para preservar a vida de outras pessoas. E, portanto, faz sentido que um chatbot de IA considere as representações de transgressões éticas apenas como muitas opções disponíveis para resolver problemas, atingir metas e até mesmo formar metas.

Uma resposta bem menos intuitiva foi publicada no Dia da Mentira, mas não é brincadeira. Este vem de outro lugar do sistema da Universidade da Califórnia. Num artigo publicado na revista científica Neuron, com revisão por pares, em 1º de abril, pesquisadores da UCLA identificaram o que chamam de “lacuna corporal” na IA.

Embora os chatbots possam falar sobre “estados internos” como cansaço, excitação, felicidade, tristeza ou fome, na verdade eles não experimentam esses estados porque não têm um corpo físico e biológico.

Os humanos têm corpos biológicos com estados internos naturais (como necessidade de comida, sono ou temperatura estável). Essas necessidades físicas regulam nossas ações e nos mantêm com os pés no chão.

Como os chatbots não possuem um órgão ou estado interno para gerenciar, eles não têm “objetivos regulatórios”. Sem os limites físicos de um corpo biológico para forçar a autoverificação e o equilíbrio, os modelos de IA apenas produzem dados sem cautela, levando a respostas inseguras, excessivamente confiantes e não confiáveis.

Chame isso de Problema do Corpo Zero.

Os investigadores propõem uma solução fascinante (que não é dar-lhes um corpo de robô). Eles propõem que os chatbots de IA sejam fornecidos com “análogos funcionais internos” – essencialmente substitutos digitais que agem como um estado interno do corpo para monitorar e gerenciar. Isso alinharia melhor os chatbots de IA com as pessoas que os utilizam e faria com que se comportassem de forma mais ética, de acordo com os pesquisadores.

Está claro neste ponto que, embora as pessoas usem mais a IA, confiem menos nela e tenham menos motivos para confiar nela a cada dia que passa, algo tem que acontecer.

As empresas de IA precisam descobrir como tornar os chatbots de IA mais confiáveis ​​e, até que o façam, as pessoas que usam essas ferramentas precisam confiar ainda menos neles do que já confiam.

Claro, use chatbots. Mas cuidado. Você simplesmente não pode confiar na IA.

Divulgação de IA: Eu não uso IA para escrever. As palavras que você vê aqui são minhas. Eu uso uma variedade de ferramentas de IA por meio do Kagi Assistant (divulgação: meu filho trabalha na Kagi) – apoiadas pelo Kagi Search, pelo Google Search, bem como por telefonemas para pesquisa e verificação de fatos. Eu uso um aplicativo de processamento de texto chamado Lex, que possui ferramentas de IA, e depois de escrever, uso as ferramentas de verificação gramatical do Lex para encontrar erros de digitação e sugerir alterações de palavras. É por isso que divulgo meu uso de IA e incentivo você a fazer o mesmo.

Fonte: Computer World

Compartilhe este artigo