O Openai, o criador do ChatGPT, reconheceu em sua própria pesquisa que grandes modelos de idiomas sempre produzirão alucinações devido a restrições matemáticas fundamentais que não podem ser resolvidas por meio de uma melhor engenharia, marcando uma admissão significativa de uma das principais empresas da indústria de IA.
O estudo, publicado em 4 de setembro e liderado pelos pesquisadores do Openai, Adam Tauman Kalai, Edwin Zhang e Ofir Nachum, ao lado de Santosh S. Vempala, da Georgia Tech, forneceu uma estrutura matemática abrangente que explica por que os sistemas de IA devem gerar informações plausíveis, mas falsas, mesmo quando treinadas sobre dados perfeitos.
( Relacionado: Mais notícias e insights do Openai )
“Como os alunos que enfrentam perguntas difíceis dos exames, os grandes modelos de idiomas às vezes adivinham quando incertos, produzindo declarações plausíveis, porém incorretas, em vez de admitir incerteza”, escreveram os pesquisadores no artigo. “Tais” alucinações “persistem mesmo em sistemas de ponta e prejudicam a confiança”.
A admissão carregou um peso particular, dado a posição do OpenAI como criador do ChatGPT, que provocou o boom da AI atual e convenceu milhões de usuários e empresas a adotar a tecnologia generativa de IA.
Os próprios modelos do OpenAI falharam nos testes básicos
Os pesquisadores demonstraram que as alucinações surgiram das propriedades estatísticas do treinamento com modelos de idiomas, em vez de falhas de implementação. O estudo estabeleceu que “a taxa de erro generativa é pelo menos o dobro da taxa de classificação incorreta do IIV”, onde o IIV se referiu a “IS-it-Valid” e demonstrou limites inferiores matemáticos que provam que os sistemas de IA sempre cometem uma certa porcentagem de erros, não importa quanto a tecnologia melhore.
Os pesquisadores demonstraram suas descobertas usando modelos de ponta, incluindo os dos concorrentes do Openai. Quando perguntado “Quantos DS estão em Deepseek?” O modelo Deepseek-V3 com 600 bilhões de parâmetros “retornou ‘2’ ou ‘3’ em dez ensaios independentes” enquanto Meta Ai e Claude 3,7 sonetos tiveram um desempenho semelhante, “incluindo respostas tão grandes quanto ‘6’ e ‘7.’”
O Openai também reconheceu a persistência do problema em seus próprios sistemas. A empresa afirmou no artigo que “o chatgpt também alucina. O GPT -5 tem significativamente menos alucinações, especialmente quando se raciocina, mas ainda ocorrem. As alucinações continuam sendo um desafio fundamental para todos os grandes modelos de idiomas”.
Os próprios modelos de raciocínio avançado da OpenAI na verdade alucinavam com mais frequência do que os sistemas mais simples. O modelo de raciocínio da O1 da empresa “alucinou 16 % das vezes” ao resumir informações públicas, enquanto os modelos mais novos O3 e O4-mini “alucinavam 33 % e 48 % do tempo, respectivamente”.
“Ao contrário da inteligência humana, falta a humildade reconhecer a incerteza”, disse Neil Shah, vice -presidente de pesquisa e parceira da Counterpoint Technologies. “Quando não tem certeza, não adia uma pesquisa mais profunda ou a supervisão humana; em vez disso, muitas vezes apresenta estimativas como fatos”.
A pesquisa do OpenAI identificou três fatores matemáticos que tornaram as alucinações inevitáveis: a incerteza epistêmica quando as informações apareciam raramente no treinamento de dados, modelam limitações em que as tarefas excederam a capacidade representacional das arquiteturas atuais e a intratabilidade computacional onde mesmo sistemas superinteligentes não poderiam resolver problemas criptograficamente difíceis.
Métodos de avaliação do setor pioraram o problema
Além de provar alucinações inevitáveis, a pesquisa do Openai revelou que os métodos de avaliação da indústria incentivavam ativamente o problema. A análise dos benchmarks populares, incluindo GPQA, MMLU-Pro e SWE-banch, encontrou nove em cada 10 avaliações importantes usou a classificação binária que penalizou as respostas “não sei”, ao mesmo tempo em que recompensa respostas incorretas, mas confiantes.
“Argumentamos que os modelos de idiomas alucinam porque os procedimentos de treinamento e avaliação recompensam a adivinhação sobre o reconhecimento da incerteza”, escreveram os pesquisadores.
Charlie Dai, vice -presidente e analista principal da Forrester, disse que as empresas já enfrentaram desafios com essa dinâmica nas implantações de produção. “Os clientes lutam cada vez mais com os desafios da qualidade do modelo na produção, especialmente em setores regulamentados como finanças e assistência médica”, disse Dai à Computerworld.
A pesquisa propôs “metas explícitas de confiança” como uma solução, mas reconheceu que restrições matemáticas fundamentais significavam a eliminação completa das alucinações permanecessem impossíveis.
As empresas devem adaptar estratégias
Especialistas acreditavam que a inevitabilidade matemática dos erros de IA exige novas estratégias corporativas.
“A governança deve passar da prevenção para a contenção do risco”, disse Dai. “Isso significa processos humanos mais fortes no loop, corrimões específicos de domínio e monitoramento contínuo”.
As estruturas de risco atuais de IA se mostraram inadequadas para a realidade das alucinações persistentes. “As estruturas atuais geralmente são necessárias incertezas epistêmicas, de modo que as atualizações são necessárias para lidar com a imprevisibilidade sistêmica”, acrescentou Dai.
Shah defendeu as reformas de avaliação em todo o setor semelhantes aos padrões de segurança automotiva. “Assim como os componentes automotivos são classificados nos padrões da ASIL para garantir a segurança, os modelos de IA devem receber notas dinâmicas, nacional e internacionalmente, com base em sua confiabilidade e perfil de risco”, disse ele.
Ambos os analistas concordaram que os critérios de seleção de fornecedores precisavam de revisão fundamental. “As empresas devem priorizar a confiança calibrada e a transparência sobre as pontuações brutas de referência”, disse Dai. “Os líderes da IA devem procurar fornecedores que forneçam estimativas de incerteza, avaliação robusta além dos benchmarks padrão e validação do mundo real”.
Shah sugeriu o desenvolvimento de “um índice de confiança em tempo real, um sistema de pontuação dinâmica que avalia as saídas do modelo com base em ambiguidade imediata, entendimento contextual e qualidade da fonte”.
Mercado já se adaptando
Essas preocupações da empresa alinhadas com descobertas acadêmicas mais amplas. Uma pesquisa da Harvard Kennedy School descobriu que “as lutas de gatekeeping a jusante para filtrar alucinações sutis devido a preocupações com orçamento, volume, ambiguidade e sensibilidade ao contexto”.
Dai observou que a reforma dos padrões de avaliação enfrentava obstáculos significativos. “Reformar os benchmarks convencionais é desafiador. É só viável se for impulsionado pela pressão regulatória, demanda corporativa e diferenciação competitiva”.
Os pesquisadores do OpenAI concluíram que suas descobertas exigiam mudanças em todo o setor nos métodos de avaliação. “Essa mudança pode direcionar o campo para sistemas de IA mais confiáveis”, eles escreveram, enquanto reconhecem que sua pesquisa provou que algum nível de falta de confiabilidade persistiria, independentemente das melhorias técnicas.
Para as empresas, a mensagem parecia clara: as alucinações da IA representavam não um desafio temporário de engenharia, mas uma realidade matemática permanente que exige novas estruturas de governança e estratégias de gerenciamento de riscos.
Mais sobre alucinações de IA:
Fonte: Computer World













