Tecnologia

OpenAI admite que as alucinações de IA são matematicamente inevitáveis, não apenas falhas de engenharia – computação

Redação

setembro 21, 2025
No Comments

O Openai, o criador do ChatGPT, reconheceu em sua própria pesquisa que grandes modelos de idiomas sempre produzirão alucinações devido a restrições matemáticas fundamentais que não podem ser resolvidas por meio de uma melhor engenharia, marcando uma admissão significativa de uma das principais empresas da indústria de IA.

O estudo, publicado em 4 de setembro e liderado pelos pesquisadores do Openai, Adam Tauman Kalai, Edwin Zhang e Ofir Nachum, ao lado de Santosh S. Vempala, da Georgia Tech, forneceu uma estrutura matemática abrangente que explica por que os sistemas de IA devem gerar informações plausíveis, mas falsas, mesmo quando treinadas sobre dados perfeitos.

( Relacionado: Mais notícias e insights do Openai )

“Como os alunos que enfrentam perguntas difíceis dos exames, os grandes modelos de idiomas às vezes adivinham quando incertos, produzindo declarações plausíveis, porém incorretas, em vez de admitir incerteza”, escreveram os pesquisadores no artigo. “Tais” alucinações “persistem mesmo em sistemas de ponta e prejudicam a confiança”.

https://www.youtube.com/watch?v=xgp5q_w-lcy

A admissão carregou um peso particular, dado a posição do OpenAI como criador do ChatGPT, que provocou o boom da AI atual e convenceu milhões de usuários e empresas a adotar a tecnologia generativa de IA.

Os próprios modelos do OpenAI falharam nos testes básicos

Os pesquisadores demonstraram que as alucinações surgiram das propriedades estatísticas do treinamento com modelos de idiomas, em vez de falhas de implementação. O estudo estabeleceu que “a taxa de erro generativa é pelo menos o dobro da taxa de classificação incorreta do IIV”, onde o IIV se referiu a “IS-it-Valid” e demonstrou limites inferiores matemáticos que provam que os sistemas de IA sempre cometem uma certa porcentagem de erros, não importa quanto a tecnologia melhore.

Os pesquisadores demonstraram suas descobertas usando modelos de ponta, incluindo os dos concorrentes do Openai. Quando perguntado “Quantos DS estão em Deepseek?” O modelo Deepseek-V3 com 600 bilhões de parâmetros “retornou ‘2’ ou ‘3’ em dez ensaios independentes” enquanto Meta Ai e Claude 3,7 sonetos tiveram um desempenho semelhante, “incluindo respostas tão grandes quanto ‘6’ e ‘7.’”

O Openai também reconheceu a persistência do problema em seus próprios sistemas. A empresa afirmou no artigo que “o chatgpt também alucina. O GPT -5 tem significativamente menos alucinações, especialmente quando se raciocina, mas ainda ocorrem. As alucinações continuam sendo um desafio fundamental para todos os grandes modelos de idiomas”.

Os próprios modelos de raciocínio avançado da OpenAI na verdade alucinavam com mais frequência do que os sistemas mais simples. O modelo de raciocínio da O1 da empresa “alucinou 16 % das vezes” ao resumir informações públicas, enquanto os modelos mais novos O3 e O4-mini “alucinavam 33 % e 48 % do tempo, respectivamente”.

“Ao contrário da inteligência humana, falta a humildade reconhecer a incerteza”, disse Neil Shah, vice -presidente de pesquisa e parceira da Counterpoint Technologies. “Quando não tem certeza, não adia uma pesquisa mais profunda ou a supervisão humana; em vez disso, muitas vezes apresenta estimativas como fatos”.

A pesquisa do OpenAI identificou três fatores matemáticos que tornaram as alucinações inevitáveis: a incerteza epistêmica quando as informações apareciam raramente no treinamento de dados, modelam limitações em que as tarefas excederam a capacidade representacional das arquiteturas atuais e a intratabilidade computacional onde mesmo sistemas superinteligentes não poderiam resolver problemas criptograficamente difíceis.

Métodos de avaliação do setor pioraram o problema

Além de provar alucinações inevitáveis, a pesquisa do Openai revelou que os métodos de avaliação da indústria incentivavam ativamente o problema. A análise dos benchmarks populares, incluindo GPQA, MMLU-Pro e SWE-banch, encontrou nove em cada 10 avaliações importantes usou a classificação binária que penalizou as respostas “não sei”, ao mesmo tempo em que recompensa respostas incorretas, mas confiantes.

“Argumentamos que os modelos de idiomas alucinam porque os procedimentos de treinamento e avaliação recompensam a adivinhação sobre o reconhecimento da incerteza”, escreveram os pesquisadores.

Charlie Dai, vice -presidente e analista principal da Forrester, disse que as empresas já enfrentaram desafios com essa dinâmica nas implantações de produção. “Os clientes lutam cada vez mais com os desafios da qualidade do modelo na produção, especialmente em setores regulamentados como finanças e assistência médica”, disse Dai à Computerworld.

A pesquisa propôs “metas explícitas de confiança” como uma solução, mas reconheceu que restrições matemáticas fundamentais significavam a eliminação completa das alucinações permanecessem impossíveis.

As empresas devem adaptar estratégias

Especialistas acreditavam que a inevitabilidade matemática dos erros de IA exige novas estratégias corporativas.

“A governança deve passar da prevenção para a contenção do risco”, disse Dai. “Isso significa processos humanos mais fortes no loop, corrimões específicos de domínio e monitoramento contínuo”.

As estruturas de risco atuais de IA se mostraram inadequadas para a realidade das alucinações persistentes. “As estruturas atuais geralmente são necessárias incertezas epistêmicas, de modo que as atualizações são necessárias para lidar com a imprevisibilidade sistêmica”, acrescentou Dai.

Shah defendeu as reformas de avaliação em todo o setor semelhantes aos padrões de segurança automotiva. “Assim como os componentes automotivos são classificados nos padrões da ASIL para garantir a segurança, os modelos de IA devem receber notas dinâmicas, nacional e internacionalmente, com base em sua confiabilidade e perfil de risco”, disse ele.

Ambos os analistas concordaram que os critérios de seleção de fornecedores precisavam de revisão fundamental. “As empresas devem priorizar a confiança calibrada e a transparência sobre as pontuações brutas de referência”, disse Dai. “Os líderes da IA devem procurar fornecedores que forneçam estimativas de incerteza, avaliação robusta além dos benchmarks padrão e validação do mundo real”.

Shah sugeriu o desenvolvimento de “um índice de confiança em tempo real, um sistema de pontuação dinâmica que avalia as saídas do modelo com base em ambiguidade imediata, entendimento contextual e qualidade da fonte”.

Mercado já se adaptando

Essas preocupações da empresa alinhadas com descobertas acadêmicas mais amplas. Uma pesquisa da Harvard Kennedy School descobriu que “as lutas de gatekeeping a jusante para filtrar alucinações sutis devido a preocupações com orçamento, volume, ambiguidade e sensibilidade ao contexto”.

Dai observou que a reforma dos padrões de avaliação enfrentava obstáculos significativos. “Reformar os benchmarks convencionais é desafiador. É só viável se for impulsionado pela pressão regulatória, demanda corporativa e diferenciação competitiva”.

Os pesquisadores do OpenAI concluíram que suas descobertas exigiam mudanças em todo o setor nos métodos de avaliação. “Essa mudança pode direcionar o campo para sistemas de IA mais confiáveis”, eles escreveram, enquanto reconhecem que sua pesquisa provou que algum nível de falta de confiabilidade persistiria, independentemente das melhorias técnicas.

Para as empresas, a mensagem parecia clara: as alucinações da IA representavam não um desafio temporário de engenharia, mas uma realidade matemática permanente que exige novas estruturas de governança e estratégias de gerenciamento de riscos.

Mais sobre alucinações de IA:

https://www.youtube.com/watch?v=xgp5q_w-lcy

Fonte: Computer World

Compartilhe este artigo

Ao clicar no botão Inscrever-se, você confirma que leu nossa Política de Privacidade.

SAIBA MAIS

OpenAI admite que as alucinações de IA são matematicamente inevitáveis, não apenas falhas de engenharia – computação

( Relacionado: Mais notícias e insights do Openai )

Os próprios modelos do OpenAI falharam nos testes básicos

Métodos de avaliação do setor pioraram o problema

As empresas devem adaptar estratégias

Mercado já se adaptando

Compartilhe este artigo

Inscrever-se

Últimas Notícias

BYD eleva ambição global e projeta superar meta de exportações com 1,5 milhão em 2026

choque do petróleo pressiona inflação, mas BC incorpora impacto com cautela

O que o assistente de IA de Mark Zuckerberg pode ensinar aos CEOs sobre liderança

PSD dá exemplo de democracia ao escolher Caiado, diz Ratinho Junior

A câmera de segurança movida a energia solar da Eufy atinge seu preço mais baixo: 40% de desconto

Leak revela ‘Mythos’ da Anthropic, um poderoso modelo de IA voltado para casos de uso de segurança cibernética

Categorias em destaque

Mais Notícias

BYD eleva ambição global e projeta superar meta de exportações com 1,5 milhão em 2026

choque do petróleo pressiona inflação, mas BC incorpora impacto com cautela

O que o assistente de IA de Mark Zuckerberg pode ensinar aos CEOs sobre liderança

PSD dá exemplo de democracia ao escolher Caiado, diz Ratinho Junior

A câmera de segurança movida a energia solar da Eufy atinge seu preço mais baixo: 40% de desconto

Leak revela ‘Mythos’ da Anthropic, um poderoso modelo de IA voltado para casos de uso de segurança cibernética

Acesso restrito – Le Monde

Mestres das culturas tradicionais e populares são reconhecidos na CBO

Deixe um comentário

Fique por dentro das últimas notícias

A verdade não tem lados e sim fatos!

Tendências Agora

O que o assistente de IA de Mark Zuckerberg pode ensinar aos CEOs sobre liderança

PSD dá exemplo de democracia ao escolher Caiado, diz Ratinho Junior

Espaçolaser estuda parcerias em wellness para crescer além da depilação, diz CEO

Categorias Populares

Informação

Fale Conosco