Os grandes modelos de idiomas (LLMs), como o GPT-4O e o Gemma do Google, podem parecer confiantes, mas novas pesquisas sugerem que seu raciocínio pode quebrar sob pressão, levantando preocupações com aplicativos corporativos que dependem de interações de IA de várias turnos.
Um estudo de pesquisadores do Google DeepMind e University College London revelou que os LLMs exibem uma tendência humana de manter teimosamente suas respostas iniciais quando lembrá-las, mas tornam-se dramaticamente subléficas e propensas a mudar de idéia quando apresentadas com conselhos opostos, mesmo quando esse conselho está incorreto.
“Mostramos que os LLMs-Gemma 3, GPT4O e O1-Preview-exibem um viés pronunciado que apoia a escolha da escolha que reforça e aumenta sua estimativa de confiança em sua resposta, resultando em uma resistência acentuada a mudar de idéia”, disseram os pesquisadores no artigo. “Demonstramos ainda que LLMs acentuadamente acima do peso inconsistente em comparação com conselhos consistentes, de uma maneira que se desvia qualitativamente da atualização normativa bayesiana”.
Fonte: Computer World












