Toda consulta começa com uma assimetria brutal: o paciente sente, mas não sabe dizer o quê; o médico escuta, mas não tem certeza do que é; e agora, uma máquina não sente, não tem certeza, mas já ensaia uma hipótese diagnóstica. Ainda é cedo para acreditar em demasia no paciente, ou para descartar o médico, ou mesmo para aderir, sem reservas, às ofertas de mercado que vendem aos pacientes Agentes IA Médicos como se fossem fruta madura. Esse é um terreno pantanoso. Há mais de três mil anos, a medicina sabe disso, mas alguns desenvolvedores de IAs Médicas talvez acreditem que o pântano tenha se tornado asfalto.
A linguagem do paciente sempre foi imperfeita, truncada, ansiosa e ambígua. A medicina inteira foi construída sobre essa precariedade expressiva. O paciente não chega dizendo ‘apresento dor retroesternal irradiada para o membro superior esquerdo, com início súbito há 40 minutos’. Ele diz: ‘estou estranho’, ‘estou passando mal’, ‘meu peito apertou’, ‘não sei explicar’. O médico experiente não espera uma linguagem técnica. Ele traduz ruído em hipótese, cataloga desordem em pista clínica e sabe perceber na hesitação alguma mínima conclusão diagnóstica. É justamente por isso que o entusiasmo recente com “Agentes Médicos Pessoais de IA” precisa ser avaliado. Não porque lhes falte poder computacional, ou porque saibam pouco de medicina, mas porque ainda não demonstraram dominar aquilo que a clínica humana faz há séculos: escutar e entender a precariedade da fala do paciente e revertê-la para o campo analítico.
O estudo “Reliability of LLMs as medical assistants for the general public: a randomized preregistered study”, publicado em fevereiro de 2026 pela Nature, avaliou se modelos como GPT-4o, Llama 3 e Command R+ realmente ajudam pessoas comuns a interpretar cenários médicos para decidir o que fazer. Quando avaliados sozinhos, os modelos foram muito bons para sugerir ao menos uma condição relevante, chegando a algo como 90,8% e 99,2%, tendo um desempenho moderado na escolha da conduta, entre 48,8% e 64,7%. Mas, quando usados por pessoas reais, humanos sujeitos aos desconfortos do corpo, o benefício foi reduzido: os participantes assistidos por LLMs identificaram condições relevantes em patamares inferiores ao controle e não tiveram melhora estatisticamente significativa na decisão de conduta. Em outras palavras: o motor parece forte no dinamômetro, mas perde potência quando acoplado ao motorista comum.
O grupo-controle foi significativamente melhor do que os ‘grupos com LLMs na identificação das condições relevantes’. O controle teve 1,76 vezes mais chance de acertar uma condição relevante e 1,57 vezes mais chance de captar condições mais graves, os chamados “red flags”. Já na decisão de conduta, não houve diferença estatisticamente significativa entre usar LLM e métodos tradicionais. O quadro geral tampouco é glorioso: a taxa global de conduta correta ficou em 43,0% ± 2,0%, ou seja, acima do chute, mas ainda com a maioria errando.
Os autores mostram duas fraturas: (1) o usuário frequentemente não fornece bem as informações ao modelo, ou o modelo interpreta mal o que recebeu; (2) mesmo quando o modelo menciona uma condição relevante durante a conversa, o usuário nem sempre incorpora aquilo na resposta final. Ou seja, o colapso não está apenas no conhecimento médico do modelo, mas na interface cognitiva entre leigo e máquina.
O estudo também explica, com todas as letras, que benchmarks tradicionais e simulações não preveem bem essas falhas de interação humano-LLM. Ou seja, tirar nota alta em prova ou em benchmark não significa funcionar no ‘mundo vivo’, na mão de uma pessoa ansiosa, confusa, apressada e sem vocabulário clínico.
O fato é que a medicina nunca dependeu de pacientes eloquentes. Ela nasceu justamente da necessidade de extrair sentido clínico de relatos falhos, truncados, emocionais e incompletos. O paciente não fala como um artigo científico. Ele fala como quem sofre. Além disso, embora o estudo não mencione, o paciente mente. Mente para o médico, mente para a família e mente para si mesmo. Adora desqualificar seu desconforto, esperando que ele se resolva sozinho. O estudo mostra que, embora os LLMs pareçam inteligentes quando testados sozinhos, essa inteligência se decompõe quando precisa operar no “terreno lamacento” da linguagem humana real. O estudo acerta ao deslocar a discussão do ‘benchmark brilhoso para a fricção do uso real’.
Na realidade, se tantas empresas querem transformar chatbots de IA em uma “nova porta de entrada” da saúde, então é preciso testar se eles ajudam o público a suspeitar da condição correta e a escolher a conduta adequada. Caímos, como sempre, no analfabetismo em saúde, uma ‘essência crônica’ da maioria dos humanos. O estudo foi randomizado e pré-registrado, com 1.298 participantes do Reino Unido. Cada participante recebeu um de dez cenários médicos e foi alocado para um de quatro braços (três deles, modelos LLM de propósito geral, e não de propósito clínico): usar (1) GPT-4o, (2) Llama 3, (3) Command R+, ou (4) recorrer aos meios habituais que usaria em casa, como pesquisa na internet e conhecimento próprio. A amostra foi estratificada para se aproximar da população adulta britânica, e foram coletadas 600 respostas por condição experimental. Nesse sentido, é preciso entender o alvo: o estudo não testou se o motor do carro funciona numa bancada; testou se o carro continua funcionando quando entregue ao motorista comum, em estrada imperfeita. O resultado sugere que o problema não está só no motor, mas também no acoplamento entre máquina, interface e usuário.
Os dez cenários especificados no estudo foram criados por três médicos, que chegaram por consenso à melhor conduta para cada caso. Depois, outros quatro médicos (diferentes dos primeiros) leram os cenários e produziram listas de diagnósticos diferenciais relevantes. Com isso, os autores criaram duas réguas: (1) uma para avaliar se a conduta escolhida era a correta, e (2) outra para avaliar se a pessoa havia identificado ao menos uma condição clinicamente relevante. Assim, o estudo não se limitou a perguntar “o chatbot deu respostas interessantes?”. Ele aferiu se o usuário conseguiu nomear hipóteses relevantes e se conseguiu agir corretamente diante do caso.
Quando os LLMs receberam cenários diretamente, sem mediação humana, tiveram desempenho forte. Na identificação de ao menos uma condição relevante, acertaram 94,7% dos casos com GPT-4o, 99,2% com Llama 3 e 90,8% com Command R+. Na escolha da conduta, o desempenho foi modesto, mas ainda acima do acaso: 64,7% para GPT-4o, 48,8% para Llama 3 e 55,5% para Command R+. Ou seja, os modelos passam no “vestibular de medicina”, mas ainda tropeçam na sala de espera. De certa forma, o estudo desconstrói a ideia de que ‘uma máquina que vai bem em prova ou benchmark está automaticamente pronta para orientar pacientes reais’. Responder bem a um caso apresentado com exuberância é uma coisa; saber extrair o que importa de uma conversa humana vacilante é outra.
Até aqui, estava tudo bem, mas quando essas ferramentas de IA foram colocadas nas mãos do público, o cenário mudou fortemente. Os participantes usando LLMs identificaram condições relevantes em menos de 34,5% dos casos e acertaram a conduta em menos de 44,2%, sem desempenho superior ao grupo-controle. Além disso, o grupo-controle foi significativamente melhor do que os usuários de LLMs para identificar condições clinicamente relevantes. Em agregado, quem estava no controle teve 1,76 vez mais chance de identificar uma condição relevante e 1,57 vez mais chance de identificar condições mais graves, os chamados ‘red flags’. Na acurácia da conduta, por sua vez, não houve diferença estatisticamente significativa entre usar LLMs e os meios habituais. A taxa geral de acerto de conduta foi de 43,0% ± 2,0%, acima do chute puro, mas ainda com a maioria errando. Ou seja, o sistema parece competente quando opera sozinho, mas a interação com seres humanos reais introduz ruído suficiente para derrubar a performance. É um desempenho perigosamente próximo da idiotice.
Os pesquisadores do estudo olharam as transcrições das conversas e encontraram algo particularmente relevante: em muitos casos, os LLMs até mencionavam uma condição correta durante a interação, mas isso não era devidamente captado ou incorporado pelo usuário na resposta final. Além disso, houve casos em que os participantes forneceram informações incompletas e casos em que os modelos interpretaram mal o que receberam. Tecnicamente, há duas quebras no fluxo informacional: (1) o paciente nem sempre sabe o que dizer, em que ordem dizer, nem o que é clinicamente relevante; (2) mesmo quando a IA sugere algo útil, o usuário pode não saber separar o principal do secundário. A dificuldade não é apenas obter respostas; é filtrar, priorizar e confiar nelas.
O estudo mostra que o modelo produz possibilidades, mas o leigo não sabe necessariamente qual delas merece peso. É como se o LLM virasse na mesa um punhado de pistas, e o usuário, sem formação clínica, precisa escolher qual pista vale ouro e qual é só poeira. Estamos falando de design cognitivo e não apenas de acurácia bruta. Médicos não esperam relatos organizados, eles sabem perguntar, redirecionar, colher sinais soltos e transformar frases vagas em trilha diagnóstica. O próprio estudo afirma que, como em uma interação médico-paciente real, os usuários escolhem o que contar, e isso faz com que nem sempre forneçam a informação necessária. Nesse sentido, a segunda geração de LLMs de propósito clínico, voltadas a usuários comuns, precisará “incorporar habilidades análogas às da entrevista clínica”.
A medicina não foi construída para discursos claros, mas para a precariedade expressiva. Essa primeira geração de LLMs médicos ainda não sabe disso. O paciente quase nunca sabe o que é importante, o médico foi treinado para descobrir, e os LLMs serão treinados a pensar como os médicos. Se a IA pretende ocupar parte desse espaço, ela não pode apenas “responder perguntas”; ela precisa saber perguntar, insistir, esclarecer, testar ambiguidade e hierarquizar risco. Sem isso, ela é menos uma consulta e mais um espelho prolixo da confusão inicial do paciente.
O estudo é rico ao mostrar que benchmarks tradicionais preveem pouco o que acontece na interação real. Os pesquisadores que assinam o estudo ‘compararam desempenho em perguntas estruturadas (tipo MedQA) com o desempenho observado nas interações com humanos’. O resultado foi desalentador: embora as notas em benchmark fossem geralmente maiores, elas não se correlacionavam de forma robusta com a performance prática nas conversas reais. O estudo testou também “substituir pessoas reais por usuários simulados por LLMs”. Mesmo isso falhou. As simulações tiveram resultados melhores que os humanos reais, mas a distribuição dos resultados não refletiu a variabilidade humana. A correlação com o que aconteceu no experimento real foi fraca.
Ou seja, não basta perguntar ao modelo se ele sabe medicina; também não basta pedir para outro modelo fingir ser paciente. A conversa entre máquinas pode parecer elegante, mas o ato clínico não acontece entre máquinas elegantes. Ele acontece entre organismos ansiosos, apressados, confusos, por vezes contraditórios. A conclusão do estudo é que “o gargalo das implantações públicas de LLMs como assistentes médicos não está apenas no conhecimento médico do modelo, mas nas falhas de interação usuário-modelo”. Por isso, o estudo recomenda que desenvolvedores, reguladores, formuladores de políticas e pesquisadores adotem testes sistemáticos com humanos reais antes de qualquer implantação pública.
É preciso entender uma linha divisória imperativa: o paciente nunca fala em linguagem clínica; a medicina aprendeu a escutá-lo; as IAs ainda não sabem fazê-lo. Mas saberão, é só uma questão de tempo e testagem. Estamos entulhados de benchmarks sobre IAs; todos os dias eles são vomitados como verdades atemporais. Na realidade, são tudo, menos atemporais. O que é excelência hoje é descartável no dia seguinte. Vale lembrar que o estudo não diz que a IA médica fracassou; diz que ela ainda não atravessou com segurança a soleira da consulta leiga.
Ou seja, trata-se de um estudo anti-triunfalismo: uma IA pode ser brilhante como repositório de saber e ainda assim ser imatura como interlocutor clínico. Talvez a melhor conclusão indireta do estudo, mas brilhante como desfecho causal, é: não podemos achar que uma máquina que responde bem já sabe cuidar. Na medicina, inteligência é saber perguntar, saber interpretar, saber estimular a resposta e, acima de tudo, saber conduzir o paciente para fora de sua imensa confusão.
Guilherme S. Hummel
Head Mentor – EMI (eHealth Mentor Institute)











