Os chatbots de IA são piores que os motores de busca para aconselhamento médico

Há uma clara lacuna entre o conhecimento médico teórico dos grandes modelos de linguagem (LLMs) e a sua utilidade prática para os pacientes, de acordo com um novo estudo do Oxford Internet Institute e do Nuffield Department of Primary Care Health Sciences da Universidade de Oxford. A pesquisa, realizada em colaboração com a MLCommons e outras instituições, envolveu 1.298 pessoas no Reino Unido.

No estudo, pediu-se a um grupo que utilizasse LLMs como GPT-4o, Llama 3 e Command R para avaliar sintomas de saúde e sugerir cursos de acção, enquanto um grupo de controlo confiou nos seus métodos habituais, tais como motores de busca ou no seu próprio conhecimento.

Os resultados mostraram que o grupo que utilizou ferramentas de IA generativa (genAI) não teve melhor desempenho do que o grupo de controle na avaliação da urgência de uma condição. Eles também foram piores na identificação da condição médica correta, de acordo com o The Register.

Fonte: Computer World

Compartilhe este artigo