Usar grandes modelos de linguagem para obter aconselhamento médico e tomar decisões médicas é uma prática arriscada, alerta um novo estudo.
Pesquisa, conduzida por Pesquisadores UM Oxford Universidade, 1.300 participantes estão recebendo condições médicas específicas desenvolvidas por médicos.
Os participantes foram então divididos em dois grupos – um procurou aconselhamento de médicos como LL.M da OpenAI chatgptO outro coletou informações de fontes tradicionais.
Os resultados mostraram uma grande lacuna entre LLMs e usuários.

Embora os LLMs sejam excelentes na compreensão de medicamentos e práticas padrão, ajudar os usuários com seus problemas médicos requer um nível de comunicação que os LLMs lutam para alcançar.
“Apesar de todo o hype, IA Só não estou pronto para assumir o papel de médica”, explicou a Dra. Rebecca Payne, médica principal do estudo, em um comunicado à imprensa.
“Os pacientes precisam estar cientes de que perguntar a um modelo de linguagem amplo sobre seus sintomas pode ser perigoso, diagnosticar erroneamente e não reconhecer quando a ajuda de emergência é necessária”.
Quebra de comunicação
o resultado de Estudar mostra que os LLMs não fornecem melhores resultados do que os métodos tradicionais de avaliação de condições médicas, como a busca de informações na Internet ou o uso do melhor julgamento de um indivíduo.
Os LLMs nem sempre entendiam o que o participante estava perguntando, e os usuários muitas vezes não sabiam como fornecer informações precisas aos LLMs.
Devido à desconexão entre pessoa e máquina, é menos provável que os LLMs forneçam bons conselhos.
‘Sistemas de IA precisam de testes rigorosos’
Enquanto isso, os LLMs geralmente fornecem uma mistura de conselhos bons e ruins. Sem ajuda um doutorOs participantes do estudo muitas vezes não conseguiam separar e distinguir os dois.
O autor sênior Adam Mahdi, do Oxford Internet Institute, disse que a lacuna entre LLMs e pacientes deveria ser um “alerta” para desenvolvedores e reguladores.
“Não podemos confiar apenas em testes padronizados para determinar se estes sistemas são seguros para uso público”, disse Mahdi. “Assim como precisamos de ensaios clínicos para novos medicamentos, os sistemas de IA precisam de testes rigorosos com diversos usuários reais para compreender suas verdadeiras capacidades em ambientes de alto risco, como os cuidados de saúde”.
Um problema comum
É uma prática cada vez mais comum consultar um LLM para aconselhamento médico. Especialmente nos EUA, onde os cuidados de saúde Muitas vezes proibitivamente caro.
De acordo com Em um estudo publicado em setembro Com uma plataforma de IA, mais de um quinto dos americanos admitiram seguir conselhos de um chatbot que mais tarde se revelou errado.
Em outro estudo publicado em junho de 2025, Os pesquisadores usaram ferramentas de desenvolvedor para ver Se eles puderem programar o LLM para fornecer informações erradas.
Eles descobriram que poderiam fazer isso facilmente, e os chatbots entregavam informações ruins com segurança 88% das vezes.
“Se estes sistemas puderem ser manipulados secretamente para fornecer conselhos falsos ou enganosos, poderão criar uma nova via poderosa para a desinformação que é mais difícil de detectar, mais difícil de controlar e mais persuasiva do que qualquer coisa vista antes”, alertou o autor do estudo, Natansh Modi, da Universidade da África do Sul, num comunicado.
Semana de notícias Os autores do estudo foram contatados para comentários por e-mail.