TECNOLOGIA

ChatGPT erra diagnóstico na análise de 87% de casos pediátricos, revela novo estudo

Pesquisadores americanos não descartam potencial da novas tecnologia, mas apontam desafios que ainda impedem seu uso mais amplo

Chat GPT - Reprodução/ChatGPT

Desde que os modelos de linguagem avançados (LLM) feitos com inteligência artificial se popularizaram por meio do ChatGPT, diversas áreas têm buscado entender como a tecnologia pode ajudar ou não. Na medicina, não é diferente: uma série de estudos publicados nos últimos meses avaliam, por exemplo, a capacidade de o chatbot inteligente, desenvolvido pela OpenAI, identificar diagnósticos com base no relato clínico de um paciente, como histórico e sintomas.

Alguns trabalhos têm indicado taxas altas de acerto: um que contou com pesquisadores da Universidade de Harvard, nos Estados Unidos, analisou 36 casos clínicos e apresentou uma precisão de 71,7% ao identificar os diagnósticos. Porém, a primeira análise feita com casos pediátricos mostra um resultado bem diferente: ao menos com as crianças, a taxa foi significativamente inferior, de somente 17% de acerto, e 83% de erro.

O trabalho, publicado nesta semana na revista científica JAMA Pediatrics, foi conduzido por um trio de especialistas do Centro Médico para Crianças Cohen, em Nova York, nos EUA. Os responsáveis selecionaram 100 casos registrados entre 2013 e 2023 e pediram que ChatGPT, na versão 3.5, respondesse qual era o diagnóstico. Os testes foram feitos em julho.

Em seguida, o próximo passo foi avaliar se o diagnóstico fornecido correspondia, ou não, àquele definido pelo médico. Para isso, dois especialistas independentes foram recrutados para analisar cada uma e as categorizar como “correta”, “incorreta” ou que “não capturou totalmente o diagnóstico”. Com base nos resultados, o ChatGPT teve uma taxa de erro de 83%, ou seja, de 83 dos 100 casos.

Destes 83, 11 chegaram a ser relacionados clinicamente, porém muito amplos, por isso foram enquadrados como que "não capturou totalmente o diagnóstico". Outros 72 foram completamente incorretos, e apenas 17 acertaram.
 

Ainda assim, os pesquisadores ponderam que "a maioria dos diagnósticos incorretos gerados pelo chatbot (47 dos 83 [56,7%]) pertenciam ao mesmo sistema de órgãos do diagnóstico correto (por exemplo, psoríase e dermatite seborreica). Eles explicam ainda que não descartam o potencial da IA na medicina:

“Apesar da alta taxa de erro do chatbot, os médicos devem continuar a investigar as aplicações dos LLMs na medicina. LLMs e chatbots têm potencial como ferramenta administrativa para médicos, demonstrando proficiência na redação de artigos de pesquisa e na geração de instruções para pacientes".

Para eles, os resultados revelados pelo novo trabalho reforçam o papel indispensável dos médicos, mas mostram que há caminhos para uma implementação mais ampla do uso do chatbot pelos profissionais.

“O desempenho de diagnóstico desanimador do chatbot observado neste estudo sublinha o papel inestimável que a experiência clínica desempenha. O chatbot avaliado neste estudo – ao contrário dos médicos – não foi capaz de identificar algumas relações, como a entre autismo e deficiências vitamínicas. Para melhorar a precisão do diagnóstico do chatbot de IA generativo, provavelmente será necessário um treinamento mais seletivo”, escrevem.

Eles explicam que os LLMs são geralmente treinados de forma inespecífica com base numa grande quantidade de dados da Internet, que “muitas vezes podem ser imprecisos”. Por isso, destacam que algumas tecnologias específicas para a medicina já vem sendo treinadas apenas com dados médicos confiáveis, o que pode superar essa barreira.

Além disso, acrescentam que “a deficiência de alguns LLMs e chatbots é a falta de acesso em tempo real a informações médicas”. “Isto impede que alguns chatbots se mantenham atualizados com novas pesquisas, critérios de diagnóstico e tendências atuais de saúde ou surtos de doenças”, dizem.