Chatbot de inteligência clínica Google Amie foi testado em 149 consultas simuladas. Veredito: o modelo linguístico se saiu tão bem ou melhor que médicos reais, em termos de precisão de diagnósticos e empatia.Um sistema de inteligência artificial treinado para realizar consultas médias igualou e mesmo superou o desempenho de médicos humanos na conversa com pacientes simulados, informou a revista especializada Nature. O chatbot foi até capaz de enumerar possíveis diagnósticos, a partir do histórico clínico apresentado.

Baseado num modelo de LLM (large language model), desenvolvido pela Google, o chatbot Articulate Medical Intelligence Explorer (Amie), foi mais preciso no diagnóstico de condições respiratórias e cardiovasculares, entre outras patologias, do que profissionais de cuidados de saúde primários licenciados.

No experimento abrangendo seis especialidades clínicas, a qualidade da conversa foi avaliada segundo 26 critérios, incluindo tanto a capacidade de explicar a enfermidade e seu tratamento, quanto empatia, cortesia, sinceridade e expressão de interesse e comprometimento. A IA venceu em 24 desses quesitos, além de conseguir extrair um volume de informações comparável ao alcançado pelos clínicos humanos, a partir da conversa teclada com os pacientes.

“Isso não significa, em absoluto, que um modelo linguístico seja melhor do que os médicos na hora de elaborar um histórico clínico”, frisa o coautor do estudo Alan Karthikesalingam, especialista em pesquisa clínica da Google Health, em Londres. “Os médicos de cuidados primários participantes provavelmente não estavam acostumados a interagir com os pacientes através de um chat baseado em texto, e isso deve ter afetado seu desempenho.”

O futuro da democratização dos cuidados de saúde?

O Amie da Google ainda é puramente experimental, não tendo sido testado com pacientes com problemas de saúde reais, mas, sim, com indivíduos treinados para representar esse papel.

“Queremos que os resultados sejam interpretados com cautela e humildade”, pediu Karthikesalingam. “Que nós saibamos, é a primeira vez que um sistema de IA conversacional é otimizado para o diálogo diagnóstico e a elaboração de um histórico clínico.”

Para o médico internista Adam Rodman, da Faculdade de Medicina de Harvard em Boston, Estados Unidos, embora sendo uma ferramenta útil, o Amie não deveria substituir as interações físicas com os profissionais.

“Medicina é muito mais do que compilar informação: trata-se de relações humanas”, comentou à Nature.

O estudo foi publicado em 11 de janeiro no repositório ArXiv, de artigos científicos ainda não revisados por pares. Seus autores acenam que, com o tempo, o chatbot poderia desempenhar um papel na “democratização dos cuidados de saúde”.

Um dos desafios que enfrentaram foi a escassez de registros de consultas reais para serem utilizados como dados pela ferramenta, conta Vivek Natarajan, pesquisador de IA da Google Health em Mountain View, na Califórnia.

Para compensar essa deficiência, desenvolveram um algoritmo para o chatbot se autotreinar com suas próprias “conversas”, usando históricos médicos eletrônicos e consultas transcritas, assim como interpretações do papel de um doente concreto e de um médico “empático”, ou mesmo de um crítico avaliando tais interações.

Parcialidade e privacidade

Os pesquisadores recrutaram 20 “falsos pacientes” previamente treinados para realizar as consultas online através de texto, tanto com o Amie quanto com 20 médicos licenciados, mas sem lhes dizer se se tratava de um humano ou de um bot. Depois de simularem 149 cenários clínicos, pediu-se que avaliassem sua experiência.

A equipe da Google pretende em seguida realizar estudos mais detalhados, visando detectar possíveis vieses e garantir que o sistema seja imparcial com diferentes grupos populacionais. Além disso, está analisando os requisitos éticos para testá-lo com portadores de problemas clínicos reais.

Falando à Nature, Daniel Ting, cientista clínico especializado em IA da Faculdade de Medicina Duke-NUS, de Singapura, saúda que se examine o sistema em busca de vieses, de modo que o algoritmo não penalize grupos raciais menos representados nos conjuntos de dados prévios.

A privacidade dos usuários também é um aspecto importante a se ter em conta, lembra Ting.

“No caso de muitas dessas grandes plataformas comerciais de modelos linguísticos, ainda não estamos seguros de onde se armazenam os dados e como são analisados.”

av/le (DW, ots)