Los chatbots superaron rápidamente a los médicos humanos en el razonamiento diagnóstico, el primer paso crucial en la atención clínica, según un nuevo estudio Publicado en la revista Medicina de la naturaleza.
El estudio sugiere que los médicos que tienen acceso a modelos de idiomas grandes (LLM), que sustentan los chatbots generativos de IA (Genai), demuestran un rendimiento mejorado en varias tareas de atención al paciente en comparación con los colegas sin acceso a la tecnología.
El estudio también encontró que los médicos que usan chatbots pasaron más tiempo en casos de pacientes y tomaron decisiones más seguras que aquellos sin acceso a las herramientas de Genai.
La investigación, realizada por más de una docena de médicos en el Beth Israel Diaconess Medical Center (BIDMC), mostró que Genai ha prometido como un socio médico de «toma de decisiones abierta».
«Sin embargo, esto requerirá una validación rigurosa para realizar el potencial de LLM para mejorar la atención al paciente», dijo el Dr. Adam Rodman, director de programas de IA en BIDMC. «A diferencia del razonamiento de diagnóstico, una tarea a menudo con una sola respuesta correcta, en la que se destacan LLMS, el razonamiento de la gerencia puede no tener una respuesta correcta e implica sopesar las compensaciones entre cursos de acción inherentemente riesgosos».
Las conclusiones se basaron en evaluaciones sobre las capacidades de toma de decisiones de 92 médicos, ya que trabajaban a través de cinco casos hipotéticos de pacientes. Se centraron en el razonamiento de gestión de los médicos, que incluye decisiones sobre pruebas, tratamiento, preferencias de pacientes, factores sociales, costos y riesgos.
Cuando se puntuaron las respuestas a sus casos hipotéticos de pacientes, los médicos que usan un chatbot obtuvieron puntajes significativamente más altos que aquellos que usan recursos convencionales solamente. Los usuarios de Chatbot también pasaron más tiempo por caso, en casi dos minutos, y tenían un menor riesgo de daño leve a moderado en comparación con aquellos que usan recursos convencionales (3.7% frente a 5.3%). Sin embargo, las calificaciones de daños graves fueron similares entre los grupos.
«Mi teoría», dijo Rodman, «[is] La IA mejoró el razonamiento de manejo en la comunicación del paciente y los dominios de factores del paciente; No afectó cosas como reconocer complicaciones o decisiones de medicamentos. Utilizamos un alto nivel de daño, daño inmediato, y es poco probable que la mala comunicación cause un daño inmediato «.
Un estudio anterior de 2023 realizado por Rodman y sus colegas arrojaron conclusiones prometedoras, pero cautelosas, sobre el papel de la tecnología Genai. Descubrieron que era «capaz de mostrar el razonamiento equivalente o mejor que las personas a lo largo de la evolución del caso clínico».
Esos datos, publicados en Revista de la Asociación Médica Americana (JAMA), utilizó una herramienta de prueba común utilizada para evaluar el razonamiento clínico de los médicos. Los investigadores reclutaron a 21 médicos asistentes y 18 residentes, que trabajaron en 20 casos clínicos archivados (no nuevos) en cuatro etapas de razonamiento diagnóstico, escritura y justificación de sus diagnósticos diferenciales en cada etapa.
Luego, los investigadores realizaron las mismas pruebas utilizando CHATGPT basado en el GPT-4 LLM. El chatbot siguió las mismas instrucciones y usó los mismos casos clínicos. Los resultados fueron prometedores y preocupantes.
El chatbot obtuvo el mayor puntaje en algunas medidas en la herramienta de prueba, con una puntuación media de 10/10, en comparación con 9/10 para asistentes a los médicos y 8/10 para los residentes. Si bien la precisión diagnóstica y el razonamiento fueron similares entre los humanos y el bot, el chatbot tuvo más casos de razonamiento incorrecto. «Esto resalta que la IA probablemente se usa mejor para aumentar, no reemplazar, razonamiento humano», concluyó el estudio.
En pocas palabras, en algunos casos «los bots también estaban simplemente equivocados», según el informe.
Rodman dijo que no está seguro de por qué el estudio de Genai señaló más errores en el estudio anterior. «El punto de control es diferente [in the new study]por lo que las alucinaciones podrían haber mejorado, pero también varían según la tarea ”, dijo. “Nuestro estudio original se centró en el razonamiento de diagnóstico, una tarea de clasificación con respuestas claras y incorrectas. El razonamiento de la gerencia, por otro lado, es altamente específico del contexto y tiene una variedad de respuestas aceptables «.
Una diferencia clave del estudio original es que los investigadores ahora están comparando dos grupos de humanos, uno que usa IA y otro no, mientras que el trabajo original comparó directamente la IA con los humanos. “Recolectamos una pequeña línea de base solo de AI, pero la comparación se realizó con un modelo de efectos múltiples. Entonces, en este caso, todo está mediado por las personas ”, dijo Rodman.
La investigadora y autora de estudio principal, la Dra. Stephanie Cabral, una residente de medicina interna de tercer año en BIDMC, dijo que se necesita más investigación sobre cómo los LLM pueden encajar en la práctica clínica, «pero ya podrían servir como un punto de control útil para evitar la supervisión.
«Mi última esperanza es que la IA mejore la interacción médico-médico al reducir algunas de las ineficiencias que tenemos actualmente y nos permitirá centrarnos más en la conversación que estamos teniendo con nuestros pacientes», dijo.
El último estudio involucró una nueva versión actualizada de GPT-4, que podría explicar algunas de las variaciones en los resultados.
Hasta la fecha, la IA en la atención médica se ha centrado principalmente en tareas como los mensajes de portal, según Rodman. Pero los chatbots podrían mejorar la toma de decisiones humanas, especialmente en tareas complejas.
«Nuestros hallazgos son prometedores, pero se necesita una validación rigurosa para desbloquear completamente su potencial para mejorar la atención al paciente», dijo. “Esto sugiere un uso futuro para los LLM como un complemento útil para el juicio clínico. Una exploración adicional sobre si la LLM simplemente alienta a los usuarios a reducir la velocidad y reflexionar más profundamente, o si está aumentando activamente el proceso de razonamiento sería valioso «.
La prueba de chatbot ahora ingresará a las dos fases de seguimiento, la primera de las cuales ya ha producido nuevos datos sin procesar para ser analizados por los investigadores, dijo Rodman. Los investigadores comenzarán a considerar una interacción variable del usuario, donde estudian diferentes tipos de chatbots, diferentes interfaces de usuario y educación médica sobre el uso de LLM (como un diseño rápido más específico) en entornos controlados para ver cómo se ve afectado el rendimiento.
La segunda fase también involucrará datos de pacientes en tiempo real, no casos de pacientes archivados.
«También estamos estudiando [human computer interaction] Uso de LLMS seguros, entonces [it’s] Queja HIPAA: para ver cómo se mantienen estos efectos en el mundo real ”, dijo.