Existe una clara brecha entre el conocimiento médico teórico de los grandes modelos de lenguaje (LLM) y su utilidad práctica para los pacientes, según no un nuevo estudio del Oxford Internet Institute y del Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford. En la investigación, realizada en colaboración con MLCommons y otras instituciones, participaron 1.298 personas en el Reino Unido.
En el estudio, se pidió a un grupo que utilizara LLM como GPT-4o, Llama 3 y Command R para evaluar síntomas de salud y sugerir cursos de acción, mientras que un grupo de control se basó en sus métodos habituales, como motores de búsqueda o su propio conocimiento.
Los resultados mostraron que el grupo que utilizó herramientas de IA generativa (genAI) no obtuvo mejores resultados que el grupo de control al evaluar la urgencia de una afección. También fueron peores a la hora de identificar la afección médica correcta, según El Registro.


