Dos herramientas médicas basadas en inteligencia artificial (IA) igualaron o superaron a los médicos en una serie de decisiones de diagnóstico y tratamiento. Este es el indicio más reciente de que los grandes modelos de lenguaje (LLM) especializados en salud se están acercando a demostrar su valor clínico.
MIRA, desarrollada por investigadores en Alemania, superó a los médicos en el análisis de enfermedades como el cáncer de páncreas y la neumonía, mientras que AMIE, de Google, generó planes de tratamiento y de investigación más precisos que los humanos, según los resultados publicados el miércoles en la revista científica Nature.
Los estudios sugieren que las herramientas de IA especializadas en salud pueden ofrecer un mejor asesoramiento médico que los modelos de IA de consumo general. Sin embargo, sus creadores y expertos independientes advirtieron que las pruebas se realizaron en simulaciones controladas y que esto no significa que las herramientas estén listas para uso clínico en el mundo real.
"Estamos obteniendo un adelanto de cómo la IA podría transformar la medicina", afirmó Jakob Kather, cuyo grupo académico en la Universidad Técnica de Dresde (TUD Dresden) y la Universidad de Heidelberg codesarrolló MIRA.
"Considero que los agentes de IA son similares al sistema de piloto automático de un avión. Estos sistemas pueden apoyar y aliviar a los profesionales médicos al encargarse de tareas rutinarias, pero la responsabilidad última recaerá siempre en los médicos", añadió.
MIRA utiliza datos de pacientes provenientes de un sistema de historia clínica electrónica y puede elegir entre más de 85.000 opciones, que incluyen solicitar pruebas diagnósticas, recetar medicamentos y programar procedimientos. Los investigadores la probaron utilizando información de más de 500 casos clínicos de servicios de urgencias, transmitida a través de chats con agentes de IA que actuaban como pacientes.
MIRA alcanzó una precisión diagnóstica del 87,1 % en ocho condiciones médicas, incluyendo apendicitis y embolias pulmonares, según el artículo de Nature. Esta cifra se comparó con el 78,1 % logrado por un panel de seis médicos de diversas especialidades.
AMIE utilizó el modelo de IA Gemini de Google para responder a la información proporcionada por actores que simulaban ser pacientes. Los científicos compararon el desempeño de AMIE con el de 21 médicos de atención primaria en 100 escenarios de casos con múltiples consultas, basados en las directrices de práctica clínica y las recomendaciones sobre medicamentos vigentes en el Reino Unido.
Los científicos descubrieron que AMIE igualó a los médicos reales en cuanto a capacidad de razonamiento para la gestión de pacientes y que sus planes se ajustaron mejor a las directrices que los de los profesionales humanos. Asimismo, superó el razonamiento de los médicos respecto a la medicación en casos complejos.
Ambos modelos de IA presentaban limitaciones, según reconocieron sus creadores. MIRA llegó a sugerir una "atención que se apartaba de las mejores prácticas" para una fracción "pequeña, aunque no nula" de pacientes, señalaron los investigadores.
La información sobre los casos proporcionada por los agentes de IA podría haber sido "más estructurada que el discurso real de los pacientes en los servicios de urgencias", presentando menos omisiones e inconsistencias, añadieron.
El estudio sobre AMIE supuso un "hito", pero ni la variedad de casos ni los escenarios clínicos basados en texto eran representativos de un entorno clínico real, afirmaron los desarrolladores de la herramienta de IA.
AMIE demostró "capacidades prometedoras", pero "no estaba lista para su implementación en el mundo real" y requería más trabajo para mitigar problemas como los errores de razonamiento latentes, indicaron los científicos.
Investigadores ajenos a los estudios elogiaron su rigor, pero coincidieron en señalar la salvedad de que ambos se basaban en simulaciones de pacientes cuidadosamente controladas.
"Esto dista mucho del mundo caótico, complejo y humano de la atención sanitaria cotidiana", afirmó Catherine Pope, profesora de sociología médica en la Universidad de Oxford.
Muchos de los casos en los que se observó la superioridad de los modelos de IA reflejaban la "precisión y exhaustividad de los planes" que ofrecían, más que mostrar "diferencias claras en cuanto a la corrección clínica", señaló Julie Jacko, catedrática de informática sanitaria y ciencia de datos en la Universidad de Edimburgo.
"En general, se trata de un estudio experimental sólido y de un avance significativo, pero demuestra su rendimiento frente a un estándar estructurado en lugar de captar plenamente la complejidad de la toma de decisiones clínicas reales", comentó Jacko.
También surgió la "duda sobre el origen real de la ventaja de AMIE", dado que, en una de las pruebas de referencia, los modelos de IA de propósito general habían obtenido resultados similares, apuntó Wei Xing, profesor adjunto de la Escuela de Ciencias Matemáticas y Físicas de la Universidad de Sheffield.
"Esto sugiere que la ventaja de AMIE podría reflejar el rápido progreso general de los modelos de IA, más que el sistema específico desarrollado en torno a la herramienta misma", afirmó.
Michael Peel. Copyright The Financial Times Limited 2026. © 2026 The Financial Times Ltd. All rights reserved. Please do not copy and paste FT articles and redistribute by email or post to the web.
Compartir esta nota
