Estudio de Harvard encuentra que la IA superó a dos médicos en diagnósticos de urgencias

IA vs. médicos de urgencias
Un nuevo estudio liderado por Harvard sugiere que los grandes modelos de lenguaje pueden ser mejores que los médicos humanos para diagnosticar a algunos pacientes de urgencias, al menos en pruebas controladas usando casos clínicos reales.
Publicado esta semana en Science, la investigación examinó cómo se desempeñaron los modelos o1 y 4o de OpenAI en varios entornos médicos, incluyendo un experimento basado en 76 pacientes que pasaron por la sala de emergencias del Beth Israel. Los sistemas de IA se compararon con los diagnósticos de dos médicos asistentes de medicina interna, y los resultados fueron revisados por otros dos médicos asistentes que no sabían si un diagnóstico provenía de un médico o de un modelo.
Según el estudio, o1 "se desempeñó ya sea nominalmente mejor o al mismo nivel que los dos médicos asistentes y 4o" en cada etapa diagnóstica. La diferencia fue más notable en el primer paso, cuando el personal de urgencias tenía la menor cantidad de información y la mayor urgencia para tomar la decisión correcta.
Mayor ventaja en el triaje
Harvard Medical School dijo que los investigadores no preprocesaron los datos antes de probar los modelos. En su lugar, los sistemas de IA recibieron la misma información disponible en la historia clínica electrónica en el momento en que se hizo cada diagnóstico.
Usando esa información, o1 produjo el diagnóstico exacto o muy cercano en el 67% de los casos de triaje. Un médico alcanzó ese porcentaje en el 55% de las ocasiones, mientras que el otro lo hizo en el 50% de los casos.
"Probamos el modelo de IA frente a prácticamente todos los puntos de referencia, y superó tanto a modelos previos como a nuestros puntos de referencia de médicos", dijo Arjun Manrai, que dirige un laboratorio de IA en Harvard Medical School y es uno de los autores principales del estudio, en el comunicado de prensa de la escuela.
Los hallazgos se suman a la creciente evidencia de que los grandes modelos de lenguaje pueden ser herramientas diagnósticas potentes en ciertos entornos, aunque el estudio no llega a afirmar que estén listos para reemplazar a los médicos en emergencias del mundo real.
Fuentes:
Doppler VPN: 6 ubicaciones de servidor, protocolo VLESS, sin seguimiento. Comienza gratis.