Une étude de Harvard conclut que l'IA a surpassé deux médecins dans les diagnostics aux urgences

L'IA contre les médecins des urgences
Une nouvelle étude dirigée par Harvard suggère que les grands modèles de langage pourraient être meilleurs que des médecins humains pour diagnostiquer certains patients des urgences, du moins dans des tests contrôlés utilisant de vrais dossiers cliniques.
Publiée cette semaine dans Science, la recherche a examiné les performances des modèles o1 et 4o d'OpenAI dans plusieurs contextes médicaux, y compris une expérience basée sur 76 patients passés par les urgences de Beth Israel. Les systèmes d'IA ont été comparés aux diagnostics de deux médecins titulaires en médecine interne, et les résultats ont été évalués par deux autres médecins titulaires qui ne savaient pas si un diagnostic venait d'un médecin ou d'un modèle.
Selon l'étude, o1 « a soit obtenu de meilleurs résultats de manière nominale, soit été à égalité avec les deux médecins titulaires et 4o » à chaque étape diagnostique. La différence était la plus nette à la première étape, lorsque le personnel des urgences disposait du moins d'informations et devait prendre la bonne décision en urgence.
Avantage le plus net au triage
La Harvard Medical School a indiqué que les chercheurs n'ont pas prétraité les données avant de tester les modèles. Au lieu de cela, les systèmes d'IA ont reçu les mêmes informations disponibles dans le dossier médical électronique au moment où chaque diagnostic a été posé.
En utilisant ces informations, o1 a produit le diagnostic exact ou très proche dans 67 % des cas de triage. Un des médecins a atteint ce taux dans 55 % des cas, tandis que l'autre l'a fait dans 50 % des cas.
« Nous avons testé le modèle d'IA contre pratiquement tous les repères, et il a dépassé à la fois les modèles antérieurs et nos bases de référence médicales », a déclaré Arjun Manrai, qui dirige un laboratoire d'IA à la Harvard Medical School et est l'un des auteurs principaux de l'étude, dans le communiqué de l'école.
Les conclusions viennent s'ajouter aux preuves croissantes que les grands modèles de langage peuvent être de puissants outils diagnostiques dans certains contextes, même si l'étude s'abstient d'affirmer qu'ils sont prêts à remplacer les médecins lors d'urgences réelles.
Sources :
Doppler VPN : 6 emplacements de serveurs, protocole VLESS, aucun suivi. Commencez gratuitement.