Harvard-Studie: KI übertraf zwei Ärzte bei Notaufnahme-Diagnosen

KI vs. Notaufnahme-Ärzte
Eine neue von Harvard geleitete Studie legt nahe, dass große Sprachmodelle in einigen Fällen besser als menschliche Ärztinnen und Ärzte darin sein könnten, Notaufnahme-Patienten zu diagnostizieren — zumindest in kontrollierten Tests mit realen klinischen Fällen.
In dieser Woche in Science veröffentlicht, untersuchte die Studie, wie die o1- und 4o-Modelle von OpenAI in verschiedenen medizinischen Umgebungen abschnitten, darunter ein Experiment mit 76 Patientinnen und Patienten, die in die Notaufnahme des Beth Israel gekommen waren. Die KI-Systeme wurden mit den Diagnosen von zwei behandelnden Fachärztinnen und -ärzten verglichen, und die Ergebnisse wurden von zwei weiteren behandelnden Fachärztinnen und -ärzten überprüft, die nicht wussten, ob eine Diagnose von einem Arzt oder von einem Modell stammte.
Laut der Studie erzielte o1 „entweder nominell bessere Ergebnisse als oder war gleichauf mit den beiden behandelnden Fachärztinnen und -ärzten und 4o“ in jeder diagnostischen Phase. Der Unterschied war am deutlichsten im ersten Schritt, als das Notaufnahme-Personal die wenigsten Informationen hatte und die größte Eile bestand, die richtige Entscheidung zu treffen.
Größter Vorteil bei der Triage
Die Harvard Medical School erklärte, die Forschenden hätten die Daten vor dem Testen der Modelle nicht vorverarbeitet. Stattdessen erhielten die KI-Systeme dieselben Informationen, die im elektronischen Patientenakt zum Zeitpunkt der jeweiligen Diagnose verfügbar waren.
Mit diesen Informationen lieferte o1 in 67 % der Triage-Fälle die exakte oder sehr nahe liegende Diagnose. Ein Arzt erreichte diesen Wert in 55 % der Fälle, der andere in 50 % der Fälle.
„Wir haben das KI-Modell gegen praktisch jede Benchmark getestet, und es übertraf sowohl frühere Modelle als auch unsere Ärzte-Benchmarks“, sagte Arjun Manrai, der eine KI-Forschungsgruppe an der Harvard Medical School leitet und einer der Hauptautoren der Studie ist, in einer Pressemitteilung der Schule.
Die Ergebnisse fügen sich in wachsende Erkenntnisse ein, dass große Sprachmodelle in bestimmten Kontexten starke diagnostische Werkzeuge sein können, auch wenn die Studie nicht behauptet, sie seien bereits bereit, Ärztinnen und Ärzte in realen Notfällen zu ersetzen.
Quellen:
Doppler VPN: 6 Serverstandorte, VLESS-Protokoll, kein Tracking. Kostenlos loslegen.