מחקר מהרווארד מגלה שבינה מלאכותית עלתה על שני רופאים באבחון בחדר מיון

AI נגד רופאי חדר מיון
מחקר חדש בהובלת הרווארד מציע שמודלי שפה גדולים עשויים להיות טובים יותר מרופאים אנושיים באבחון חלק מהחולים בחדר מיון, לפחות במבחנים מבוקרים שמשתמשים במקרים קליניים אמיתיים.
המחקר, שפורסם השבוע ב-Science, בדק כיצד ביצעו המודלים o1 ו-4o של אופן־איי במספר סביבות רפואיות, כולל ניסוי אחד שהתבסס על 76 חולים שהגיעו לחדר המיון בבית ישראל. מערכות ה-AI הושוו לאבחנות של שני רופאים אחראים במחלות פנימיות, והתוצאות נבדקו על ידי שני רופאים אחראים נוספים שלא ידעו האם האבחנה הגיעה מרופא או ממודל.
לפי המחקר, o1 "ביצע במידה נומינלית טוב יותר או ברמה שווה לשני הרופאים האחראים ול-4o" בכל שלב אבחוני. ההבדל היה בולט ביותר בשלב הראשון, כשצוות חדר המיון זמין על פחות מידע והיה בלחץ הגדול ביותר לקבל את ההחלטה הנכונה.
היתרון החזק ביותר במיון
בית הספר לרפואה של הרווארד מסר שהחוקרים לא ביצעו עיבוד מוקדם של הנתונים לפני בדיקת המודלים. במקום זאת, מערכות ה-AI קיבלו את המידע הזמין ברשומה הרפואית האלקטרונית בזמן שכל אבחנה נעשתה.
בעזרת המידע הזה, o1 נתן את האבחנה המדויקת או קרובה מאוד לה ב-67% מהמקרים בשלב המיון. רופא אחד הגיע לאחוז זה ב-55% מהמקרים, ואילו הרופא השני ב-50% מהמקרים.
"בדקנו את מודל ה-AI מול כמעט כל קריטריון תקני, והוא גבר הן על המודלים הקודמים והן על קווי הבסיס של הרופאים שלנו," אמר ארג'ון מנראי, שמוביל מעבדת AI בבית הספר לרפואה של הרווארד ואחד ממחברי המאמר המובילים, בהודעת העיתונות של הבית ספר.
הממצאים מוסיפים עדות גוברת לכך שמודלי שפה גדולים יכולים להיות כלי אבחון חזק בסביבות מסוימות, אם כי המחקר אינו טוען שהם מוכנים להחליף רופאים במקרי חירום בעולם האמיתי.
מקורות:
Doppler VPN: 6 מיקומי שרתים, פרוטוקול וי־לס, ללא מעקב. התחל בחינם.