مطالعه هاروارد نشان میدهد هوش مصنوعی در تشخیصهای بخش اورژانس از دو پزشک بهتر عمل کرد

هوش مصنوعی در برابر پزشکان اورژانس
یک مطالعه جدید بهسرپرستی هاروارد نشان میدهد که مدلهای بزرگ زبان ممکن است در تشخیص برخی بیماران اورژانسی بهتر از پزشکان انسان عمل کنند، دستکم در آزمایشهای کنترلشده با استفاده از موارد بالینی واقعی.
این هفته در ساینس منتشر شده، پژوهش عملکرد مدلهای o1 و 4o شرکت اوپنایآی را در چند محیط پزشکی مختلف بررسی کرد، از جمله یک آزمایش مبتنی بر ۷۶ بیماری که از بخش اورژانس Beth Israel مراجعه کرده بودند. سیستمهای هوش مصنوعی با تشخیصهای دو پزشک مسئول رشته داخلی مقایسه شدند و نتایج توسط دو پزشک مسئول دیگر بررسی شد که نمیدانستند آیا یک تشخیص از سوی پزشک بوده یا مدل.
طبق مطالعه، o1 «در هر مرحله تشخیصی یا بهطور اسمی بهتر از دو پزشک مسئول و 4o عمل کرد یا در همان سطح آنها بود». این اختلاف در مرحله اول بیش از همه محسوس بود، زمانی که کارکنان اورژانس کمترین اطلاعات را داشتند و بیشترین فوریت برای تصمیمگیری درست وجود داشت.
بیشترین برتری در تریاژ
دانشکده پزشکی هاروارد گفت پژوهشگران قبل از آزمایش مدلها دادهها را پیشپردازش نکردند. در عوض، سیستمهای هوش مصنوعی همان اطلاعاتی را دریافت کردند که در پرونده پزشکی الکترونیک در زمان هر تشخیص در دسترس بود.
با استفاده از آن اطلاعات، o1 در ۶۷٪ موارد تریاژ تشخیص دقیق یا بسیار نزدیک به دقیق ارائه داد. یک پزشک در ۵۵٪ موارد به این آمار رسید و پزشک دیگر در ۵۰٪ موارد.
«ما مدل هوش مصنوعی را علیه تقریباً هر معیار بنچمارک آزمایش کردیم، و آن هر دو مدل قبلی و مبناهای پزشکان ما را تحتالشعاع قرار داد»، گفت آرجون مانرای، که یک آزمایشگاه هوش مصنوعی در دانشکده پزشکی هاروارد را رهبری میکند و یکی از نویسندگان اصلی مطالعه است، در بیانیه مطبوعاتی مدرسه.
این یافتهها به شواهد رو به رشد اضافه میکنند که مدلهای بزرگ زبان میتوانند در برخی زمینهها ابزارهای تشخیصی قوی باشند، اگرچه مطالعه صراحتاً نمیگوید که آنها آماده جایگزینی پزشکان در اورژانسهای واقعی هستند.
منابع:
Doppler VPN: ۶ موقعیت سرور، پروتکل ویلِس، بدون ردیابی. شروع رایگان.