دراسة جامعة هارفارد تجد أن الذكاء الاصطناعي تفوق على طبيبين في تشخيصات غرفة الطوارئ

الذكاء الاصطناعي مقابل أطباء غرفة الطوارئ
تقترح دراسة جديدة بقيادة جامعة هارفارد أن نماذج اللغة الكبيرة قد تكون أفضل من الأطباء البشر في تشخيص بعض مرضى غرفة الطوارئ، على الأقل في اختبارات مضبوطة استخدمت حالات سريرية حقيقية.
نُشرت هذه الدراسة هذا الأسبوع في مجلة ساينس، وفحصت كيف أدّت نماذج أوبن إي آي o1 و4o عبر عدة بيئات طبية، بما في ذلك تجربة واحدة استندت إلى 76 مريضًا دخلوا غرفة الطوارئ بمستشفى بيث إسرائيل. تمت مقارنة أنظمة الذكاء الاصطناعي بتشخيصات اثنين من أطباء الباطنة المقيمين، ومراجَعة النتائج من قبل طبيبين مقيمين آخرين لم يكونا على علم بما إذا كان التشخيص صادرًا عن طبيب أم عن نموذج.
وفقًا للدراسة، فقد أدّى نموذج o1 «إما أداءً أفضل اسمياً أو أداءً معادلاً للأطباء المقيمين الاثنين ونموذج 4o» في كل مرحلة تشخيصية. وكان الفرق أكثر وضوحًا في الخطوة الأولى، عندما كان لدى طاقم غرفة الطوارئ أقل قدر من المعلومات وكانت الحاجة لاتخاذ القرار الصحيح أكبر.
أكبر ميزة في مرحلة الفرز
أفادت كلية الطب بجامعة هارفارد أن الباحثين لم يقوموا بمعالجة مسبقة للبيانات قبل اختبار النماذج. وبدلاً من ذلك، تلقّت أنظمة الذكاء الاصطناعي نفس المعلومات المتاحة في السجل الطبي الإلكتروني وقت إجراء كل تشخيص.
باستخدام تلك المعلومات، قدّم نموذج o1 التشخيص الدقيق أو تشخيصًا قريبًا جدًا في 67% من حالات الفرز. وصل أحد الأطباء إلى تلك النسبة في 55% من الحالات، بينما وصلت النسبة لدى الطبيب الآخر إلى 50%.
"اختبرنا نموذج الذكاء الاصطناعي مقابل كل معيار تقريبًا، وقد تجاوز كلا النماذج السابقة وخطوط الأساس لأطبائنا"، قال أرجون مانراي، الذي يقود مختبرًا للذكاء الاصطناعي في كلية الطب بجامعة هارفارد وهو أحد المؤلفين الرئيسيين للدراسة، في البيان الصحفي للكلية.
تضيف النتائج إلى الأدلة المتزايدة على أن نماذج اللغة الكبيرة يمكن أن تكون أدوات تشخيص قوية في بيئات معينة، مع أن الدراسة توقفت عند عدم تأكيد جاهزيتها لاستبدال الأطباء في حالات الطوارئ الواقعية.
المصادر:
Doppler VPN: 6 مواقع خوادم، بروتوكول VLESS، صفر تتبّع. ابدأ مجانًا.