ہارورڈ کا مطالعہ: AI نے ایمرجنسی روم میں دو ڈاکٹروں کو پیچھے چھوڑ دیا

اے آئی بمقابلہ ایمرجنسی روم کے ڈاکٹر
ایک نیا ہارورڈ کی قیادت میں کیا گیا مطالعہ تجویز کرتا ہے کہ بڑے لینگویج ماڈلز بعض ایمرجنسی روم کے مریضوں کی تشخیص میں انسانی طبی ماہرین سے بہتر ہو سکتے ہیں، کم از کم تحقیقاتی شرائط میں جہاں اصل کلینیکل کیسز استعمال کیے گئے۔
اس ہفتے سائنس میں شائع ہونے والی تحقیق نے یہ جانچا کہ اوپن اے آئی کے o1 اور 4o ماڈلز مختلف طبی سیٹنگز میں کس طرح کارکردگی دکھاتے ہیں، جن میں سے ایک تجربہ 76 ایسے مریضوں پر مبنی تھا جو بیت اسرائیل کے ایمرجنسی روم سے آئے تھے۔ AI سسٹمز کا موازنہ دو اندرونی میڈیسن کے حاضر طبی ماہرین کی تشخیصوں سے کیا گیا، اور نتائج کی جانچ دو ایسے دوسرے حاضرین نے کی جنہیں معلوم نہیں تھا کہ تشخیص ڈاکٹر نے دی ہے یا ماڈل نے۔
مطالعے کے مطابق، o1 نے "ہر تشخیصی مرحلے پر یا تو ناممکن حد تک بہتر کارکردگی دکھائی یا دونوں حاضرین اور 4o کے برابر رہی"۔ فرق سب سے نمایاں پہلے مرحلے میں تھا، جب ایمرجنسی عملہ کے پاس سب سے کم معلومات ہوتی ہیں اور درست فیصلہ کرنے کی سب سے زیادہ ضرورت ہوتی ہے۔
ٹریاژ میں سب سے مضبوط برتری
ہارورڈ میڈیکل اسکول کے مطابق محققین نے ماڈلز کی جانچ سے پہلے ڈیٹا کو پری پروسیس نہیں کیا۔ اس کے بجائے، AI سسٹمز کو وہی معلومات دی گئیں جو ہر تشخیص کے وقت الیکٹرانک میڈیکل ریکارڈ میں دستیاب تھیں۔
ان معلومات کی بنیاد پر، o1 نے ٹریاژ کے کیسز میں 67% بار بالکل درست یا انتہائی قریب تشخیص پیش کی۔ ایک طبی ماہر نے یہ شرح 55% رکھی، جبکہ دوسرے کی شرح 50% تھی۔
"ہم نے AI ماڈل کو تقریباً ہر بنچ مارک کے خلاف آزمایا، اور اس نے پچھلے ماڈلز اور ہمارے طبی بنیادوں دونوں کو پیچھے چھوڑ دیا،" ارجن منرائی، جو ہارورڈ میڈیکل اسکول میں ایک اے آئی لیب کی قیادت کرتے ہیں اور اس مطالعے کے مرکزی مصنفین میں سے ہیں، نے اسکول کی پریس ریلیز میں کہا۔
یہ نتائج اس بڑھتی ہوئی شہادت میں اضافہ کرتے ہیں کہ بڑے لینگویج ماڈلز کچھ حالات میں مضبوط تشخیصی اوزار ثابت ہو سکتے ہیں، حالانکہ مطالعہ اس نتیجے تک نہیں پہنچتا کہ وہ حقیقی دنیا کی ایمرجنسی صورتحال میں ڈاکٹروں کی جگہ لینے کے لیے تیار ہیں۔
ذرائع:
Doppler VPN: 6 سرور مقامات، وی ایل ای ایس ایس پروٹوکول، کوئی ٹریکنگ نہیں۔ مفت میں شروع کریں.