งานวิจัยฮาร์วาร์ดพบ AI ทำผลงานดีกว่าแพทย์ 2 คนในการวินิจฉัยในห้องฉุกเฉิน

AI เทียบกับแพทย์ห้องฉุกเฉิน
งานวิจัยใหม่ที่นำโดยฮาร์วาร์ดชี้ว่า large language models อาจวินิจฉัยผู้ป่วยบางรายในห้องฉุกเฉินได้ดีกว่าผู้รักษาทางการแพทย์ในมนุษย์ อย่างน้อยในการทดสอบแบบควบคุมที่ใช้กรณีทางคลินิกจริง
ตีพิมพ์สัปดาห์นี้ใน วารสารไซแอนซ์ งานวิจัยได้ตรวจสอบการทำงานของโมเดล o1 และ 4o ของโอเพนเอไอ ในหลายสภาพแวดล้อมทางการแพทย์ รวมถึงการทดลองหนึ่งที่อิงกับผู้ป่วย 76 คนที่เข้ามาที่ห้องฉุกเฉินของโรงพยาบาลเบธ อิสราเอล ระบบ AI ถูกเปรียบเทียบกับการวินิจฉัยจากแพทย์เจ้าหน้าที่อายุรกรรมสองคน และผลลัพธ์ถูกทบทวนโดยแพทย์เจ้าหน้าที่อีกสองคนที่ไม่ทราบว่าการวินิจฉัยมาจากแพทย์หรือโมเดล
ตามงานวิจัย โมเดล o1 “ให้ผลการทำงานที่โดยนามดีกว่าหรือเทียบเท่ากับแพทย์เจ้าหน้าที่ทั้งสองและโมเดล 4o” ในแต่ละขั้นตอนการวินิจฉัย ความแตกต่างชัดที่สุดในขั้นตอนแรกเมื่อทีม ER มีข้อมูลน้อยที่สุดและมีความเร่งด่วนมากที่สุดในการตัดสินใจให้ถูกต้อง
ข้อได้เปรียบเด่นที่สุดที่การคัดกรอง
Harvard Medical School ระบุว่านักวิจัยไม่ได้ทำการปรับแต่งหรือประมวลผลข้อมูลล่วงหน้าก่อนทดสอบโมเดล แต่ระบบ AI ได้รับข้อมูลเดียวกันกับที่มีอยู่ในบันทึกเวชระเบียนอิเล็กทรอนิกส์ในขณะที่การวินิจฉัยแต่ละครั้งถูกทำขึ้น
จากข้อมูลนั้น o1 ให้การวินิจฉัยที่ตรงหรือใกล้เคียงมากในร้อยละ 67 ของกรณีการคัดกรอง แพทย์คนหนึ่งได้ระดับนั้นร้อยละ 55 ขณะที่แพทย์อีกคนทำได้ร้อยละ 50
“เราได้ทดสอบโมเดล AI ต่อเกณฑ์มาตรฐานแทบทุกอย่าง และมันก็ชนะทั้งโมเดลก่อนหน้าและเกณฑ์มาตรฐานจากแพทย์ของเรา” อาร์จุน มันไร ผู้นำห้องปฏิบัติการด้าน AI ที่ Harvard Medical School และเป็นหนึ่งในผู้เขียนนำของการศึกษากล่าวในข่าวประชาสัมพันธ์ของทางสถาบัน
ผลการศึกษาชุดนี้เสริมหลักฐานที่เพิ่มขึ้นว่า large language models สามารถเป็นเครื่องมือวินิจฉัยที่มีความแข็งแกร่งในบริบทบางอย่าง แม้ว่างานวิจัยจะไม่กล่าวชัดเจนว่าพร้อมที่จะแทนที่แพทย์ในเหตุฉุกเฉินจริง ๆ
แหล่งข้อมูล:
Doppler VPN: เซิร์ฟเวอร์ 6 แห่ง, โปรโตคอล VLESS, ไม่มีการติดตาม. เริ่มต้นใช้งานฟรี.