하버드 연구: 인공지능이 응급실 진단에서 두 명의 의사보다 뛰어났다

인공지능 vs. 응급실 의사
하버드 주도 새로운 연구는 대형 언어 모델이 적어도 실제 임상 사례를 사용한 통제된 테스트에서는 일부 응급실 환자의 진단에서 인간 의사보다 더 나을 수 있음을 시사한다.
이번 주 사이언스에 게재된 연구는 오픈AI의 o1 및 4o 모델이 여러 의료 환경에서 어떻게 수행되는지를 조사했으며, 그중 한 실험은 베스 이스라엘 응급실을 거쳐 온 76명의 환자를 기반으로 했다. AI 시스템은 내과 담당 주치의 두 명의 진단과 비교되었고, 진단이 의사로부터 나왔는지 모델로부터 나왔는지를 모르는 다른 두 명의 주치의가 결과를 검토했다.
연구에 따르면 o1은 각 진단 단계에서 "두 명의 주치의와 4o보다 명목상 더 잘하거나 동등하게 수행했다"고 한다. 차이는 응급실 직원이 정보가 가장 적고 올바른 판단을 신속히 내려야 하는 첫 단계에서 가장 뚜렷했다.
트리아지 단계에서의 최대 우위
하버드 의과대학은 연구진이 모델을 테스트하기 전에 데이터를 전처리하지 않았다고 밝혔다. 대신 AI 시스템은 각 진단이 이루어졌을 때 전자의무기록에 있던 동일한 정보를 받았다.
그 정보를 이용해 o1은 트리아지 사례의 67%에서 정확하거나 매우 근접한 진단을 제시했다. 한 의사는 55%의 경우에 그 수준에 도달했으며, 다른 한 의사는 50%였다.
"우리는 사실상 모든 벤치마크에 대해 AI 모델을 테스트했으며, 이전 모델들과 우리의 의사 기준선을 모두 능가했다,"고 하버드 의과대학에서 AI 연구소를 이끄는 연구 책임자 중 한 명인 아르준 만라이는 학교 보도자료에서 말했다.
이 결과는 대형 언어 모델이 특정 환경에서 강력한 진단 도구가 될 수 있다는 증가하는 증거에 더해지는 것이지만, 연구는 실제 응급 상황에서 의사를 대체할 준비가 되었다고 단정하지는 않는다.
출처:
Doppler VPN: 서버 위치 6곳, VLESS 프로토콜, 추적 없음. 무료로 시작하기.