HealthBench Professional: 실제 의사와의 대화에서 대형 언어 모델을 평가하기

수백만 명의 임상 전문가들이 ChatGPT 를 활용하여 임상 진료 지원을 받고 있으나, 모델과 임상 전문가 간의 대화에서 가장 일반적인 사용 사례에 대한 평가는 제한적입니다. 우리는 임상 전문가들이 업무 과정에서 ChatGPT 에 제시하는 실제 작업에 대해 대형 언어 모델을 평가하기 위한 오픈 소스 벤치마크인 HealthBench Professional 을 소개합니다. 이 벤치마크는 임상 실무의 핵심이 되는 세 가지 일반적인 사용 사례, 즉 진료 상담 (care consult), 문서 작성 및 기록 (writing and documentation), 의학 연구 (medical research) 를 중심으로 구성되어 있습니다. 각 예시는 'ChatGPT for Clinicians'에서 의사가 작성한 대화 내용으로 이루어져 있으며, 세 명 이상의 의사가 세 단계에 걸쳐 작성하고 반복적으로 심의한 평가 기준 (rubrics) 을 통해 점수가 매겨집니다. HealthBench Professional 의 예시는 OpenAI 의 현재 최첨단 모델에 대한 품질, 대표성, 그리고 난이도 측면에서 신중하게 선별되었습니다. 이를 통해 지속적인 진척도 측정을 가능하게 합니다. 최근 OpenAI 모델에 대해 어려운 예시는 15,079 개의 후보 풀 대비 약 3.5 배로 풍부하게 보강되었습니다. 또한, 약 1/3 의 예시에서는 의사가 모델을 의도적으로 적대적 테스트 (adversarial testing) 를 수행하는 경우를 포함합니다. 강력한 베이스라인으로, 모든 작업에 대해 인간 의사의 응답 (무제한 시간, 전문의 매칭, 웹 접근 가능) 을 수집했습니다. 최상위 점수를 기록한 시스템인 'ChatGPT for Clinicians' 내 GPT-5.4 는 기본 GPT-5.4, 다른 모든 모델, 그리고 인간 의사들을 모두 능가합니다. 우리는 HealthBench Professional 이 의료 AI 커뮤니티에 실제 세계 임상 작업에서의 최첨단 모델 진척도를 추적하고, 의사가 신뢰할 수 있는 시스템을 구축하여 진료 개선을 도모할 수 있는 척도를 제공하기를 바랍니다.

Insights

HealthBench Professional: 실제 의사와의 대화에서 대형 언어 모델을 평가하기

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화