본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 16:24

HealthBench Professional: 실제 의사와의 대화에서 대형 언어 모델을 평가하기

요약

HealthBench Professional은 대형 언어 모델(LLM)이 실제 임상 환경에서 사용되는 세 가지 핵심 작업(진료 상담, 문서 작성 및 기록, 의학 연구)에 대해 평가하기 위해 개발된 오픈 소스 벤치마크입니다. 이 벤치마크는 실제 의사들이 ChatGPT를 활용하여 수행한 대화 내용을 기반으로 하며, 여러 명의 전문가가 심도 있게 검토하고 점수를 매긴 신뢰성 높은 데이터를 제공합니다. 이를 통해 연구자들은 LLM이 의료 분야에서 얼마나 발전했는지 객관적으로 측정하고, 임상 현장에서 신뢰할 수 있는 AI 시스템을 구축하는 데 필요한 척도를 얻을 수 있습니다.

핵심 포인트

  • HealthBench Professional은 LLM의 임상 활용 능력을 평가하기 위한 오픈 소스 벤치마크이다.
  • 평가 범위는 진료 상담(care consult), 문서 작성 및 기록(writing and documentation), 의학 연구(medical research) 세 가지 핵심 사용 사례에 초점을 맞춘다.
  • 데이터는 실제 의사들이 ChatGPT를 활용하여 수행한 대화 내용으로 구성되어 높은 현실성과 대표성을 갖는다.
  • 벤치마크에는 모델의 성능을 테스트하는 적대적 테스트(adversarial testing) 시나리오가 포함되어 있다.
  • 이 벤치마크는 의료 AI 커뮤니티가 LLM의 진척도를 추적하고 신뢰할 수 있는 시스템을 개발하도록 돕는 강력한 도구이다.

수백만 명의 임상 전문가들이 ChatGPT 를 활용하여 임상 진료 지원을 받고 있으나, 모델과 임상 전문가 간의 대화에서 가장 일반적인 사용 사례에 대한 평가는 제한적입니다. 우리는 임상 전문가들이 업무 과정에서 ChatGPT 에 제시하는 실제 작업에 대해 대형 언어 모델을 평가하기 위한 오픈 소스 벤치마크인 HealthBench Professional 을 소개합니다. 이 벤치마크는 임상 실무의 핵심이 되는 세 가지 일반적인 사용 사례, 즉 진료 상담 (care consult), 문서 작성 및 기록 (writing and documentation), 의학 연구 (medical research) 를 중심으로 구성되어 있습니다. 각 예시는 'ChatGPT for Clinicians'에서 의사가 작성한 대화 내용으로 이루어져 있으며, 세 명 이상의 의사가 세 단계에 걸쳐 작성하고 반복적으로 심의한 평가 기준 (rubrics) 을 통해 점수가 매겨집니다. HealthBench Professional 의 예시는 OpenAI 의 현재 최첨단 모델에 대한 품질, 대표성, 그리고 난이도 측면에서 신중하게 선별되었습니다. 이를 통해 지속적인 진척도 측정을 가능하게 합니다. 최근 OpenAI 모델에 대해 어려운 예시는 15,079 개의 후보 풀 대비 약 3.5 배로 풍부하게 보강되었습니다. 또한, 약 1/3 의 예시에서는 의사가 모델을 의도적으로 적대적 테스트 (adversarial testing) 를 수행하는 경우를 포함합니다. 강력한 베이스라인으로, 모든 작업에 대해 인간 의사의 응답 (무제한 시간, 전문의 매칭, 웹 접근 가능) 을 수집했습니다. 최상위 점수를 기록한 시스템인 'ChatGPT for Clinicians' 내 GPT-5.4 는 기본 GPT-5.4, 다른 모든 모델, 그리고 인간 의사들을 모두 능가합니다. 우리는 HealthBench Professional 이 의료 AI 커뮤니티에 실제 세계 임상 작업에서의 최첨단 모델 진척도를 추적하고, 의사가 신뢰할 수 있는 시스템을 구축하여 진료 개선을 도모할 수 있는 척도를 제공하기를 바랍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0