전문가가 작성한 임상 추론 과업에 대한 루브릭 기반 프런티어 언어 모델의 통제된 비교
요약
임상 추론 능력을 정밀하게 평가하기 위해 전문가가 작성한 루브릭 기반의 새로운 평가 데이터셋을 제안합니다. GPT, Claude, Gemini 등 주요 프런티어 모델을 테스트한 결과, 모델들이 중요도가 높은 임상적 결정 기준을 충족하는 데 큰 어려움을 겪고 있음을 발견했습니다.
핵심 포인트
- 전문가가 작성한 MECE 기반의 고난도 임상 시나리오 데이터셋 제시
- 프런티어 모델들이 중요 가중치 기준(가중치 5) 충족률이 매우 낮음
- 임상적 우선순위 역전 현상: 낮은 중요도 기준은 잘 맞추나 결정적 기준은 미흡
- LLM 자동 채점기가 전문가의 평가를 높은 재현율로 수행 가능함을 입증
객관식 의학 벤치마크(benchmarks)는 점점 포화 상태에 이르고 있으며, HealthBench와 같은 최근의 루브릭(rubric) 기반 평가들은 개방형 임상 성능이 해결되려면 아직 멀었음을 보여주었습니다. HealthBench의 "Hard" 서브셋(subset) 최고 점수는 여전히 32%에 머물러 있습니다. 본 연구에서는 4개 전문 분야(마취과, 내과/가정의학과, 응급의학과, 산부인과)에 걸쳐 임상의가 작성한 5개의 임상 시나리오로 구성된, 의도적으로 어렵게 설계된 소규모 평가 데이터셋을 제시합니다. 각 시나리오는 임상의가 초안을 작성한 정답(golden answer)을 바탕으로 작성된 원자적(atomic)이고 가중치가 부여된 MECE(Mutually Exclusive, Collectively Exhaustive) 루브릭(태스크당 25-62개 기준, 총 184개 기준)을 포함합니다. 우리는 세 가지 프런티어 모델(frontier models)인 GPT 5.4, Claude Opus 4.7, Gemini 3.1 Pro를 평가했습니다. 평균 루브릭 통과율은 Claude가 0.47, GPT가 0.39, Gemini가 0.37이었습니다. 핵심적인 발견은 임상적 우선순위의 역전입니다. 가장 높은 가중치가 부여된(가중치 5, 결정적) 기준의 통과율은 32.4-41.7%에 불과했던 반면, 중요도가 낮은 가중치 1 기준의 통과율은 80-90%에 달했습니다. 108개의 결정적(가중치 5) 기준 중 56개(52%)는 어떤 모델도 충족하지 못했습니다. 세 가지 LLM 자동 채점기(autoraters)는 552개 채점 기준 중 92.8-94.7%에서 전문가의 충족/미충족(met/not-met) 라벨을 재현했습니다. 우리는 이를 방법론 및 예비 결과(methods-and-preliminary-findings) 기여로 규정합니다. 이 5개의 태스크는 대규모 벤치마크로 발전할 준비가 된, 확장 가능하고 방어 가능한 파이프라인을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기