전문가가 작성한 임상 추론 과업에 대한 루브릭 기반 프런티어 언어 모델의 통제된 비교

객관식 의학 벤치마크(benchmarks)는 점점 포화 상태에 이르고 있으며, HealthBench와 같은 최근의 루브릭(rubric) 기반 평가들은 개방형 임상 성능이 해결되려면 아직 멀었음을 보여주었습니다. HealthBench의 "Hard" 서브셋(subset) 최고 점수는 여전히 32%에 머물러 있습니다. 본 연구에서는 4개 전문 분야(마취과, 내과/가정의학과, 응급의학과, 산부인과)에 걸쳐 임상의가 작성한 5개의 임상 시나리오로 구성된, 의도적으로 어렵게 설계된 소규모 평가 데이터셋을 제시합니다. 각 시나리오는 임상의가 초안을 작성한 정답(golden answer)을 바탕으로 작성된 원자적(atomic)이고 가중치가 부여된 MECE(Mutually Exclusive, Collectively Exhaustive) 루브릭(태스크당 25-62개 기준, 총 184개 기준)을 포함합니다. 우리는 세 가지 프런티어 모델(frontier models)인 GPT 5.4, Claude Opus 4.7, Gemini 3.1 Pro를 평가했습니다. 평균 루브릭 통과율은 Claude가 0.47, GPT가 0.39, Gemini가 0.37이었습니다. 핵심적인 발견은 임상적 우선순위의 역전입니다. 가장 높은 가중치가 부여된(가중치 5, 결정적) 기준의 통과율은 32.4-41.7%에 불과했던 반면, 중요도가 낮은 가중치 1 기준의 통과율은 80-90%에 달했습니다. 108개의 결정적(가중치 5) 기준 중 56개(52%)는 어떤 모델도 충족하지 못했습니다. 세 가지 LLM 자동 채점기(autoraters)는 552개 채점 기준 중 92.8-94.7%에서 전문가의 충족/미충족(met/not-met) 라벨을 재현했습니다. 우리는 이를 방법론 및 예비 결과(methods-and-preliminary-findings) 기여로 규정합니다. 이 5개의 태스크는 대규모 벤치마크로 발전할 준비가 된, 확장 가능하고 방어 가능한 파이프라인을 입증합니다.

Insights

전문가가 작성한 임상 추론 과업에 대한 루브릭 기반 프런티어 언어 모델의 통제된 비교

요약

핵심 포인트

댓글

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

출처를 파악하라: 미디어 배경 조사(Media Background Checks)를 위한 공개 지식 저장소

월드 와이드 모델: 문화적 AI를 위한 문학적 도구

대규모 언어 모델(LLM)을 이용한 Linux/bash 시험의 자동 채점: 4단계 인지 분류 체계 접근 방식

NLP의 미래는 NLP 컨퍼런스에 있지 않을 수도 있다: 자연어 처리 분야의 학술적 이동 패턴

출처를 파악하라: 미디어 배경 조사(Media Background Checks)를 위한 공개 지식 저장소

월드 와이드 모델: 문화적 AI를 위한 문학적 도구

대규모 언어 모델(LLM)을 이용한 Linux/bash 시험의 자동 채점: 4단계 인지 분류 체계 접근 방식