폴란드 의학 시험을 통한 고성능 LLM 재평가: 진정한 역량인가 편향에 의한 성능인가?
요약
본 논문은 의료 LLM 평가의 한계를 지적하며, 기존 객관식 문항(MCQA) 방식이 추측과 편향에 의해 실제 임상 능력을 과대평가할 수 있다고 주장합니다. 이를 개선하기 위해 폴란드 의학 시험을 기반으로 확장되고 구조적으로 수정된 새로운 벤치마크를 개발하여 LLM의 진정한 역량을 평가했습니다.
핵심 포인트
- 기존 MCQA 방식은 추측 및 편향에 취약해 실제 임상 능력을 과대평가할 수 있습니다.
- 폴란드 의학 시험 기반의 새로운 벤치마크를 도입하여 LLM의 진정한 역량을 측정했습니다.
- 새로운 설정 하에서 최고 성능 모델도 기존 대비 점수 하락을 보여, 평가 설계의 중요성을 입증했습니다.
- 개발된 벤치마크는 연구 커뮤니티에 공개되어 추가적인 연구를 지원합니다.
의료 분야의 대규모 언어 모델(LLMs)은 주로 객관식 문항 답변(MCQA)을 사용하여 평가되는데, 이는 추측 전략과 답변 편향으로 인해 실제 임상 능력을 과대평가할 수 있습니다. 이러한 한계를 해결하기 위해, 우리는 폴란드 의학 시험을 기반으로 확장되고 더 까다로운 벤치마크를 도입했습니다. 이 벤치마크는 15,000개 이상의 문항과 두 가지 새로운 도메인, 그리고 MCQA 특유의 인공물을 줄이고 추론 능력을 더 잘 테스트하는 네 가지 구조적 수정을 추가했습니다. 우리는 21개의 LLM을 평가했으며, 평가 설계가 결과에 강하게 영향을 미친다는 것을 보여줍니다. 우리의 더 어려운 설정 하에서, 최고 성능 모델(Qwen3.5-122B)은 영어 시험과 폴란드어 시험에서 각각 28.4점과 31점 하락했습니다. 데이터 오염의 증거는 낮았음에도 불구하고, 표준 MCQA 점수는 실제 의학적 역량을 신뢰성 있게 반영하지 못합니다. 추가 연구를 용이하게 하기 위해, 저희의 벤치마크를 공개적으로 이용 가능하도록 만들었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기