arXiv논문2026. 05. 07. 17:19

MRI-Eval: MRI 물리 및 GE 스캐너 운영 지식을 평가하는 계층별 벤치마크

요약

MRI-Eval은 기존의 객관식 문제(MCQ) 기반 MRI LLM 벤치마크의 한계를 극복하기 위해 개발된 계층적 평가 도구입니다. 이 벤치마크는 교재, GE 스캐너 매뉴얼 등 다양한 출처를 활용하여 총 1365개의 문항을 포함하며, 특히 MRI 물리 및 특정 제조사(GE) 스캐너 운영 지식에 대한 모델의 깊이 있는 이해도를 측정하는 데 중점을 둡니다. 연구 결과, 높은 MCQ 점수가 실제 벤더별 운영 지식이나 자유 텍스트 회상 능력까지 보장하지 못함을 보여주었으며, LLM이 특정 프로토콜 가이드라인을 따를 때 주의가 필요함을 시사합니다.

핵심 포인트

MRI-Eval은 기존의 단순 MCQ 의존도를 넘어선 계층적이고 실무적인 MRI 지식 평가 벤치마크이다.
평가 항목은 교재, GE 매뉴얼 등 다양한 출처에서 수집되었으며 총 1365개의 문항으로 구성되었다.
LLM의 높은 전체 MCQ 정확도는 특정 제조사(GE) 스캐너 운영이나 자유 텍스트 회상 능력과 같은 깊이 있는 지식까지 반영하지 못할 수 있다.
줄기만(stem-only) 평가를 통해 옵션에 의존하지 않는 순수한 모델의 추론 및 회상 능력을 측정하는 것이 중요하다.

Background (배경)
기존 MRI(자기공명영상) LLM(대규모 언어 모델) 벤치마크는 주로 리뷰북의 객관식 문제 (multiple-choice questions) 에 의존하며, 상위 전용 모델은 이미 높은 점수를 얻어 구별력이 제한적입니다. 연구용 MRI 실무에서 핵심적인 벤더별 스캐너 운영 지식을 평가하는 체계적인 벤치마크는 존재하지 않습니다.

Purpose (목적)
우리는 1 차 객관식 문제 (MCQ) 를 사용하여 MRI 물리 및 GE 스캐너 운영 지식에 대한 상대적 모델 비교를 위한 계층별 벤치마크인 MRI-Eval 을 개발했습니다. 줄기만 (stem-only) 과 유도된 진단 조건 (primed diagnostic conditions) 을 보조 분석으로 활용했습니다.

Methods (방법)
MRI-Eval 은 교재, GE 스캐너 매뉴얼, 프로그래밍 과정 자료, 전문가 생성 문제에서 9 가지 카테고리 및 3 개의 난이도 계층에 걸쳐 총 1365 개의 점수 항목을 포함합니다. 평가된 모델 가족은 5 개 (GPT-5.4, Claude Opus 4.6, Claude Sonnet 4.6, Gemini 2.5 Pro, Llama 3.3 70B) 입니다. MCQ 가 주된 방법이며, 줄기만은 옵션을 제거하고 독립적인 LLM 판정사를 사용했으며, 유도된 줄기만은 잘못된 사용자 주장에 대한 응답을 테스트했습니다.

Results (결과)
전체 MCQ 정확도는 93.2% 에서 97.1% 로 나타났습니다. 모든 모델에서 GE 스캐너 운영이 가장 낮은 카테고리였습니다 (88.2% 에서 94.6%). 줄기만 평가에서 프론티어 모델의 정확도는 58.4% 에서 61.1% 로 하락했으며, Llama 3.3 70B 는 37.1% 로 하락했습니다. GE 스캐너 운영 줄기만 정확도는 13.8% 에서 29.8% 였습니다.

Conclusion (결론)
높은 MCQ 성능은 특히 벤더별 운영 지식에 대한 약한 자유 텍스트 회상 (free-text recall) 을 가릴 수 있습니다. MRI-Eval 은 절대적 능력 측정기보다는 상대적 비교 벤치마크로서 가장 정보량이 많으며, GE 특정 프로토콜 가이드를 위해 원본 LLM 출력 사용에 주의가 필요함을 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MRI-Eval: MRI 물리 및 GE 스캐너 운영 지식을 평가하는 계층별 벤치마크

요약

핵심 포인트

댓글