arXiv논문2026. 06. 24. 11:57

MMed-Bench-IR: 다국어 의료 정보 검색을 위한 이질적 벤치마크

요약

다국어 의료 정보 검색 능력을 평가하기 위한 새로운 벤치마크인 MMed-Bench-IR을 소개합니다. 교차 언어 정렬, 개념 판별, 증거 검색의 세 가지 핵심 능력을 6개 언어로 측정하며, 기존 모델들의 심각한 다국어 성능 격차를 입증했습니다.

핵심 포인트

다국어 의료 RAG를 위한 3가지 핵심 능력 평가
6개 언어 및 이질적 작업 구성을 통한 벤치마크 설계
기존 생물 의학 인코더의 심각한 언어 간 성능 격차 확인
UMLS 기반의 정교한 의료 QA 및 개념 판별 데이터셋 제공

임상 환경에서의 검색 증강 생성 (RAG)은 주로 영어로 된 증거 코퍼스(evidence corpora)를 대상으로 하는 다국어 검색을 점점 더 많이 요구하고 있습니다. 다국어 의료 검색은 세 가지 능력, 즉 교차 언어 정렬 (cross-lingual alignment), 개념 판별 (concept discrimination), 그리고 증거 검색 (evidence retrieval)을 요구합니다. 그러나 기존의 벤치마크들은 이러한 능력들을 개별적으로만 평가하며, 생물 의학적 전문 지식과 다국어 커버리지 사이의 상호작용은 측정하지 않은 채 남겨두고 있습니다. 우리는 6개 언어와 구조적으로 이질적인 세 가지 작업에 걸쳐 이러한 축들을 분리하여 설계된 벤치마크인 MMed-Bench-IR을 소개합니다: (1) Unified Medical Language System (UMLS)에 기반한 6,127개의 쿼리를 포함하는 교차 언어 의료 QA 검색, (2) 세 가지 난이도 단계에서 4,975개의 혼동 세트 (confusion sets)에 대한 개념 판별, (3) 2,040개의 품질 보증된 쿼리를 활용한 RAG를 위한 다국어 증거 검색. 이 세 가지 작업은 설계 단계에서 개념 및 쿼리의 중복이 전혀 없도록 하여, 합산 점수가 진정한 능력의 폭을 반영하도록 보장합니다. 여섯 가지 패러다임 계열에 걸친 10개 시스템을 평가한 결과, 심각한 교차 언어 실패가 드러났습니다: 영어에서 0.818 nDCG@10을 기록한 생물 의학 인코더 (biomedical encoders)가 일본어에서는 0.056으로 급락했으며, 이는 영어 전용 벤치마크로는 감지할 수 없는 격차입니다.

AI 자동 생성 콘텐츠

원문 바로가기

MMed-Bench-IR: 다국어 의료 정보 검색을 위한 이질적 벤치마크

요약

핵심 포인트

댓글