언어 변화가 의료 시각-언어 모델을 망가뜨리는가? 인도네시아 방사선 시각 질의응답 사례 연구
요약
의료 시각-언어 모델(VLM)이 비영어권 환경에서 보이는 강건성을 평가하기 위해 인도네시아어 방사선 VQA 데이터셋인 IndoRad-VQA를 제안합니다. 연구 결과, 영어와 인도네시아어 간에 8%에서 25%의 성능 격차가 발생함을 확인했습니다.
핵심 포인트
- 인도네시아어 방사선 VQA 데이터셋 IndoRad-VQA 공개
- 영어와 인도네시아어 프롬프팅 간 성능 격차 확인
- 언어 변화에 따른 의료 VLM의 강건성 문제 제기
- 다국어 의료 멀티모달 모델 평가의 필요성 강조
의료 시각-언어 모델 (Medical Vision-Language Models, VLMs)은 일반적으로 영어 방사선 시각 질의응답 (Radiology Visual Question Answering, VQA) 벤치마크를 통해 평가되며, 이로 인해 비영어권 임상 언어 환경에서의 강건성 (Robustness)은 거의 탐구되지 않은 상태로 남아 있습니다. 본 연구에서는 의료 VLM이 질문이 인도네시아어 (Bahasa Indonesia)로 제공될 때 방사선 추론 능력을 유지하는지 평가하기 위해, VQA-RAD의 인도네시아어 버전인 IndoRad-VQA를 소개합니다. 방사선 질의응답 쌍은 임상적 의미, 용어 일관성 및 답변 동등성을 보존하기 위해 자기 평가 기반의 품질 관리를 거쳐 인도네시아어로 번역되었습니다. 우리는 범용, 동남아시아 다국어 및 의료 특화 VLM을 영어와 인도네시아어 프롬프팅 (Prompting) 설정 하에서 평가합니다. 정확도를 넘어, 우리는 영어와 인도네시아어 입력 사이의 언어 강건성 격차를 정량화합니다. 또한 예/아니오 반전 (Yes/no flips), 측방성 오류 (Laterality errors), 출력 언어 불일치 (Output-language mismatches)와 같은 질의응답의 실패 모드를 식별하기 위해 오류 분석을 수행합니다. 우리의 연구 결과는 영어 의료 VQA 벤치마크에서의 강력한 성능이 인도네시아 임상 맥락에서의 강건한 동작으로 반드시 이어지지는 않는다는 것을 보여줍니다. 우리는 평가 지표에 따라 영어와 인도네시아어 설정 사이에서 8%에서 25%의 성능 격차를 관찰했습니다. 이러한 결과는 의료 멀티모달 파운데이션 모델 (Multimodal Foundation Models)에 대한 더욱 포괄적인 다국어 평가의 필요성을 강조합니다. 데이터셋은 https://huggingface.co/datasets/Lab-IS/IndoRad-VQA 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기