본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 12:22

다국어 혈액학 시각적 질의응답 (Visual Question Answering) 데이터셋

요약

의료 영상 분석을 위한 다국어(영어, 우르두어) 혈액학 VQA 벤치마크인 WBCMor VQA를 소개합니다. 기존 영어 중심 모델의 한계를 극복하기 위해 임상적으로 검증된 이중 언어 데이터셋을 구축하였습니다.

핵심 포인트

  • 영어와 우르두어를 지원하는 이중 언어 VQA 벤치마크 제안
  • 20,000개의 세포 영상과 110,000개의 질문-답변 쌍 포함
  • 도메인 특화 우르두어 혈액학 사전 지원으로 임상 정확도 확보
  • 오픈 소스 VLM을 통한 베이스라인 성능 평가 수행

시각적 질의응답 (Visual Question Answering, VQA)과 같은 작업을 위해 시각적 정보와 텍스트 정보를 공동으로 이해함으로써, 시각 언어 모델 (Vision Language Models, VLMs)은 의료 영상 분석 분야에서 유망한 능력을 보여주었습니다. 그러나 기존의 혈액학 시각-언어 자원은 주로 영어 중심이며, 이는 다국어 의료 환경에서의 적용 가능성을 제한합니다. 이러한 문제는 일반적으로 남아시아, 특히 의료 정보와 디지털 의료 시스템이 주로 영어에 의존하고 있음에도 불구하고 우르두어 (Urdu)가 널리 사용되는 파키스탄에서 관련이 있습니다. 이 격차를 조사하기 위해 우리는 의료 전문가를 대상으로 설문 조사를 실시하였으며, 그 결과 임상 문서와 환자 간 의사소통 사이에 상당한 언어적 불일치가 있음을 발견하였고, 이는 다국어 의료 기술의 필요성을 강조합니다. 이러한 한계를 해결하기 위해, 우리는 백혈병 및 정상 백혈구 분석을 위한 임상적으로 검증된 이중 언어(영어, 우르두어) 형태소 인식 (morphology aware) VQA 벤치마크인 WBCMor VQA를 소개합니다. 이 벤치마크는 LeukemiaAttri 및 WBCAtt 데이터셋의 형태소 인식 주석을 사용하여 구축되었으며, 언어적 일관성과 임상적 정확성을 보장하기 위해 도메인 특화 우르두어 혈액학 사전을 지원합니다. 최종 벤치마크는 20,000개의 백혈병 및 정상 단일 세포 영상에 대한 VQA 주석 역할을 하는 110,000개의 이중 언어 질문-답변 쌍을 포함합니다. 또한, 제안된 벤치마크에서 여러 오픈 소스 VLMs를 평가하여 베이스라인 성능을 설정합니다. 제안된 자원은 다국어 의료 환경을 위한 접근 가능하고 임상적으로 유의미한 AI 시스템의 개발을 촉진하는 것을 목표로 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0