소형 시각-언어 모델(VLMs)을 활용한 시각 장애 및 저시력(BLV) 청중을 위한 큐레이터 가이드 기반 다국어 예술 작품 묘사에 관한 예비
요약
시각 장애 및 저시력(BLV) 사용자를 위해 소형 시각-언어 모델(VLMs)을 활용한 다국어 예술 작품 묘사 연구를 수행했습니다. Qwen2.5-VL-3B-Instruct 모델과 LoRA 어댑터를 사용하여 독일어, 루마니아어, 세르비아어 환경에서의 묘사 품질을 비교 분석했습니다.
핵심 포인트
- 소형 온프레미스 VLM의 박물관 환경 활용 가능성 제시
- 언어별 LoRA 어댑터가 루마니아어와 세르비아어에서 더 안정적인 품질 제공
- 다국어 적응 방식은 독일어에서 경쟁력 있는 성능 유지
- BLV 사용자를 위한 시각적 근거 기반의 묘사 품질 검증
시각 장애 및 저시력 (BLV) 청중은 시각 예술 묘사 서비스에서 여전히 소외되어 있으며, 특히 언어 전반과 프라이버시 및 지식 재산권 제약이 있을 수 있는 박물관 환경에서는 소형 온프레미스 시각-언어 모델 (Vision-Language Models, VLMs)이 유리할 수 있습니다. 본 예비 연구는 독일어, 루마니아어, 세르비아어를 대상으로 Qwen2.5-VL-3B-Instruct를 활용한 큐레이터 가이드 기반의 다국어 예술 작품 묘사를 조사합니다. 우리는 예술 작품 이미지와 메타데이터로부터 BLV 지향적인 병렬 캡션 코퍼스 (Caption Corpus)를 구축하였으며, 고정된 백본 (Backbone) 및 학습 예산 하에서 언어별 LoRA 어댑터 (LoRA adapters)와 단일 다국어 어댑터를 비교하였습니다. 평가는 자동 어휘 및 임베딩 기반 지표와 소규모 루마니아 BLV 예비 연구를 기준으로 보정된 LLM-as-Judge 프로토콜을 결합하여 수행되었습니다. 본 예비 설정 하에서, 언어별 어댑터는 루마니아어와 세르비아어에 대해 더 안정적인 제어 가능성과 시각적으로 근거한 (Visually grounded) 묘사 품질을 보여주었으며, 다국어 적응 (Multilingual adaptation)은 독일어에서 경쟁력을 유지했습니다. 우리는 이러한 발견을 소형 온프레미스 VLMs의 배포 지향적 근거로 제시하며, 다국어 접근성에 대한 일반적인 결론을 내리기 전에 더 큰 규모의 BLV 사용자 연구와 더 넓은 언어 범위에 대한 필요성을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기