''루마니아어를 이해하나요?'' 루마니아어 시각-언어 모델 (Vision-Language Models) 구축 레시피
요약
저자원 언어인 루마니아어를 위한 시각-언어 모델(VLM) 구축 방법론을 다룬 연구입니다. 데이터 구축부터 아키텍처 선택, 문화적 특성을 반영한 HoraVQA 평가 세트 제작까지의 전체 파이프라인을 제시합니다.
핵심 포인트
- 저자원 언어용 VLM 구축을 위한 데이터 번역 및 시각적 접지 보존 기법 제안
- 시각 백본, 언어 백본, OCR 데이터의 기여도에 대한 절제 연구 수행
- 루마니아 문화적 고유성을 반영한 새로운 평가 세트 HoraVQA 구축
- 루마니아어 적응 모델이 더 큰 규모의 일반 모델보다 우수한 성능 입증
시각-언어 모델 (Vision-Language Models, VLMs)은 대체로 텍스트 전용 대규모 언어 모델 (LLM)의 궤적을 따르며, 영어 벤치마크에서는 뛰어난 성능을 보이지만, 대규모 이미지-텍스트 코퍼스 (corpora)나 문화적 기반의 평가 체계가 존재하지 않는 저자원 언어 (low-resource languages)에서는 성능이 급격히 저하됩니다. 본 논문에서는 데이터 구축부터 아키텍처 (architectural) 선택에 이르기까지 전체 파이프라인을 아우르는 루마니아어 전용 VLM 구축에 관한 체계적인 연구를 제시합니다. 우리는 기존의 영어 VLM 학습 및 평가 코퍼스를 루마니아어로 번역하며, 텍스트 주석 (annotations)과 이미지 내 텍스트에 기계 번역 (machine translation)을 적용하여 시각적 접지 (visual grounding)를 보존하는 동시에 텍스트 콘텐츠를 적응시켰습니다. 이 데이터를 사용하여 우리는 (i) 다양한 규모와 사전 학습 (pretraining)을 가진 시각 백본 (vision backbones), (ii) 다국어 모델부터 루마니아어에 적응된 LLM까지의 언어 백본 (language backbones), (iii) OCR 스타일의 이미지-텍스트 데이터의 기여도를 분리하기 위해 일련의 VLM을 학습시키고 절제 연구 (ablation)를 수행했습니다. 나아가 우리는 루마니아의 일상적인 장면을 기반으로 한 문화적 고유성을 가진 평가 세트인 HoraVQA를 큐레이션했습니다. 루마니아어에 적응된 VLM은 동일한 크기의 대응 모델들을 일관되게 능가하며, 평가된 모든 벤치마크에서 한 단계 더 큰 규모의 모델들조차 능가하는 성능을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기