문화적 이미지 캡셔닝을 위한 검색 증강 롱 컨텍스트 번역: AmericasNLP 2026 공유 태스크를 위한 Gators 제출물
요약
AmericasNLP 2026 공유 태스크에서 우승한 University of Florida Gators의 문화적 이미지 캡셔닝 파이프라인을 소개합니다. Qwen2.5-VL로 스페인어 중간 캡션을 생성한 후, Gemini 2.5 Flash와 검색 증강 다중 샷 프롬프팅을 결합하여 원주민 언어 캡셔닝 성능을 획기적으로 향상시켰습니다.
핵심 포인트
- Qwen2.5-VL과 Gemini 2.5 Flash를 결합한 2단계 파이프라인 구축
- 검색 증강 다중 샷 프롬프팅(Retrieval-augmented many-shot prompting)을 통한 성능 극대화
- Bribri, Guaraní, Orizaba Nahuatl 언어에서 베이스라인 대비 최대 164.1% 성능 향상 달성
- 검색 성능은 도메인에 적합한 대규모 코퍼스 유무에 크게 의존함
- 합성 데이터 증강(Synthetic data augmentation)이 성능 향상에 기여함을 확인
우리는 원주민 언어를 위한 문화적 이미지 캡셔닝 (cultural image captioning) AmericasNLP 2026 공유 태스크에 제출한 University of Florida Gators의 결과물을 제시합니다. 우리의 2단계 파이프라인 (two-stage pipeline)은 Qwen2.5-VL을 사용하여 스페인어 중간 캡션 (intermediate caption)을 생성한 다음, Gemini 2.5 Flash를 사용한 검색 증강 다중 샷 프롬프팅 (retrieval-augmented many-shot prompting)을 통해 목표 언어 캡션을 생성합니다. 우리는 개발 세트 (dev set) 평가에서 Bribri, Guaraní, Orizaba Nahuatl 캡셔닝에 대해 공유 태스크 베이스라인 (baseline) 대비 각각 164.1%, 131.7%, 122.6%의 성능 향상을 달성했으며, 테스트 세트 (test set) 평가에서도 Bribri와 Orizaba Nahuatl 언어에 대해 150% 이상의 향상된 성능을 유지했습니다. 우리는 검색 (retrieval)이 언어에 크게 의존하며, 규모가 크고 도메인에 적합한 코퍼스 (in-domain corpora)에만 유익하다는 점을 발견했으며, 합성 데이터 증강 (synthetic data augmentation)이 개발 세트 Guaraní 성능 향상의 약 28 chrF++를 차지한다는 것을 확인했습니다. 우리의 제출물은 공유 태스크의 종합 우승을 차지했으며, 목표 언어 캡션에 대한 인간 평가 (human evaluations)에서 5개의 최종 후보 제출물 중 2위를 기록했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기