문화적 이미지 캡셔닝을 위한 검색 증강 롱 컨텍스트 번역: AmericasNLP 2026 공유 태스크를 위한 Gators 제출물

우리는 원주민 언어를 위한 문화적 이미지 캡셔닝 (cultural image captioning) AmericasNLP 2026 공유 태스크에 제출한 University of Florida Gators의 결과물을 제시합니다. 우리의 2단계 파이프라인 (two-stage pipeline)은 Qwen2.5-VL을 사용하여 스페인어 중간 캡션 (intermediate caption)을 생성한 다음, Gemini 2.5 Flash를 사용한 검색 증강 다중 샷 프롬프팅 (retrieval-augmented many-shot prompting)을 통해 목표 언어 캡션을 생성합니다. 우리는 개발 세트 (dev set) 평가에서 Bribri, Guaraní, Orizaba Nahuatl 캡셔닝에 대해 공유 태스크 베이스라인 (baseline) 대비 각각 164.1%, 131.7%, 122.6%의 성능 향상을 달성했으며, 테스트 세트 (test set) 평가에서도 Bribri와 Orizaba Nahuatl 언어에 대해 150% 이상의 향상된 성능을 유지했습니다. 우리는 검색 (retrieval)이 언어에 크게 의존하며, 규모가 크고 도메인에 적합한 코퍼스 (in-domain corpora)에만 유익하다는 점을 발견했으며, 합성 데이터 증강 (synthetic data augmentation)이 개발 세트 Guaraní 성능 향상의 약 28 chrF++를 차지한다는 것을 확인했습니다. 우리의 제출물은 공유 태스크의 종합 우승을 차지했으며, 목표 언어 캡션에 대한 인간 평가 (human evaluations)에서 5개의 최종 후보 제출물 중 2위를 기록했습니다.

Insights

문화적 이미지 캡셔닝을 위한 검색 증강 롱 컨텍스트 번역: AmericasNLP 2026 공유 태스크를 위한 Gators 제출물

요약

핵심 포인트

댓글

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공

엔비디아 다음 세대 AI 서버는 GPU를 사는 게 아니라 점점 HBM 덩어리를 사는 것에 가까워진다.

프론트엔드를 선택 사항으로 만든 GitHub 저장소

OmniDesk v2.3.1: 이제 휴대폰에서도 Claude 코드를 실제로 구동할 수 있게 되었습니다

로컬 AI의 또 다른 대성공