arXiv논문2026. 06. 05. 14:05

Zero-shot 및 Few-shot LLM 번역을 위한 Komi-Yazva--Russian 병렬 코퍼스 및 평가 프로토콜

요약

멸종 위기 언어인 Komi-Yazva와 러시아어 간의 번역을 위한 최초의 병렬 코퍼스와 평가 프로토콜을 제안합니다. 저자원 환경에서 LLM의 Zero-shot 및 Few-shot 번역 성능을 비교 분석하며, 재현 가능한 평가 테스트베드를 구축하는 데 목적이 있습니다.

핵심 포인트

Komi-Yazva-Russian 병렬 코퍼스 및 평가 프로토콜 최초 제시
Zero-shot 및 검색 기반 Few-shot 환경에서의 LLM 성능 비교
Few-shot 프롬프팅이 Zero-shot보다 일관된 성능 향상 제공
저자원 언어 번역 시 지표 선택과 실패 처리 방식의 중요성 강조

우리는 멸종 위기에 처한 극도로 저자원(low-resource) 환경에서 LLM(Large Language Model) 번역을 연구하기 위한 최초의 Komi-Yazva--Russian 병렬 코퍼스(parallel corpus)와 명시적인 평가 프로토콜을 제시합니다. 이 데이터셋은 74개의 서사 텍스트에서 추출한 457개의 정렬된 문장 쌍을 포함하며, 데이터 누출을 인지할 수 있는 평가(leakage-aware evaluation)를 가능하게 하는 문서화된 출처, 문장 수준의 정렬(alignment), 그리고 이야기 식별자(story identifiers)가 함께 제공됩니다. 우리는 이 설정을 사용하여, 병렬 데이터가 극도로 부족한 상황에서 Zero-shot 및 검색 기반 Few-shot 환경 하의 Komi-Yazva-to-Russian 번역에 대한 현대적 대규모 언어 모델(LLM)들을 비교합니다. 해당 프로토콜은 이야기 수준의 교차 검증(cross-validation), Few-shot 프롬프팅을 위한 결정론적 검색(deterministic retrieval), 생성된 출력물에 대한 엄격한 검증, 상호 보완적인 참조 기반(reference-based) 및 심판 기반(judge-based) 지표, 그리고 이야기 수준의 불확실성 추정치를 포함합니다. 모델 전반에 걸쳐 LLM은 무시할 수 없는 수준의 번역을 생성하지만, 성능은 모델 계열과 프롬프팅 방식(prompting regime)에 따라 크게 달라집니다. 검색 기반의 Few-shot 프롬프팅은 Zero-shot 프롬프팅보다 일관되게 성능을 향상시키지만, 적은 양의 검색된 컨텍스트(context)를 넘어서는 이득은 제한적입니다. 결과에 따르면, 이러한 환경에서의 평가적 결론은 지표 선택과 실패 처리 방식에 실질적으로 의존합니다. 따라서 본 논문은 이 코퍼스를 데이터셋으로서의 기여뿐만 아니라, 멸종 위기 언어 기계 번역을 위한 재현 가능한 평가 테스트베드(testbed)로 정의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Zero-shot 및 Few-shot LLM 번역을 위한 Komi-Yazva--Russian 병렬 코퍼스 및 평가 프로토콜

요약

핵심 포인트

댓글