arXiv논문2026. 06. 15. 08:20

Lius: Kupang Malay를 위한 지속적 지시어 튜닝 (Continual Instruction Tuning) 기반의 번역 모델 기반

요약

저자원 언어인 Kupang Malay 번역 성능을 높이기 위해 지속적 지시어 튜닝(CIT) 방식을 제안합니다. 이중 언어 사전을 활용한 지시어 설계로 기존 모델 대비 뛰어난 번역 성능을 입증했습니다.

핵심 포인트

저자원 언어 번역을 위한 지속적 지시어 튜닝(CIT) 패러다임 도입
이중 언어 사전의 어휘적·의미적 특징을 활용한 지시어 세트 설계
표준 지시어 튜닝 모델 대비 4-6포인트 성능 향상
기존 NMT 및 다국어 LLM 대비 10-13포인트 높은 성능 기록
대규모 병렬 데이터 의존도를 완화할 수 있는 가능성 제시

대규모 언어 모델 (LLMs)은 번역 작업에 있어 새로운 잠재력을 제공하지만, 저자원 언어 (low-resource languages)를 처리할 때 성능 저하를 겪는 경우가 많습니다. 이러한 한계를 해결하기 위해, 우리는 저자원 언어인 Kupang Malay를 대상으로 LLM을 미세 조정 (fine-tuning) 하는 접근 방식을 제안합니다. 우리의 접근 방식은 이중 언어 사전 (bilingual dictionary)의 명시적인 어휘적 및 의미적 특징을 활용하여 일련의 지시어 (instructions) 세트를 설계하고, 반복적인 지시어 기반 학습을 가능하게 하는 학습 패러다임인 지속적 지시어 튜닝 (Continual Instruction Tuning, CIT)을 도입하는 것을 포함합니다. 실험 결과에 따르면, Lius라고 명명된 우리의 모델은 표준 지시어 튜닝 모델 (instruction-tuned models)보다 4-6포인트 더 높은 성능을 보이며 우수함을 입증하였고, 여러 평가 지표에서 신경망 기계 번역 (Neural Machine Translation, NMT) 및 다국어 LLM 모델보다 10-13포인트 더 높은 성능을 기록하며 주목할 만한 개선을 보여주었습니다. 이러한 결과는 저자원 언어 번역에서 대규모 병렬 데이터 (parallel data)에 대한 의존도를 완화할 수 있는 우리 접근 방식의 잠재력을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Lius: Kupang Malay를 위한 지속적 지시어 튜닝 (Continual Instruction Tuning) 기반의 번역 모델 기반

요약

핵심 포인트

댓글