arXiv논문2026. 06. 05. 14:05

강화학습(RL)을 통한 미학습 언어 번역의 문맥적 학습 유도

요약

본 논문은 LLM이 미학습 언어를 번역할 때 특정 언어에 과적합되지 않고 문맥 내 지식을 활용하는 메타 기술을 습득하도록 하는 강화학습(RL) 방식을 제안합니다. chrF 지표를 보상으로 사용하여 인컨텍스트 학습이나 지도 미세 조정보다 뛰어난 제로샷 전이 성능을 입증했습니다.

핵심 포인트

강화학습을 통한 미학습 언어의 문맥적 학습 유도
특정 언어 과적합 문제를 해결하여 제로샷 전이 능력 향상
chrF 지표를 보상으로 활용한 결과 기반 RL 접근법
추론 작업을 넘어 언어 학습 레시피로서의 RL 가능성 제시

기존 연구들은 거대 언어 모델(LLMs)이 지속적인 학습(continued training)을 거치거나, 심지어 문맥(context)에 문법책을 인코딩함으로써 미학습 언어 또는 저자원 언어(low-resource languages)를 번역할 수 있음을 보여주었습니다. 그러나 두 방법 모두 일반적으로 특정 언어에 과적합(overfit)되어, 테스트 시점에서의 제로샷 전이(zero-shot transfer) 능력이 제한적입니다. 대규모로 매우 낮은 자원의 언어를 번역하기 위해서, 우리는 LLM이 특정 언어를 암기하기보다는 문맥 내 언어 지식을 활용하는 메타 기술(meta-skill)을 습득해야 한다고 주장합니다. 본 논문에서는 표면 수준의 번역 지표인 chrF를 보상(reward)으로 사용하여, 풍부한 언어적 문맥이 주어졌을 때 미학습 언어를 번역하는 강화학습(RL) 접근 방식을 제안합니다. 실증적으로, 가벼운 보상(lightweight reward)에도 불구하고 우리의 RL 학습 모델은 제공된 문맥으로부터 관련 언어 정보를 효과적으로 추출하고 적용하며, 이는 인컨텍스트 학습(in-context learning)이나 지도 미세 조정(supervised fine-tuning)보다 완전히 새로운 언어에 대해 더 나은 번역 결과로 이어집니다. 우리의 분석은 결과 기반(outcome-based) RL이 수학 및 코딩과 같은 전통적인 추론 작업(reasoning tasks)을 넘어, 문맥으로부터 언어를 학습하기 위한 레시피로서 기능할 수 있음을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

강화학습(RL)을 통한 미학습 언어 번역의 문맥적 학습 유도

요약

핵심 포인트

댓글