arXiv논문2026. 06. 02. 12:22

다국어 추론을 위한 번역 시점 학습

요약

비영어 입력에 대한 추론 성능 격차를 줄이기 위해, 모델이 직접 이해하기 어려울 때만 선택적으로 영어 번역을 호출하는 Luar 프레임워크를 제안합니다. 강화학습을 통해 번역의 필요성을 판단하도록 학습하며, 특히 저자원 언어에서 뛰어난 성능 향상을 보였습니다.

핵심 포인트

언어 이해 경계 인식 강화학습(Luar) 프레임워크 제안
직접 추론과 번역 보강 추론 사이의 선택적 호출 학습
저자원 언어 및 다국어 벤치마크에서 우수한 성능 입증
불필요한 번역 과정을 생략하여 효율적인 추론 가능

추론 언어 모델 (Reasoning language models, RLMs)은 복잡한 추론 작업에서 강력한 성능을 달성하지만, 주로 비영어 입력에 대한 언어 이해 실패로 인해 상당한 다국어 추론 격차 (multilingual reasoning gaps)를 여전히 보입니다. 영어 번역은 비영어 입력을 RLMs가 더 신뢰성 있게 해석할 수 있는 형태로 표현함으로써 이러한 실패를 완화할 수 있지만, 모델이 원래의 쿼리로부터 신뢰성 있게 추론할 수 있는 경우 모든 입력을 번역하는 것은 불필요합니다. 이 과제를 해결하기 위해, 우리는 직접적인 이해가 신뢰할 수 없을 때 선택적으로 번역을 호출하도록 RLMs를 학습시키는 언어 이해 경계 인식 강화학습 (Language Understanding Boundary-aware Reinforcement Learning, Luar) 프레임워크를 제안합니다. Luar는 모델이 원래 입력을 직접 해결하는 것과 영어 번역본을 통해 추론하는 것 사이에서 선택하도록 학습시키며, 번역가 보강 추론 (translator-augmented reasoning)이 직접 추론보다 실질적으로 더 나은 성능을 낼 것으로 예상될 때만 번역을 장려합니다. 다양한 다국어 추론 벤치마크에서 Luar는 표준 GRPO 및 기타 학습 기반 베이스라인 (baselines)보다 우수한 성능을 보였으며, 특히 저자원 언어 (low-resource languages)에서 큰 이득을 얻었습니다. 추가 분석에 따르면 Luar는 직접 추론이 충분한 경우 불필요한 번역을 피하는 동시에, 학습되지 않은 저자원 언어에 대해서도 번역 호출 동작을 확장합니다. 종합적으로, 우리의 연구는 다국어 추론에 대한 선택적 접근 방식을 제안합니다: RLMs는 직접적인 이해가 신뢰할 수 없을 때만 번역을 호출하도록 학습될 수 있습니다. 프로젝트는 https://github.com/deokhk/LUAR 에서 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 추론을 위한 번역 시점 학습

요약

핵심 포인트

댓글