본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 15:11

LANG: 언어 적응형 힌트 가이던스 (Language-Adaptive Hint Guidance)를 이용한 다국어 추론을 위한 강화학습

요약

LANG은 다국어 문맥에서 LLM의 추론 성능과 언어 일관성 사이의 트레이드오프를 해결하기 위한 새로운 강화학습 프레임워크입니다. 언어 조건부 힌트와 점진적 감쇠 스케줄을 통해 영어로의 언어 드리프트 현상을 방지하고 다국어 추론 능력을 향상시킵니다.

핵심 포인트

  • 언어 일관성과 추론 품질 간의 트레이드오프 해결
  • 언어 조건부 힌트를 활용한 LANG 프레임워크 제안
  • 점진적 감쇠 스케줄을 통한 힌트 의존성 방지
  • 언어 적응형 스위치로 학습 지평 최적화
  • 수학 벤치마크 및 일반화된 언어 정렬 성능 입증

강화학습 (Reinforcement learning)은 대규모 언어 모델 (LLMs)의 다단계 추론 (multi-step reasoning) 능력을 향상시키는 데 효과적임이 입증되었으나, 그 이점이 다국어 문맥 (multilingual contexts)으로 완전히 전이되지는 않았습니다. 기존 방법들은 근본적인 트레이드오프 (trade-off) 문제로 어려움을 겪고 있습니다. 즉, 입력 언어의 일관성 (input-language consistency)을 우선시하면 추론 품질 (reasoning quality)이 심각하게 저해되는 반면, 추론을 우선시하면 영어로 의도치 않은 언어 드리프트 (language drift) 현상이 발생하는 경우가 많습니다. 우리는 비영어권 추론 작업에서의 탐색 (exploration)을 가이드하기 위해 언어 조건부 힌트 (language-conditioned hints)를 활용하는 새로운 프레임워크인 LANG을 통해 이 과제를 해결합니다. 우리의 방법은 이러한 힌트에 대한 의존성을 방지하기 위해 두 가지 핵심 메커니즘을 포함합니다: 스캐폴딩 (scaffolding)을 점진적으로 철회하는 점진적 감쇠 스케줄 (progressive decay schedule), 그리고 특정 언어의 난이도에 맞춰 학습 지평 (learning horizons)을 조정하는 언어 적응형 스위치 (language-adaptive switch)입니다. 까다로운 다국어 수학 벤치마크 (mathematical benchmarks)에 대한 실증적 결과에 따르면, LANG은 언어 일관성을 해치지 않으면서도 추론 성능을 실질적으로 향상시킵니다. 또한, 우리의 프레임워크가 수학을 넘어 일반화될 수 있으며, 모델 레이어 (model layers) 전반에 걸쳐 더욱 일관된 언어 정렬 (language alignment)을 촉진함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0