LANG: 언어 적응형 힌트 가이던스 (Language-Adaptive Hint Guidance)를 이용한 다국어 추론을 위한 강화학습

강화학습 (Reinforcement learning)은 대규모 언어 모델 (LLMs)의 다단계 추론 (multi-step reasoning) 능력을 향상시키는 데 효과적임이 입증되었으나, 그 이점이 다국어 문맥 (multilingual contexts)으로 완전히 전이되지는 않았습니다. 기존 방법들은 근본적인 트레이드오프 (trade-off) 문제로 어려움을 겪고 있습니다. 즉, 입력 언어의 일관성 (input-language consistency)을 우선시하면 추론 품질 (reasoning quality)이 심각하게 저해되는 반면, 추론을 우선시하면 영어로 의도치 않은 언어 드리프트 (language drift) 현상이 발생하는 경우가 많습니다. 우리는 비영어권 추론 작업에서의 탐색 (exploration)을 가이드하기 위해 언어 조건부 힌트 (language-conditioned hints)를 활용하는 새로운 프레임워크인 LANG을 통해 이 과제를 해결합니다. 우리의 방법은 이러한 힌트에 대한 의존성을 방지하기 위해 두 가지 핵심 메커니즘을 포함합니다: 스캐폴딩 (scaffolding)을 점진적으로 철회하는 점진적 감쇠 스케줄 (progressive decay schedule), 그리고 특정 언어의 난이도에 맞춰 학습 지평 (learning horizons)을 조정하는 언어 적응형 스위치 (language-adaptive switch)입니다. 까다로운 다국어 수학 벤치마크 (mathematical benchmarks)에 대한 실증적 결과에 따르면, LANG은 언어 일관성을 해치지 않으면서도 추론 성능을 실질적으로 향상시킵니다. 또한, 우리의 프레임워크가 수학을 넘어 일반화될 수 있으며, 모델 레이어 (model layers) 전반에 걸쳐 더욱 일관된 언어 정렬 (language alignment)을 촉진함을 보여줍니다.

Insights

LANG: 언어 적응형 힌트 가이던스 (Language-Adaptive Hint Guidance)를 이용한 다국어 추론을 위한 강화학습

요약

핵심 포인트

댓글

자기 진화 AI 에이전트에 대한 종합 조사: 파운데이션 모델과 평생 에이전트 시스템을 연결하는 새로운 패러다임

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.

자기 진화 AI 에이전트에 대한 종합 조사: 파운데이션 모델과 평생 에이전트 시스템을 연결하는 새로운 패러다임

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.