본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 03:03

Large Language Models의 긴 문맥 추론을 위한 On-Policy 최적화와 증류(Distillation)의 결합

요약

본 논문은 LLM의 긴 문맥 추론 능력을 향상시키기 위해 On-policy 증류와 GRPO를 결합한 dGRPO 방법론을 제안합니다. 기존 Off-policy 방식의 노출 편향 문제와 On-policy 방식의 낮은 샘플 효율성 문제를 동시에 해결하며, 이를 검증하기 위한 합성 데이터셋인 LongBlocks를 함께 소개합니다.

핵심 포인트

  • dGRPO는 교사 모델의 조밀한 가이드(On-policy Distillation)와 결과 기반 정책 최적화(GRPO)를 단일 목적 함수로 결합합니다.
  • 기존 SFT 및 KD 방식의 노출 편향(exposure bias) 문제를 완화하고, RL의 희소 보상(sparse rewards) 문제를 개선합니다.
  • 다단계 추론, 문맥적 근거 제시, 장문 생성을 포함하는 새로운 합성 데이터셋 LongBlocks를 제안합니다.
  • 결합된 접근 방식은 짧은 문맥 능력을 유지하면서도 긴 문맥 정렬을 위한 더 안정적이고 효과적인 경로를 제공합니다.

Large Language Models (LLMs)를 긴 문맥 (long-context) 작업에 적응시키기 위해서는 수천 개의 토큰에 걸쳐 정확성과 일관성을 유지하는 사후 학습 (post-training) 방법이 필요합니다. 기존 방식들은 몇 가지 측면에서 한계가 있습니다: 1) 지도 미세 조정 (Supervised Fine-Tuning, SFT) 및 지식 증류 (Knowledge Distillation, KD)와 같은 Off-policy 방법은 노출 편향 (exposure bias) 문제를 겪으며, 긴 범위에 걸쳐 모델이 생성한 오류를 복구하는 능력이 제한적입니다; 2) Group Relative Policy Optimization (GRPO)와 같은 On-policy 강화 학습 (Reinforcement Learning, RL) 방법은 훈련을 모델이 생성한 상태와 더 잘 정렬시키지만, 희소한 보상 (sparse rewards)으로 인해 불안정하고 샘플 효율성이 낮습니다; 3) On-policy Distillation (OPD)은 조밀한 토큰 수준의 가이드를 제공하지만, 임의의 보상 신호를 직접적으로 최적화하지는 못합니다. 본 논문에서는 우리는 OPD를 통해 더 강력한 교사 모델로부터 얻은 조밀한 가이드로 GRPO를 보강하는 긴 문맥 추론 방법론인 Distilled Group Relative Policy Optimization (dGRPO)를 제안합니다. 또한 우리는 다단계 추론 (multi-hop reasoning), 문맥적 근거 제시 (contextual grounding), 그리고 장문 생성 (long-form generation)을 아우르는 합성 긴 문맥 데이터셋인 LongBlocks를 소개합니다. 우리는 Off-policy 훈련, 희소 보상 GRPO, 그리고 우리의 결합된 접근 방식을 비교하는 광범위한 실험과 절제 연구 (ablations)를 수행하였으며, 이를 통해 긴 문맥 정렬 (long-context alignment)을 위한 개선된 레시피를 도출했습니다. 종합적으로, 우리의 결과는 결과 기반 정책 최적화 (outcome-based policy optimization)와 지식 증류 (knowledge distillation)를 단일 목적 함수로 결합하는 것이 짧은 문맥 능력을 보존하면서도 긴 문맥 추론으로 가는 더 안정적이고 효과적인 경로를 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0