arXiv논문2026. 05. 14. 03:03

Large Language Models의 긴 문맥 추론을 위한 On-Policy 최적화와 증류(Distillation)의 결합

요약

본 논문은 LLM의 긴 문맥 추론 능력을 향상시키기 위해 On-policy 증류와 GRPO를 결합한 dGRPO 방법론을 제안합니다. 기존 Off-policy 방식의 노출 편향 문제와 On-policy 방식의 낮은 샘플 효율성 문제를 동시에 해결하며, 이를 검증하기 위한 합성 데이터셋인 LongBlocks를 함께 소개합니다.

핵심 포인트

dGRPO는 교사 모델의 조밀한 가이드(On-policy Distillation)와 결과 기반 정책 최적화(GRPO)를 단일 목적 함수로 결합합니다.
기존 SFT 및 KD 방식의 노출 편향(exposure bias) 문제를 완화하고, RL의 희소 보상(sparse rewards) 문제를 개선합니다.
다단계 추론, 문맥적 근거 제시, 장문 생성을 포함하는 새로운 합성 데이터셋 LongBlocks를 제안합니다.
결합된 접근 방식은 짧은 문맥 능력을 유지하면서도 긴 문맥 정렬을 위한 더 안정적이고 효과적인 경로를 제공합니다.

Large Language Models (LLMs)를 긴 문맥 (long-context) 작업에 적응시키기 위해서는 수천 개의 토큰에 걸쳐 정확성과 일관성을 유지하는 사후 학습 (post-training) 방법이 필요합니다. 기존 방식들은 몇 가지 측면에서 한계가 있습니다: 1) 지도 미세 조정 (Supervised Fine-Tuning, SFT) 및 지식 증류 (Knowledge Distillation, KD)와 같은 Off-policy 방법은 노출 편향 (exposure bias) 문제를 겪으며, 긴 범위에 걸쳐 모델이 생성한 오류를 복구하는 능력이 제한적입니다; 2) Group Relative Policy Optimization (GRPO)와 같은 On-policy 강화 학습 (Reinforcement Learning, RL) 방법은 훈련을 모델이 생성한 상태와 더 잘 정렬시키지만, 희소한 보상 (sparse rewards)으로 인해 불안정하고 샘플 효율성이 낮습니다; 3) On-policy Distillation (OPD)은 조밀한 토큰 수준의 가이드를 제공하지만, 임의의 보상 신호를 직접적으로 최적화하지는 못합니다. 본 논문에서는 우리는 OPD를 통해 더 강력한 교사 모델로부터 얻은 조밀한 가이드로 GRPO를 보강하는 긴 문맥 추론 방법론인 Distilled Group Relative Policy Optimization (dGRPO)를 제안합니다. 또한 우리는 다단계 추론 (multi-hop reasoning), 문맥적 근거 제시 (contextual grounding), 그리고 장문 생성 (long-form generation)을 아우르는 합성 긴 문맥 데이터셋인 LongBlocks를 소개합니다. 우리는 Off-policy 훈련, 희소 보상 GRPO, 그리고 우리의 결합된 접근 방식을 비교하는 광범위한 실험과 절제 연구 (ablations)를 수행하였으며, 이를 통해 긴 문맥 정렬 (long-context alignment)을 위한 개선된 레시피를 도출했습니다. 종합적으로, 우리의 결과는 결과 기반 정책 최적화 (outcome-based policy optimization)와 지식 증류 (knowledge distillation)를 단일 목적 함수로 결합하는 것이 짧은 문맥 능력을 보존하면서도 긴 문맥 추론으로 가는 더 안정적이고 효과적인 경로를 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Large Language Models의 긴 문맥 추론을 위한 On-Policy 최적화와 증류(Distillation)의 결합

요약

핵심 포인트

댓글