arXiv논문2026. 05. 22. 11:28

사후 학습(Post-Training)은 토큰이 아닌 상태(States)에 관한 것이다: SFT, RL 및 On-Policy

요약

LLM 사후 학습을 손실 함수가 아닌 상태 분포 형성(State-distribution Shaping) 관점에서 분석한 연구입니다. SFT, RL, OPD가 모델의 성능 향상과 유지 성능(Retention)에 미치는 영향을 실험적으로 입증했습니다.

핵심 포인트

사후 학습을 상태 분포 형성 관점으로 재정의
과도한 SFT는 모델의 유지 성능 손실을 초래함
온-정책 증류(OPD)는 성능이 낮은 교사 모델보다 높은 성능을 낼 수 있음
경량화된 온-정책 RL은 성능 향상과 유지 성능 보존에 효과적임

지도 미세 조정 (Supervised Fine-Tuning, SFT), 강화 학습 (Reinforcement Learning, RL), 그리고 증류 (Distillation)와 같은 대규모 언어 모델 (Large Language Model, LLM) 사후 학습 (Post-training) 방법론들은 흔히 최대 가능도 (Maximum Likelihood), 정책 경사 (Policy Gradients), 순방향 KL (Forward KL), 역방향 KL (Reverse KL) 또는 이와 관련된 목적 함수 (Objective) 수준의 변형들을 통한 손실 함수 (Loss Function) 관점에서 분석되곤 합니다. 우리는 이와 상호 보완적인 요소인, 감독 (Supervision)이 적용되는 상태 분포 (State Distribution)를 연구합니다. 자기 회귀 정책 (Autoregressive Policy)에서 상태 (State)란 프롬프트 (Prompt)와 생성된 접두사 (Prefix)의 결합을 의미합니다. SFT는 고정된 데이터셋 상태에서 학습하는 반면, RL 및 온-정책 증류 (On-Policy Distillation, OPD)는 현재 학습자에 의해 유도된 상태에서 학습합니다. 우리는 사후 학습을 상태 분포 형성 (State-distribution Shaping)으로 공식화하고, GSM8K를 대상으로 Qwen3-0.6B-Base를 사용하여 통제된 소규모 연구를 수행하였으며, 유지 성능 (Retention) 평가를 위해 TruthfulQA와 MMLU를 사용했습니다. 연구 결과 세 가지 현상이 나타났습니다. 첫째, 가벼운 SFT 실행은 망각 (Forgetting)을 거의 일으키지 않으면서 GSM8K 성능을 향상시키지만, 과도한 SFT 실행은 상당한 유지 성능 손실을 초래합니다. 둘째, 성능이 저하된 SFT 교사 모델 (Teacher)로부터 수행된 OPD는 해당 교사 모델을 유일한 감독 소스로 사용함에도 불구하고 GSM8K, TruthfulQA, MMLU에서 교사 모델의 성능을 능가합니다. 셋째, 경량화된 온-정책 RL 실행은 유지 성능을 보존하면서 GSM8K를 향상시킵니다. 이러한 결과는 사후 학습에 대한 상태 중심적 관점 (State-centric View)을 뒷받침합니다. 즉, 학습 상태의 출처와 국소성 (Locality)은 감독 신호 (Supervision Signal)의 형태만큼이나 중요할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

사후 학습(Post-Training)은 토큰이 아닌 상태(States)에 관한 것이다: SFT, RL 및 On-Policy

요약

핵심 포인트

댓글