arXiv논문2026. 06. 30. 14:24

LLM 사후 학습(Post-Training)에서 온라인 모방 학습(Online Imitation Learning)이 도움이 되는 시점은

요약

LLM 사후 학습에서 온라인 모방 학습(IL)이 오프라인 SFT보다 효과적인 원인을 분석한 연구입니다. 온라인 상호작용의 이점은 오차 누적이 아닌, 학생 모델이 전문가 모델을 표현할 수 있는지 여부(realizability)에 달려 있음을 밝혀냈습니다.

핵심 포인트

온라인 IL의 이점은 오차 누적이 아닌 실현 가능성(realizability)에 기인함
실현 가능한 설정에서는 오프라인 IL만으로도 전문가 성능 도달 가능
비실현적 설정에서 오프라인 IL은 정보 이론적 병목 현상에 직면함
온라인 IL은 분포 불일치 상황에서도 높은 성능을 증명함

온라인 모방 학습 (Online Imitation Learning, IL), 특히 온-폴리시 증류 (on-policy distillation)는 오프라인 지도 미세 조정 (offline Supervised Fine-Tuning, SFT)보다 종종 더 나은 성능을 보이는 강력한 LLM 사후 학습 (post-training) 접근 방식으로 부상했습니다. 하지만 언제, 왜 온라인 상호작용이 도움이 되는지에 대한 원칙적인 이해는 여전히 불분명합니다. 본 연구에서 우리는 오차 누적 (error accumulation)이 온라인 IL의 이점의 주요 원인이라는 견해에 이의를 제기하며, 대신 온라인 상호작용의 이점이 설정이 실현 가능한지(realizable), 즉 학생 정책 클래스 (student policy class)가 전문가 정책 (expert policy)을 표현할 수 있는지 여부에 결정적으로 달려 있음을 보여줍니다. 실현 가능한 (realizable) 상황에서는 오프라인 IL이 이미 전문가의 성능과 일치한다는 것을 경험적으로 발견했습니다. 반대로, 비실현 가능한 (non-realizable, misspecified) 설정에서는 호라이즌 $H=1$인 경우에도 오프라인 IL이 정보 이론적 병목 현상 (information-theoretic bottleneck)에 직면한다는 것을 증명하며, 보상 (reward)과 관련된 미스스펙시피케이션 (misspecification)의 구조적 특성을 제안합니다. 이 조건 하에서 온라인 IL은 전문가 정책과 학생 정책 사이의 큰 분포 불일치 (distributional mismatch)에도 불구하고 증명 가능한 높은 성능을 달성합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 사후 학습(Post-Training)에서 온라인 모방 학습(Online Imitation Learning)이 도움이 되는 시점은

요약

핵심 포인트

댓글