X요약2026. 06. 09. 19:11

On-policy distillation은 단순한 SFT-lite가 아니다

요약

본 기사는 On-policy distillation (OPD)이라는 새로운 연구 방법을 소개하며, 이것이 LLM을 매개변수 공간에서 재구성하는 방식을 분석합니다. OPD는 주성분 방향 회피 및 희소 업데이트를 통해 강력한 추론 능력을 유지하는 좁은 부분공간으로 빠르게 '고정'되는 특징을 가집니다. 또한, OmniGameArena이라는 VLM 게임 에이전트 실시간 UE5 벤치마크도 함께 제시되었습니다.

핵심 포인트

OPD는 LLM 재구성의 새로운 방법론입니다.
주성분 방향 회피 및 희소 업데이트를 사용합니다.
강력한 추론을 유지하는 부분공간으로 수렴합니다.
OmniGameArena은 VLM 게임 에이전트 벤치마크입니다.

새로운 연구는 OPD(On-policy distillation)가 매개변수 공간에서 LLM을 어떻게 재구성하는지 추적합니다.
이는 주성분 방향을 회피하고 더 적은 가중치를 희소하게 업데이트합니다.
가장 주목할 만한 점은, 강력한 추론만 유지하는 좁은 부분공간으로 빠르게 '고정'된다는 것입니다.

이것은 OPD가 SFT와 RLVR 사이에 위치한다는 직관에 도전합니다.
OPD는 자체적인 기하학적 영역을 정의합니다.

논문:

OmniGameArena은 VLM 게임 에이전트를 위한 실시간 UE5 벤치마크입니다.
12개의 새로운 게임이 공유 인터페이스로 솔로, PvP, 그리고 협동(Coop)을 아우릅니다.
개선 동역학 곡선(Improvement Dynamics Curve)은 반성 라운드를 거쳐 에이전트가 어떻게 학습하고 개선하는지를 추적합니다.

AI 자동 생성 콘텐츠

원문 바로가기

On-policy distillation은 단순한 SFT-lite가 아니다

요약

핵심 포인트

댓글