X요약2026. 07. 05. 07:49

AsyncOPD: 온폴리시 증류 (on-policy distillation)는 얼마나 오래된 정책을 사용할 수 있는가?

요약

AsyncOPD는 온폴리시 증류(on-policy distillation) 과정에서 발생하는 느린 생성 속도를 해결하기 위해 비동기 학습을 연구합니다. 순방향 KL은 오래된 정책 데이터를 처리할 수 있지만 역방향 KL은 실패한다는 점을 밝혀냈으며, 이를 통해 정확도 저하 없이 처리량을 최대 3.8배 향상시킵니다.

핵심 포인트

온폴리시 증류의 생성 속도 저하 문제 해결 연구
비동기 학습 시 오래된 정책 데이터(stale-policy data)의 영향 분석
순방향 KL은 비동기 환경에 적합하나 역방향 KL은 부적합함
정확도 손실 없이 처리량(throughput)을 최대 3.8배 개선

OPD는 LLM을 자신의 롤아웃 (rollouts)으로 학습시키지만, 생성 (generation) 속도가 느립니다. 우리는 비동기 학습 (async training)에서 오래된 정책 데이터 (stale-policy data)를 연구합니다: 순방향 KL (forward KL)은 이를 처리할 수 있지만, 역방향 KL (reverse KL)은 실패합니다. AsyncOPD는 정확도 저하 없이 처리량 (throughput)을 최대 3.8배 향상시킵니다. https://t.co/GvhoNCbt6v

AI 자동 생성 콘텐츠

원문 바로가기

Insights

AsyncOPD: 온폴리시 증류 (on-policy distillation)는 얼마나 오래된 정책을 사용할 수 있는가?

요약

핵심 포인트

댓글

Unsloth 2026: 64.9k 스타를 기록한 빠른 LLM 미세 조정 (Fine-Tuning)

내가 AI 모델 셀프 호스팅(Self-Hosting)을 그만둔 이유 (여러분도 아마 그래야 할 것입니다)

Gemma 4를 활용한 실행, 구축 및 최적화