
AsyncOPD: 온폴리시 증류 (on-policy distillation)는 얼마나 오래된 정책을 사용할 수 있는가?
요약
AsyncOPD는 온폴리시 증류(on-policy distillation) 과정에서 발생하는 느린 생성 속도를 해결하기 위해 비동기 학습을 연구합니다. 순방향 KL은 오래된 정책 데이터를 처리할 수 있지만 역방향 KL은 실패한다는 점을 밝혀냈으며, 이를 통해 정확도 저하 없이 처리량을 최대 3.8배 향상시킵니다.
핵심 포인트
- 온폴리시 증류의 생성 속도 저하 문제 해결 연구
- 비동기 학습 시 오래된 정책 데이터(stale-policy data)의 영향 분석
- 순방향 KL은 비동기 환경에 적합하나 역방향 KL은 부적합함
- 정확도 손실 없이 처리량(throughput)을 최대 3.8배 개선
AsyncOPD: 온폴리시 증류 (on-policy distillation)는 얼마나 오래된 정책을 사용할 수 있는가?
OPD는 LLM을 자신의 롤아웃 (rollouts)으로 학습시키지만, 생성 (generation) 속도가 느립니다. 우리는 비동기 학습 (async training)에서 오래된 정책 데이터 (stale-policy data)를 연구합니다: 순방향 KL (forward KL)은 이를 처리할 수 있지만, 역방향 KL (reverse KL)은 실패합니다. AsyncOPD는 정확도 저하 없이 처리량 (throughput)을 최대 3.8배 향상시킵니다. https://t.co/GvhoNCbt6v
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기