X요약2026. 05. 15. 19:13

100B+ 파라미터 교사 모델을 사용한 On-policy distillation이 이제 TRL에서 가능해졌으며, 기존 방식보다 최대 40배 더

요약

TRL 라이브러리를 통해 100B+ 파라미터의 대형 교사 모델을 활용한 On-policy distillation이 구현 가능해졌으며, 기존 방식 대비 최대 40배 빠른 속도를 달성했습니다. 이 성과는 생성 버퍼를 도입하여 vLLM의 롤아웃 효율성을 높이고, 요청 배치 및 logprob에 대한 이진 인코딩을 적용한 최적화된 교사 서버 구축 덕분에 가능했습니다.

핵심 포인트

TRL에서 100B+ 파라미터 모델 기반 On-policy distillation 구현이 가능해졌다.
생성 버퍼 도입으로 vLLM의 롤아웃 생성 속도가 최대 41.7배 향상되었다.
요청 배치 및 이진 인코딩을 통해 교사 서버의 꼬리 지연 시간이 10배 감소하고 처리량이 약 3배 증가했다.
Qwen3-235B와 같은 대형 모델을 4B 학생 모델로 증류하여 AIME25에서 39점 이상의 성능 향상을 입증했다.

100B+ 파라미터 교사 모델을 사용한 On-policy distillation (온-정책 증류)이 이제 TRL에서 가능해졌으며, 단순한 구현 방식보다 최대 40배 더 빠릅니다!

우리는 Qwen3-235B를 4B 학생 모델로 증류(distillation)하였으며, AIME25에서 39점 이상의 점수 향상을 얻었습니다. 두 가지 엔지니어링 최적화가 이를 가능하게 했습니다.

블로그 포스트:
https://huggingface.co/spaces/HuggingFaceTB/trl-distillation-trainer

첫째: 생성 버퍼 (generation buffer).

우리는 학습을 위해 아주 작은 마이크로배치 (microbatches)가 필요했기에, vLLM으로 롤아웃 (rollouts)을 생성할 때 아주 작은 배치들을 사용했습니다.

이제 우리는 버퍼를 사용하여 롤아웃을 생성하고 vLLM에 큰 배치를 전달합니다.

64 grad accum steps (경사 누적 단계) -> 생성 속도 41.7배 향상.

둘째: 최적화된 교사 서버 (optimized teacher server).

여러 학습 워커 (training workers)가 동시에 교사 모델에 접근할 때, 요청이 쌓이고 꼬리 지연 시간 (tail latency)이 폭발적으로 증가합니다. 우리는 요청 배치 (request batching)와 logprob 페이로드에 대한 이진 인코딩 (binary encoding)을 추가했습니다.

결과: 꼬리 지연 시간 10배 감소 및 전체 처리량 (throughput) 약 3배 향상.

AI 자동 생성 콘텐츠

원문 바로가기

100B+ 파라미터 교사 모델을 사용한 On-policy distillation이 이제 TRL에서 가능해졌으며, 기존 방식보다 최대 40배 더

요약

핵심 포인트

댓글