X요약2026. 06. 03. 19:44

TrOPD: LLM을 위한 안정적인 증류 (Stable distillation)

요약

TrOPD는 온-폴리시 증류 과정의 불안정성을 해결하기 위해 신뢰 영역 내에서 교사 감독을 적용하는 새로운 방법론입니다. 이상치 추정과 오프-폴리시 가이드를 통해 탐색을 유지하며 수학적 추론 및 코드 생성 성능을 높였습니다.

핵심 포인트

신뢰 영역 기반의 안정적인 LLM 증류 방법론 제안
이상치 추정 및 오프-폴리시 가이드를 통한 불안정성 해소
수학적 추론 및 코드 생성 벤치마크에서 SOTA 달성

신뢰 영역 (trust regions) 내에서만 교사 감독 (teacher supervision)을 적용하는 동시에, 탐색 (exploration)을 유지하기 위해 이상치 추정 (outlier estimation) 및 오프-폴리시 가이드 (off-policy guidance)를 사용하여 온-폴리시 증류 (on-policy distillation)의 불안정성을 해결하는 새로운 방법론입니다.

TrOPD는 수학적 추론 (math reasoning), 코드 생성 (code generation) 및 일반 벤치마크 (general benchmarks) 전반에서 최첨단 베이스라인 (state-of-the-art baselines)을 능가합니다.

논문 (Paper):
https://huggingface.co/papers/2606.01249

코드 (Code):
https://github.com/Xingrun-Xing2/TrOPD

AI 자동 생성 콘텐츠

원문 바로가기

TrOPD: LLM을 위한 안정적인 증류 (Stable distillation)

요약

핵심 포인트

댓글