arXiv논문2026. 06. 09. 12:05

토크나이저 장벽 허물기: 모델 패밀리 간의 On-Policy Distillation

요약

서로 다른 토크나이저를 사용하는 모델 간에도 지식 증류가 가능하도록 하는 On-Policy Distillation(OPD) 기술을 제안합니다. 정밀한 토큰 매핑 알고리즘을 통해 교사 모델의 확률 분포를 학생 모델에 효과적으로 전달하여 계산 효율성을 높였습니다.

핵심 포인트

서로 다른 토크나이저를 사용하는 모델 간의 지식 증류 가능
정밀한 토큰 매핑 알고리즘을 통한 고충실도 신호 전달
기존 SFT 방식 대비 풍부한 확률 분포 정보 포착
다양한 벤치마크에서 높은 계산 효율성 입증

On-Policy Distillation (OPD)은 도메인 전문가로부터 학생 모델 (student models)로 지식을 전달하기 위한 대규모 언어 모델 (LLMs) 사후 학습 (post-training)의 핵심 기술이 되었습니다. 그러나 기존의 OPD 증류 (distillation) 방식은 교사 모델 (teacher models)과 학생 모델이 동일한 토크나이저 (tokenizer)를 공유해야 하며, 이는 모델 시리즈 내에서만 OPD를 적용할 수 있도록 제한합니다. 현재의 주류 관행은 교차 토크나이저 (cross-tokenizer) 증류를 위해 교사가 생성한 응답에 대해 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 사용하는 방식을 주로 채택하고 있으나, 이는 교사의 확률 분포 (probability distribution)에 내재된 풍부한 지식을 포착하지 못합니다. 본 연구에서는 정밀한 토큰 매핑 (token-mapping) 알고리즘을 통해 고충실도 토큰 수준 신호 (high-fidelity token-level signals)가 서로 다른 토크나이저 간에 전파될 수 있도록 보장함으로써, 표준 On-Policy Distillation 방식이 모델 패밀리(model families)를 가로질러 작동할 수 있게 합니다. 광범위한 실험 결과, 교차 토크나이저 OPD는 다양한 벤치마크에서 베이스라인 (baselines)보다 계산 효율성 (compute-efficient)이 현저히 높음을 보여줍니다. 우리의 결과는 OPD를 위한 더 넓은 범위의 교사-학생 쌍 (teacher-student pairs)을 확보하여, LLM 간의 상호작용을 적응시키고 강화하는 새로운 길을 열어줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

토크나이저 장벽 허물기: 모델 패밀리 간의 On-Policy Distillation

요약

핵심 포인트

댓글