토크나이저 장벽 허물기: 모델 패밀리 간의 On-Policy Distillation
요약
서로 다른 토크나이저를 사용하는 모델 간에도 지식 증류가 가능하도록 하는 On-Policy Distillation(OPD) 기술을 제안합니다. 정밀한 토큰 매핑 알고리즘을 통해 교사 모델의 확률 분포를 학생 모델에 효과적으로 전달하여 계산 효율성을 높였습니다.
핵심 포인트
- 서로 다른 토크나이저를 사용하는 모델 간의 지식 증류 가능
- 정밀한 토큰 매핑 알고리즘을 통한 고충실도 신호 전달
- 기존 SFT 방식 대비 풍부한 확률 분포 정보 포착
- 다양한 벤치마크에서 높은 계산 효율성 입증
On-Policy Distillation (OPD)은 도메인 전문가로부터 학생 모델 (student models)로 지식을 전달하기 위한 대규모 언어 모델 (LLMs) 사후 학습 (post-training)의 핵심 기술이 되었습니다. 그러나 기존의 OPD 증류 (distillation) 방식은 교사 모델 (teacher models)과 학생 모델이 동일한 토크나이저 (tokenizer)를 공유해야 하며, 이는 모델 시리즈 내에서만 OPD를 적용할 수 있도록 제한합니다. 현재의 주류 관행은 교차 토크나이저 (cross-tokenizer) 증류를 위해 교사가 생성한 응답에 대해 지도 미세 조정 (Supervised Fine-Tuning, SFT)을 사용하는 방식을 주로 채택하고 있으나, 이는 교사의 확률 분포 (probability distribution)에 내재된 풍부한 지식을 포착하지 못합니다. 본 연구에서는 정밀한 토큰 매핑 (token-mapping) 알고리즘을 통해 고충실도 토큰 수준 신호 (high-fidelity token-level signals)가 서로 다른 토크나이저 간에 전파될 수 있도록 보장함으로써, 표준 On-Policy Distillation 방식이 모델 패밀리(model families)를 가로질러 작동할 수 있게 합니다. 광범위한 실험 결과, 교차 토크나이저 OPD는 다양한 벤치마크에서 베이스라인 (baselines)보다 계산 효율성 (compute-efficient)이 현저히 높음을 보여줍니다. 우리의 결과는 OPD를 위한 더 넓은 범위의 교사-학생 쌍 (teacher-student pairs)을 확보하여, LLM 간의 상호작용을 적응시키고 강화하는 새로운 길을 열어줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기