본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 11. 23:37

SimCT: 크로스 토크나이저의 손실된 감독 신호 복구

요약

본 기사는 온-정책 증류(OPD)가 두 모델의 예측이 토큰별로 비교 가능하다고 가정하는 한계를 지적하며, 특히 이질적인 토크나이저 환경에서 발생하는 문제점을 다룹니다. 연구진은 공유 토큰 매칭만으로는 교사 신호의 상당 부분을 놓치게 된다는 점을 발견하고, 이를 해결하기 위해 'SimCT(Simple Cross-Tokenizer OPD)'를 제안했습니다. SimCT는 단순히 공유 토큰 외에도 짧은 다중 토큰 연속체에 걸쳐 교사와 학생 모델 간의 비교를 확장하여 손실된 감독 신호를 효과적으로 복구합니다.

핵심 포인트

  • 온-정책 증류(OPD)는 토큰별 예측 비교 가능성을 전제로 한다.
  • 이질적인 토크나이저 환경에서는 공유 토큰 매칭만으로는 교사 신호의 상당 부분이 손실된다.
  • SimCT는 감독 공간을 확장하여 이질적 토크나이저 간의 정보 격차를 해소한다.
  • SimCT는 단일 토큰 비교를 넘어 짧은 다중 토큰 연속체에 걸쳐 모델들을 비교하는 것이 핵심이다.

On-policy distillation (OPD)은 교사(teacher)의 행동을 더 작은 학생(student)에게 전달하는 표준 도구이지만, 이는 교사와 학생의 예측이 토큰별로 비교 가능하다는 것을 암묵적으로 가정합니다. 이 가정이 실패하는 경우는 두 모델이 동일한 텍스트를 다르게 토크나이징할 때입니다. 이질적인 토크나이저(heterogeneous tokenizers) 환경에서 정확한 공유 토큰 매칭은 어휘집(vocabularies)이 불일치하는 바로 그 위치에서 교사 신호의 상당 부분을 조용히 버리게 됩니다. 우리는 감독 공간을 확장함으로써 이 신호를 복구하는 extbf{ ext{Sim}ple ext{Cross-Tokenizer OPD (SimCT)}}를 제안합니다. SimCT는 공유 토큰 외에도, 짧은 다중 토큰 연속체(multi-token continuati)에 걸쳐 교사와 학생을 비교합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0