SimCT: 크로스 토크나이저의 손실된 감독 신호 복구

On-policy distillation (OPD)은 교사(teacher)의 행동을 더 작은 학생(student)에게 전달하는 표준 도구이지만, 이는 교사와 학생의 예측이 토큰별로 비교 가능하다는 것을 암묵적으로 가정합니다. 이 가정이 실패하는 경우는 두 모델이 동일한 텍스트를 다르게 토크나이징할 때입니다. 이질적인 토크나이저(heterogeneous tokenizers) 환경에서 정확한 공유 토큰 매칭은 어휘집(vocabularies)이 불일치하는 바로 그 위치에서 교사 신호의 상당 부분을 조용히 버리게 됩니다. 우리는 감독 공간을 확장함으로써 이 신호를 복구하는 extbf{ ext{Sim}ple ext{Cross-Tokenizer OPD (SimCT)}}를 제안합니다. SimCT는 공유 토큰 외에도, 짧은 다중 토큰 연속체(multi-token continuati)에 걸쳐 교사와 학생을 비교합니다.

Insights

SimCT: 크로스 토크나이저의 손실된 감독 신호 복구

요약

핵심 포인트

댓글

Prolog 학생들은 어떤 버그를 작성하는가? 경험적 분류 체계 및 데이터 기반 변이 프레임워크

「이름이 가치를 말한다」 제품 네이밍을 AI에게 맡기기 — nexus-architect의 네이밍 기술 실전

Euclid-MCP: Prolog을 통한 결정론적 논리 추론을 위한 Model Context Protocol 서버

LLM의 JSON 출력은 실무에서 깨진다 — 추출→수복→검증의 3단계 대응법

Prolog 학생들은 어떤 버그를 작성하는가? 경험적 분류 체계 및 데이터 기반 변이 프레임워크

「이름이 가치를 말한다」 제품 네이밍을 AI에게 맡기기 — nexus-architect의 네이밍 기술 실전

Euclid-MCP: Prolog을 통한 결정론적 논리 추론을 위한 Model Context Protocol 서버

LLM의 JSON 출력은 실무에서 깨진다 — 추출→수복→검증의 3단계 대응법