arXiv논문2026. 06. 30. 12:55

DOPD: 이중 온폴리시 증류 (Dual On-policy Distillation)

요약

DOPD는 온폴리시 증류 과정에서 발생하는 '특권 환상' 문제를 해결하기 위해 제안된 이중 증류 패러다임입니다. 어드밴티지 격차를 기반으로 토큰 수준의 감독을 교사와 학생 모델 사이에서 동적으로 라우팅하여 효율적인 능력 전이를 구현합니다.

핵심 포인트

특권 정보 주입 시 발생하는 '특권 환상' 문제 정의
어드밴티지 인식 기반의 동적 토큰 수준 감독 라우팅 제안
LLM 및 VLM 환경에서 기존 OPD 모델 대비 우수한 성능 입증
안정성, 강건성 및 지속 학습 측면에서의 우수성 검증

온폴리시 증류 (On-policy distillation, OPD)는 학생 모델이 샘플링한 궤적(trajectories)을 조밀한 토큰 수준의 신호(token-level signals)로 감독함으로써 우수한 능력 전이(capacity transfer)를 제공합니다. 고품질의 감독 소스를 제공하여 증류의 성능 한계를 높이기 위한 직관적인 방향은 교사(teacher) 또는 학생(student) 모델 자체에 특권 정보(privileged information)를 주입하는 것입니다. 그러나 이러한 추가 입력은 우리가 '특권 환상 (privilege illusion)'이라 명명한 잠재적 실패 모드를 유발합니다. 이는 학생들이 메워야 할 '전이 가능한 능력 격차 (transferable capability gap)'와, 모방할 수는 있지만 결코 복제할 수는 없는 '정보 비대칭 격차 (information asymmetry gap)'를 혼동하는 패턴입니다. 이 문제는 토큰 수준 감독의 내재적인 불균일성(non-uniformity)에 의해 더욱 증폭되는데, 여기서 오직 토큰의 작은 하위 집합만이 핵심적인 능력 함유 신호(capability-bearing signals)를 전달합니다. 이를 위해, 우리는 어드밴티지 격차(advantage gap)와 상대적 확률(relative probabilities)을 기반으로 특권 교사 정책과 특권 학생 정책 사이에서 토큰 수준의 감독을 동적으로 라우팅하는 어드밴티지 인식 이중 증류 패러다임인 DOPD를 제안합니다. 각 토큰은 교사 또는 학생 모델로부터 서로 다른 강도, 목적 및 전략의 감독을 받으며, 이를 통해 특권 환상을 완화하면서 신뢰할 수 있는 능력을 전이하는 동시에 보조 신호(auxiliary signals)를 수신합니다. 대규모 언어 모델 (Large Language Model, LLM) 및 시각-언어 모델 (Vision-Language Model, VLM) 설정 모두에서의 광범위한 실험을 통해 DOPD가 기존의 Vanilla OPD 및 기타 대응 모델들을 일관되게 능가함을 입증했습니다. 안정성, 강건성(robustness), 지속 학습(continual learning) 및 분포 외(out-of-distribution) 작업에 대한 추가 결과는 DOPD의 우수성을 검증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DOPD: 이중 온폴리시 증류 (Dual On-policy Distillation)

요약

핵심 포인트

댓글