X요약2026. 05. 15. 13:25

모델 패밀리 간의 학습은 토크나이저 (tokenizer)의 차이뿐만 아니라 응답 스타일 (response styles)의 차이 때문에도

요약

모델 패밀리 간의 학습은 토크나이저 차이 외에도 응답 스타일(response styles)의 차이 때문에 어려우며, 이러한 스타일 정렬(style alignment) 측정 지표를 제공한다. 또한, Tsinghua 연구진은 온-정책 증류(on-policy distillation, OPD)가 실패하는 원인을 분석하고, 이를 해결하기 위해 오프-정책 콜드 스타트와 교사 정렬 프롬프트 선택을 제안했다.

핵심 포인트

모델 패밀리 간의 학습은 토크나이저 차이 외에 응답 스타일(response styles)의 차이가 주요 난제이다.
학습 과정 전반에서 스타일 정렬(style alignment)을 측정할 수 있는 지표들이 제공된다.
Tsinghua 연구진은 온-정책 증류(OPD) 실패의 두 가지 조건으로 '호환 가능한 사고 패턴'과 '새로운 교사 능력'을 식별했다.
OPD 실패 해결책으로 오프-정책 콜드 스타트와 교사 정렬 프롬프트 선택 기법이 제안되었다.

모델 패밀리 간의 학습은 토크나이저 (tokenizer)의 차이뿐만 아니라 응답 스타일 (response styles)의 차이 때문에도 어렵습니다.

또한 이들은 학습 과정 전반에 걸쳐 해당 스타일 정렬 (style alignment)을 측정할 수 있는 좋은 지표들을 제공합니다.

매우 멋진 논문입니다!

왜 온-정책 증류 (on-policy distillation)가 실패하는가와 이를 어떻게 회복하는가

칭화대학교 (Tsinghua) 연구진은 온-정책 증류 (OPD)의 성공을 위한 두 가지 조건인 호환 가능한 사고 패턴 (compatible thinking patterns)과 새로운 교사 능력 (novel teacher capabilities)을 식별했습니다. 이들은 실패하는 증류 (distillation)를 해결하기 위해 오프-정책 콜드 스타트 (off-policy cold start)와 교사 정렬 프롬프트 선택 (teacher-aligned prompt selection)을 제안합니다

AI 자동 생성 콘텐츠

원문 바로가기

모델 패밀리 간의 학습은 토크나이저 (tokenizer)의 차이뿐만 아니라 응답 스타일 (response styles)의 차이 때문에도

요약

핵심 포인트

댓글