arXiv논문2026. 05. 25. 16:47

EDGE-OPD: 증거 기반 온폴리시 증류(Evidence Guided On-Policy Distillation)를 통한 특권

요약

본 논문은 온폴리시 자기 증류(OPSD) 과정에서 발생하는 부작용을 해결하기 위한 EDGE-OPD 방법론을 제안합니다. 가이드된 롤아웃과 증거 마스크를 통해 특권 컨텍스트를 효과적으로 전이하면서도 모델의 일반적인 능력을 보존하는 연구를 다룹니다.

핵심 포인트

OPSD의 부작용인 모델 행동 왜곡 및 성능 저하 문제 분석
가이드된 롤아웃을 통한 희귀 타겟 행동의 온폴리시 데이터 확보
증거 마스크를 적용하여 유효한 토큰 위치에서만 모델 업데이트 수행
실험을 통해 타겟 정체성 학습 성공 및 일반 능력 보존 입증

온폴리시 증류 (On-Policy Distillation, OPD)는 모델 분포 드리프트 (model distribution drift)를 유발하지 않으면서 능력을 향상시키고, 결과적으로 일반적인 작업에서의 성능 퇴보를 방지하는 효과 덕분에 LLM 사후 학습 (post-training) 패러다임으로서 널리 주목받고 있습니다. 온폴리시 자기 증류 (On-Policy Self-Distillation, OPSD)는 OPD의 효율적인 활용 사례로, 학생 (student)과 교사 (teacher) 모델로 단일 모델만을 필요로 한다는 점에서 매력적입니다. 또한 학습 과정 중 교사 모델에게 추론 시점에는 존재하지 않는 특권 컨텍스트 (privileged context) (예: 페르소나, 개인적인 사실, 또는 풀이 과정)를 제공할 수 있다는 장점이 있습니다. 이 접근 방식의 과제는 특권 정보가 의도보다 모델의 행동을 더 많이 변화시킬 수 있다는 점입니다. 즉, 추론 과정을 수정하거나, 일반적인 능력을 저하시키며, 응답 길이, 스타일 또는 로컬 토큰 선호도와 같은 성능 지표에 영향을 줄 수 있습니다. 결과적으로 OPSD는 원하는 전이 가능한 행동 (transferable behavior) 대신 부작용 (side effects)을 학생 모델에게 학습시킬 수 있습니다. 본 논문에서는 희귀 토큰/정체성 (rare-token/identity) 설정에서 이 문제를 연구하며, 두 가지 뚜렷한 특징을 가진 OPSD의 수정안인 증거 기반 온폴리시 증류 (EviDence GuidEd On-Policy Distillation, EDGE-OPD)를 제안합니다: a) 샘플링 시점에 가이드된 롤아웃 (guided rollouts)을 사용하여 학생에게 특권 컨텍스트 행동을 주입함으로써, 희귀한 타겟 행동이 실제로 온폴리시 데이터에 존재하도록 합니다. b) 증거 마스크 (evidence mask)를 적용합니다: 학생 모델은 롤아웃의 모든 토큰이 아니라, 특권 컨텍스트가 샘플링된 토큰을 뒷받침하는 토큰 위치에서만 업데이트됩니다. 우리는 실험을 통해 OPSD (및 검증기 유무에 따른 변형인 RLSD)가 타겟 정체성을 학습하는 데 완전히 실패하는 반면, 가이드된 롤아웃의 통합은 성공을 가능하게 함을 보여줍니다. 또한, 마스크 영역 절제 연구 (mask-region ablations)를 통해 페르소나 신호가 긍정적 증거의 꼬리 (positive-evidence tail) 부분에 국한됨을 보여주며, 이를 통해 효율적인 지식 전이 및 일반 목적 능력의 보존에 관한 가치 있는 통찰을 도출할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

EDGE-OPD: 증거 기반 온폴리시 증류(Evidence Guided On-Policy Distillation)를 통한 특권

요약

핵심 포인트

댓글