arXiv논문2026. 05. 28. 12:08

LLM 추론을 위한 기술 조건부 게이트형 자기 증류 (Skill-Conditioned Gated Self-Distillation)

요약

LLM의 추론 능력을 향상시키기 위해 기술 뱅크를 활용하는 새로운 자기 증류(Self-Distillation) 기법인 SGSD를 제안합니다. 교사의 가설을 검증하고 불확실한 신호를 억제하는 게이트 목적 함수를 통해 수학적 추론 성능을 효과적으로 높였습니다.

핵심 포인트

기술 기반의 SGSD 방법론 제안
교사 가설 검증을 통한 정교한 감독 제공
강건한 게이트 목적 함수로 정보가 풍부한 불일치 증류
수학 벤치마크에서 GRPO 및 OPSD 대비 우수한 성능 입증

온-정책 자기 증류 (On-policy Self-Distillation, SD)는 교사 측의 특권 정보 (Privileged Information, PI)를 사용하여 희소한 검증기 결과 (Verifier outcomes)를 조밀한 토큰 수준의 감독 (Token-level supervision)으로 전환함으로써 LLM 추론 능력을 향상시킵니다. 기존 방법들은 대개 정답이나 성공적인 추적 경로와 같이 신뢰할 수 있는 PI를 가정합니다. 본 연구에서는 PI가 대신 경험 기반의 기술 뱅크 (Skill bank)에서 올 수 있는지 질문을 던집니다. 여기서 검색된 기술은 압축적이고 재사용 가능하지만, 무관하거나 오해를 불러일으킬 수도 있습니다. 우리는 기술 기반 SD를 무조건적인 모방이 아닌 교사 가설 검증 (Teacher hypothesis validation)으로 공식화하는 기술 조건부 게이트형 자기 증류 (Skill-Conditioned Gated Self-Distillation, SGSD)를 제안합니다. SGSD는 기술-실수 쌍 (Skill-mistake pairs)을 검색하고, 다중 교사 풀 (Multi-teacher pool)을 구축하며, 모든 기술 조건부 교사들이 동일한 일반 프롬프트 학생 롤아웃 (Plain-prompt student rollout)에 점수를 매기도록 합니다. 검증기는 각 교사의 극성 (Polarity)을 검증합니다. 즉, 성공을 지지하거나 실패를 억제하는 것은 긍정적인 감독을 제공하며, 그 반대의 입장은 반전됩니다. 그 후 강건한 게이트 목적 함수 (Robust gated objective)는 불확실하거나 극단적인 신호는 억제하면서 정보가 풍부한 교사-학생 간의 불일치 (Disagreements)를 증류합니다. 여러 수학적 추론 벤치마크에서의 실험 결과, SGSD는 GRPO보다 일관되게 성능을 향상시키며, 더 약한 PI 가정 하에서도 정답 조건부 OPSD와 경쟁력을 유지함을 보여줍니다. 예를 들어, Qwen3-1.7B 모델에서 SGSD는 AIME24, AIME25, HMMT25에서 평균적으로 GRPO보다 6.2%, OPSD보다 1.7% 높은 성능을 기록했습니다. 우리의 코드는 https://github.com/walawalagoose/SGSD 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 추론을 위한 기술 조건부 게이트형 자기 증류 (Skill-Conditioned Gated Self-Distillation)

요약

핵심 포인트

댓글