arXiv논문2026. 05. 27. 12:21

도메인 보존과 일반 능력 회복을 위한 대응 인지형 다중 교사 온-폴리시 증류 (Counteraction-Aware Multi-Teacher

요약

도메인 특화 학습 시 발생하는 일반 능력 저하 문제를 해결하기 위해 CaMOPD라는 새로운 증류 기법을 제안합니다. 대리 프롬프트를 활용하여 교사의 학습 분포를 모르는 상황에서도 일반 능력을 효과적으로 회복하고 도메인 성능을 보존합니다.

핵심 포인트

도메인 특화 시 발생하는 일반 능력 약화 문제 해결
회복-보존 상충 작용 및 신호 평탄화 문제 식별
분리된 교차 학습과 간격 기반 샘플 선택 도입
역할극 및 의료 추론 시나리오에서 우수한 성능 입증

도메인 특화 (Domain specialization)는 수직적 도메인에서 LLM (Large Language Model)의 동작을 개선할 수 있지만, 종종 원래 모델로부터 상속받은 일반적인 능력 (general capabilities)을 약화시킵니다. 최근의 다중 교사 온-폴리시 증류 (Multi-Teacher On-Policy Distillation, MOPD) 파이프라인은 교사의 피드백으로 학생이 생성한 궤적 (trajectories)을 감독함으로써 모델의 능력을 회복시키지만, 일반적으로 교사와 정렬된 프롬프트 커버리지 (prompt coverage)를 가정하며, 프롬프트가 교사의 학습 분포 (training distributions)와 일치할 것을 요구합니다. 이러한 가정은 일반 교사가 사후 학습 데이터 (post-training data)를 알 수 없는 오픈 소스 모델인 경우 충족하기 어렵습니다. 우리는 이 숨겨진 분포를 재구성하려고 시도하는 대신, 쉽게 사용할 수 있는 대리 일반 프롬프트 (proxy general prompts)를 사용하여 일반 능력 회복을 연구합니다. 우리는 이러한 불완전한 커버리지 상황에서 바닐라 MOPD (vanilla MOPD)의 두 가지 실패 모드를 식별했습니다: 상충하는 회복 및 보존 그래디언트 (gradients)를 혼합함으로써 발생하는 회복-보존 상충 작용 (recovery-preservation counteraction), 그리고 불균등한 교정 요구를 가진 샘플들을 균등하게 평균화함으로써 발생하는 약한 신호 평탄화 (weak-signal flattening)입니다. 우리는 분리된 교차 학습 (decoupled alternating training)과 간격 기반 샘플 선택 (gap-based sample selection)을 통해 이러한 문제를 해결하는 대응 인지형 다중 교사 온-폴리시 증류 (Counteraction-Aware Multi-Teacher On-Policy Distillation, CaMOPD)를 제안합니다. CaMOPD는 일반적인 회복을 위한 전용 업데이트를 제공하고, 보존을 위해 주기적으로 도메인 프롬프트를 검토하며, 교정 신호를 집중시키기 위해 평균 토큰 수준의 교사-학생 로그 확률 (log-probability) 간격이 더 큰 샘플을 선택합니다. 역할극 대화 및 의료 추론 QA 시나리오 전반에 걸쳐, CaMOPD는 도메인 특화 동작을 유지하면서 베이스라인 대비 일반 회복 측면에서 최고의 성능을 발휘합니다. 그래디언트 일관성 (Gradient coherence) 분석은 더욱 일관된 교정 신호를 생성하는 CaMOPD의 의도된 효과를 추가로 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

도메인 보존과 일반 능력 회복을 위한 대응 인지형 다중 교사 온-폴리시 증류 (Counteraction-Aware Multi-Teacher

요약

핵심 포인트

댓글