주석 없는 LLM 자기 증류를 위한 뉴런 인식 데이터 선택
요약
전문가 주석 없이 LLM을 사후 학습시키기 위한 Neuron-OPSD 프레임워크를 제안합니다. 내부 뉴런 활성화를 활용해 학습 데이터를 선택하고 교사 컨텍스트를 구축하여, 도메인 성능 향상과 캘리브레이션 붕괴 완화를 동시에 달성합니다.
핵심 포인트
- 주석 없는 자기 증류를 위한 데이터 중심 프레임워크 제안
- 내부 뉴런 활성화를 활용한 데이터 선택 및 교사 구축
- 도메인 내 성능 향상 및 교차 도메인 일반화 유지
- 온폴리시 증류를 통한 캘리브레이션 오차 완화
실제 환경의 상호작용 피드백이나 인간이 라벨링한 감독 없이 대규모 언어 모델 (LLMs)을 사후 학습 (Post-training)하는 것은 여전히 어려운 과제로 남아 있으며, 특히 전문가의 주석 (Annotation)을 얻는 비용이 많이 드는 전문 분야에서 더욱 그러합니다. 최근의 주석 없는 자기 진화 (Self-evolution) 방법들은 모델 자신의 출력을 감독 신호로 사용하고, 추가적인 컨텍스트를 통해 교사 (Teacher)를 구축하며, 다수의 롤아웃 (Rollouts)에 걸친 예측을 다수결 투표 (Majority voting)를 통해 집계하여 의사 라벨 (Pseudo-labels)을 생성함으로써 이 문제를 해결합니다. 그러나 이러한 접근 방식에는 단점이 있습니다. SFT 및 GRPO 기반 변형 모델들은 도메인 외 (Out-of-domain) 성능 저하를 겪는 반면, 보상 기반의 온폴리시 (On-policy) 강화학습 (RL)은 캘리브레이션 오차 (Calibration error)를 증가시킵니다. 본 논문에서는 내부 뉴런 활성화 (Neuron activations)를 활용하여 학습 데이터 선택과 교사 컨텍스트 구축을 모두 가이드하는 주석 없는 자기 증류를 위한 데이터 중심 프레임워크인 Neuron On-Policy Self-Distillation (Neuron-OPSD)을 제안합니다. 그 후 모델은 교사 분포로부터의 온폴리시 증류 (On-policy distillation)를 통해 학습되며, 이 과정의 어떤 단계에서도 정답 라벨 (Ground-truth labels)을 필요로 하지 않습니다. 전문 분야 벤치마크 전반에 걸쳐, Neuron-OPSD는 기존의 주석 없는 베이스라인 모델들에 비해 도메인 내 태스크 성능을 향상시키는 동시에 교차 도메인 일반화 성능을 유지하고 캘리브레이션 붕괴 (Calibration collapse)를 완화합니다. 이 프레임워크는 온라인 상호작용이나 외부 감독이 비용이 많이 들거나 불가능한 설정에 특히 유용하며, 기록된 보상 라벨 궤적 (Logged, reward-labeled trajectories)에 의존하는 오프라인 강화학습 (Offline RL) 접근 방식과는 개념적으로 구별됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기