주석 없는 LLM 자기 증류를 위한 뉴런 인식 데이터 선택

실제 환경의 상호작용 피드백이나 인간이 라벨링한 감독 없이 대규모 언어 모델 (LLMs)을 사후 학습 (Post-training)하는 것은 여전히 어려운 과제로 남아 있으며, 특히 전문가의 주석 (Annotation)을 얻는 비용이 많이 드는 전문 분야에서 더욱 그러합니다. 최근의 주석 없는 자기 진화 (Self-evolution) 방법들은 모델 자신의 출력을 감독 신호로 사용하고, 추가적인 컨텍스트를 통해 교사 (Teacher)를 구축하며, 다수의 롤아웃 (Rollouts)에 걸친 예측을 다수결 투표 (Majority voting)를 통해 집계하여 의사 라벨 (Pseudo-labels)을 생성함으로써 이 문제를 해결합니다. 그러나 이러한 접근 방식에는 단점이 있습니다. SFT 및 GRPO 기반 변형 모델들은 도메인 외 (Out-of-domain) 성능 저하를 겪는 반면, 보상 기반의 온폴리시 (On-policy) 강화학습 (RL)은 캘리브레이션 오차 (Calibration error)를 증가시킵니다. 본 논문에서는 내부 뉴런 활성화 (Neuron activations)를 활용하여 학습 데이터 선택과 교사 컨텍스트 구축을 모두 가이드하는 주석 없는 자기 증류를 위한 데이터 중심 프레임워크인 Neuron On-Policy Self-Distillation (Neuron-OPSD)을 제안합니다. 그 후 모델은 교사 분포로부터의 온폴리시 증류 (On-policy distillation)를 통해 학습되며, 이 과정의 어떤 단계에서도 정답 라벨 (Ground-truth labels)을 필요로 하지 않습니다. 전문 분야 벤치마크 전반에 걸쳐, Neuron-OPSD는 기존의 주석 없는 베이스라인 모델들에 비해 도메인 내 태스크 성능을 향상시키는 동시에 교차 도메인 일반화 성능을 유지하고 캘리브레이션 붕괴 (Calibration collapse)를 완화합니다. 이 프레임워크는 온라인 상호작용이나 외부 감독이 비용이 많이 들거나 불가능한 설정에 특히 유용하며, 기록된 보상 라벨 궤적 (Logged, reward-labeled trajectories)에 의존하는 오프라인 강화학습 (Offline RL) 접근 방식과는 개념적으로 구별됩니다.

Insights

주석 없는 LLM 자기 증류를 위한 뉴런 인식 데이터 선택

요약

핵심 포인트

댓글

에이전트, 스킬, 플러그인 및 MCP 통합을 다루는 OpenCode 가이드

2WD, 4WD 및 Mecanum 로봇을 위한 Nav2, SLAM Toolbox 및 위치 추정(localization) 기반 ROS2 자율

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트

2WD, 4WD 및 Mecanum 로봇을 위한 Nav2, SLAM Toolbox 및 위치 추정(localization) 기반 ROS2 자율

AgentGateway란 무엇인가? 초보자와 전문가를 위한 AI-Native 게이트웨이 설명

후속 보고: 보일러플레이트(Boilerplate) 코드가 전혀 없는 Cursor AI 에이전트