훈련이 필요 없는 RLVR 데이터 선택을 위한 단일 롤아웃 은닉 상태 역학 (Single-Rollout Hidden-State Dynamics)
요약
RLVR 강화학습의 데이터 선택 병목 현상을 해결하기 위해 훈련 없이 은닉 상태 변화량(RIRS)을 활용하는 SHIFT를 제안합니다. 단일 롤아웃만으로 데이터의 유용성을 파악하여 효율적인 코어셋을 생성하며, 수학 및 의료 분야에서 우수한 성능을 입증했습니다.
핵심 포인트
- 훈련 없이 은닉 상태 역학만으로 데이터 선택 가능
- RIRS를 활용한 경량화된 인스턴스 유용성 프록시 제안
- 품질 가중치 기반 코어셋 절차로 데이터 커버리지 확보
- 수학 및 의료 QA 벤치마크에서 기존 베이스라인 능가
검증 가능한 보상(Verifiable Rewards, RLVR)을 이용한 강화학습(Reinforcement Learning, RL)은 매우 적은 수의 훈련 인스턴스로도 큰 추론 성능 향상을 이끌어낼 수 있지만, 어떤 인스턴스를 사용하는지에 대한 높은 민감도로 인해 데이터 선택(Data Selection)이 핵심적인 병목 현상이 됩니다. 기존의 대부분의 선택 파이프라인은 훈련 시간의 최적화 신호(Training-time optimization signals)에 의존하거나, 대규모 후보 풀(Candidate pools)에 대해 검증 가능한 보상 또는 정답(Ground-truth answers)에 접근해야 하는데, 이는 비용이 많이 들며 전문화된 도메인에서는 실행 불가능한 경우가 많습니다. 본 연구에서는 RL 훈련을 시작하기 전, 전체 풀에 대한 라벨이나 보상 평가 없이 선택을 수행해야 하는 환경에서의 RLVR 데이터 선택을 연구합니다. 우리는 추론 시간의 은닉 상태 역학(Inference-time hidden-state dynamics)에만 기반한 원샷(One-shot), 훈련 불필요(Training-free) 선택기인 SHIFT를 제안합니다. 각 후보 인스턴스에 대해, SHIFT는 단일 결정론적 추론 롤아웃(Deterministic reasoning rollout)을 실행하고, 시작부터 끝까지의 은닉 상태 변화량(Hidden-state delta)으로서 추론 유도 표현 시프트(Reasoning-induced representation shift, RIRS)를 계산합니다. SHIFT는 RIRS 크기를 인스턴스 유용성(Instance utility)에 대한 경량 프록시(Lightweight proxy)로 사용하며, RIRS가 증강된 특징 공간(Feature space)에서 품질 가중치 기반의 가장 먼 첫 번째 코어셋(Quality-weighted farthest-first CoreSet) 절차를 통해 커버리지(Coverage)를 강제함으로써, 대규모 미라벨 풀(Unlabeled pools)로 확장 가능한 압축된 서브셋을 생성합니다. 초저예산 환경의 수학적 추론 및 의료 질의응답(Medical QA) 벤치마크 전반에서, SHIFT는 훈련이 필요 없는 다양성(Diversity) 및 난이도/불확실성(Difficulty/Uncertainty) 베이스라인을 일관되게 능가하며, 도메인 내 정확도와 더 어려운 평가 설정으로의 전이(Transfer) 성능을 모두 향상시킵니다. 절제 연구(Ablations)를 통해 RIRS 기반의 커버리지와 품질 가중치가 상호 보완적인 이득을 제공함을 보여주며, 분석 결과 RIRS는 단순한 입출력 길이 통계로 설명되지 않음을 나타냅니다. 코드는 github.com/JianghaoWu/SHIFT에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기