HMPO: 사고의 사슬 (CoT) 압축을 위한 하이브리드 중앙값 길이 정책 최적화
요약
HMPO는 CoT 추론의 오버헤드를 줄이기 위해 제안된 단일 단계 강화학습 프레임워크입니다. 적응형 예산과 코사인 감쇠 보상을 통해 정확도 저하 없이 19%~46%의 토큰 압축을 달성하며 다양한 모델 아키텍처로 확장 가능합니다.
핵심 포인트
- 단일 단계 강화학습을 통한 비용 효율적인 CoT 압축
- 적응형 중앙값 기반 예산으로 수동 튜닝 제거
- 정확도를 우선시하는 곱셈적 보상 공식으로 보상 해킹 완화
- 9B~122B 파라미터 규모의 모델에서 높은 확장성 입증
대규모 언어 모델 (LLM)은 확장된 사고의 사슬 (Chain-of-Thought, CoT) 추론을 통해 놀라운 성능을 달성하지만, 이 긴 과정은 상당한 추론 오버헤드 (Inference overhead)를 발생시킵니다. 기존의 CoT 압축 방법들은 유연하지 못한 수동 길이 예산 (Manual length budgets), 계산 비용이 많이 드는 다단계 학습 파이프라인 (Multi-stage training pipelines), 그리고 소규모 모델로 제한된 취약한 확장성 (Scalability) 문제로 어려움을 겪고 있습니다. 우리는 비용 효율적인 단일 단계 강화학습 (Reinforcement Learning, RL) 프레임워크인 HMPO (Hybrid Median-length Policy Optimization)를 제안합니다. HMPO는 세 가지 시너지 구성 요소를 통해 CoT를 효율적으로 압축합니다: 수동 튜닝을 제거하기 위해 성공적인 롤아웃 (Rollouts)에서 도출된 적응형 중앙값 기반 예산 (Adaptive median-based budget), 부드러운 길이 페널티 부여를 위한 코사인 감쇠 토큰 보상 (Cosine-decay token reward), 그리고 정답의 정확성을 엄격하게 우선시함으로써 사소한 보상 해킹 (Reward hacking)을 실질적으로 완화하는 곱셈적 보상 공식 (Multiplicative reward formulation)입니다. 수학 데이터로만 학습되었음에도 불구하고, HMPO는 수학, 코드, 과학 및 지시 이행 (Instruction-following) 작업 전반에 걸쳐 원활하게 일반화됩니다. Dense 및 Mixture-of-Experts (MoE) 아키텍처 전반에 걸쳐 9B에서 122B 파라미터까지 확장한 광범위한 실험을 통해, HMPO는 기존의 다단계 베이스라인 (Multi-stage baselines)과 비교하여 학습 비용을 획기적으로 줄이면서도 정확도 저하를 거의 일으키지 않고 19%~46%의 토큰 압축을 달성함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기