arXiv논문2026. 06. 02. 11:48

HMPO: 사고의 사슬 (CoT) 압축을 위한 하이브리드 중앙값 길이 정책 최적화

요약

HMPO는 CoT 추론의 오버헤드를 줄이기 위해 제안된 단일 단계 강화학습 프레임워크입니다. 적응형 예산과 코사인 감쇠 보상을 통해 정확도 저하 없이 19%~46%의 토큰 압축을 달성하며 다양한 모델 아키텍처로 확장 가능합니다.

핵심 포인트

단일 단계 강화학습을 통한 비용 효율적인 CoT 압축
적응형 중앙값 기반 예산으로 수동 튜닝 제거
정확도를 우선시하는 곱셈적 보상 공식으로 보상 해킹 완화
9B~122B 파라미터 규모의 모델에서 높은 확장성 입증

대규모 언어 모델 (LLM)은 확장된 사고의 사슬 (Chain-of-Thought, CoT) 추론을 통해 놀라운 성능을 달성하지만, 이 긴 과정은 상당한 추론 오버헤드 (Inference overhead)를 발생시킵니다. 기존의 CoT 압축 방법들은 유연하지 못한 수동 길이 예산 (Manual length budgets), 계산 비용이 많이 드는 다단계 학습 파이프라인 (Multi-stage training pipelines), 그리고 소규모 모델로 제한된 취약한 확장성 (Scalability) 문제로 어려움을 겪고 있습니다. 우리는 비용 효율적인 단일 단계 강화학습 (Reinforcement Learning, RL) 프레임워크인 HMPO (Hybrid Median-length Policy Optimization)를 제안합니다. HMPO는 세 가지 시너지 구성 요소를 통해 CoT를 효율적으로 압축합니다: 수동 튜닝을 제거하기 위해 성공적인 롤아웃 (Rollouts)에서 도출된 적응형 중앙값 기반 예산 (Adaptive median-based budget), 부드러운 길이 페널티 부여를 위한 코사인 감쇠 토큰 보상 (Cosine-decay token reward), 그리고 정답의 정확성을 엄격하게 우선시함으로써 사소한 보상 해킹 (Reward hacking)을 실질적으로 완화하는 곱셈적 보상 공식 (Multiplicative reward formulation)입니다. 수학 데이터로만 학습되었음에도 불구하고, HMPO는 수학, 코드, 과학 및 지시 이행 (Instruction-following) 작업 전반에 걸쳐 원활하게 일반화됩니다. Dense 및 Mixture-of-Experts (MoE) 아키텍처 전반에 걸쳐 9B에서 122B 파라미터까지 확장한 광범위한 실험을 통해, HMPO는 기존의 다단계 베이스라인 (Multi-stage baselines)과 비교하여 학습 비용을 획기적으로 줄이면서도 정확도 저하를 거의 일으키지 않고 19%~46%의 토큰 압축을 달성함을 입증했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

HMPO: 사고의 사슬 (CoT) 압축을 위한 하이브리드 중앙값 길이 정책 최적화

요약

핵심 포인트

댓글