SuCo: 충분성 가이드 기반의 연속적 적응형 추론
요약
거대 추론 모델(LRM)의 과도한 사고로 인한 비효율성을 해결하기 위해 '최소 충분 CoT(MSC)' 개념을 도입한 SuCo 프레임워크를 제안합니다. MSC를 기반으로 한 2단계 훈련을 통해 추론의 정확도를 유지하면서도 불필요한 토큰 생성을 줄여 효율성을 극대화합니다.
핵심 포인트
- 최소 충분 CoT(MSC) 개념을 통한 추론 효율성 개선
- MSC 정렬 미세 조정(MFT)을 통한 문제 적응형 임계값 구축
- 강화학습(SAPO)을 활용한 동적 복잡도 추적 및 보상 최적화
- 수학, 코드, 과학 벤치마크에서 정확도와 효율성 동시 향상
복잡한 작업에서 놀라운 성능을 보여줌에도 불구하고, 거대 추론 모델 (Large Reasoning Models, LRMs)은 종종 지나치게 긴 사고 사슬 (Chain-of-Thoughts, CoT)을 생성하여 단순한 질의에 대해서도 계산 비용을 부풀리는 경우가 많습니다. 이러한 비효율성을 완화하려는 기존의 노력들은 일반적으로 이산적인 추론 모드 (discrete reasoning modes)나 고정된 예산 계층 (fixed budget tiers)에 의존하며, 언제 추론이 충분한지에 대한 원칙적인 기준이 부족합니다. 본 연구에서는 정답을 도출하기에 적절한 CoT 궤적의 가장 짧은 접두사 (prefix)로 정의되는 최소 충분 CoT (Minimal Sufficient CoT, MSC)를 도입합니다. 우리는 MSC가 추론 토큰을 줄일 뿐만 아니라, 난이도 전반에 걸쳐 정확도를 향상시킨다는 것을 실증적으로 보여줍니다. MSC를 바탕으로, 우리는 연속적인 스펙트럼을 따라 자율적인 추론 제어를 수행하기 위한 2단계 훈련 프레임워크인 충분성 가이드 기반의 연속적 적응형 추론 (Sufficiency-guided Continuous Adaptive Reasoning, SuCo)을 제안합니다. 1단계에서는 MSC 정렬 미세 조정 (MSC-Aligned Fine-Tuning, MFT)을 통해 문제 적응형 충분성 임계값 (problem-adaptive sufficiency thresholds)을 사용하여 MSC 데이터를 구축하며, 이 임계값은 질문의 난이도에 따라 자연스럽게 확장됩니다. 그 후 모델이 간결하면서도 충분한 추론 패턴을 내재화하도록 미세 조정합니다. 2단계에서는 충분성 인지 정책 최적화 (Sufficiency-Aware Policy Optimization, SAPO)를 통해 동적 복잡도 추적 (dynamic complexity tracking) 및 과도한 사고(over-thinking)와 부족한 사고(under-thinking)를 모두 처벌하는 충분성 인지 보상 (sufficiency-aware rewards)을 포함한 강화학습 (reinforcement learning)으로 모델을 추가 최적화합니다. 수학, 코드 및 과학 벤치마크에 걸친 광범위한 실험을 통해 SuCo가 정확도와 추론 효율성 모두에서 일관된 개선을 달성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기