CAT: 대규모 추론 모델(LRMs)의 효율적인 추론을 위한 신뢰도 적응형 사고 (Confidence-Adaptive Thinking)
요약
대규모 추론 모델(LRMs)의 과도한 사고로 인한 토큰 오버헤드를 해결하기 위해 신뢰도 적응형 사고(CAT) 프레임워크를 제안합니다. 모델의 자기 확신 신호를 활용해 문제 난이도에 따라 추론 길이를 자율적으로 조절하여 정확도와 효율성을 동시에 높입니다.
핵심 포인트
- LRM의 과도한 사고(overthinking)로 인한 토큰 오버헤드 문제 해결
- 모델의 내재적 신뢰도를 활용한 추론 길이의 자율적 조절
- 확신이 있는 응답은 압축하고 불확실한 응답은 심사숙고하도록 설계
- 다양한 벤치마크에서 기존 베이스라인 대비 최첨단(SOTA) 성능 달성
대규모 추론 모델 (Large Reasoning Models, LRMs)은 긴 사고 사슬 (Chain-of-Thought, CoT) 궤적을 활용하여 복잡한 작업에서 놀라운 성공을 거두었으나, 단순한 질의에 대해서도 빈번하게 과도한 사고 (overthinking)를 수행하여 상당한 토큰 오버헤드와 추론 효율성 저하를 초래합니다. 그러나 기존의 압축 방법들은 주로 균일한 길이 감소를 적용하거나 거친 입도 (coarse-grained)의 난이도 추정에 의존하며, 이는 종종 어려운 문제에서의 성능 저하로 이어집니다. 이러한 한계를 해결하기 위해, 우리는 모델의 내재적인 자기 확신 신호를 신뢰도 (confidence)로서 선호도 최적화 (preference optimization) 과정에 통합하여 문제 난이도에 따라 추론 길이를 자율적으로 조절하는 프레임워크인 신뢰도 적응형 사고 (Confidence-Adaptive Thinking, CAT)를 제안합니다. 실험 결과에 따르면, CAT는 다양한 베이스 모델에 대해 여러 벤치마크에서 추론 정확도 측면에서 최첨단 (state-of-the-art) 베이스라인들을 일관되게 능가합니다. 우리의 연구는 LRMs가 확신이 있는 응답은 효과적으로 압축하는 동시에 불확실한 응답에 대해서는 심사숙고할 수 있게 함으로써, 실제 산업 시나리오에서 정확도와 지연 시간 (latency) 사이의 균형을 맞추기 위한 잠재적으로 강력한 솔루션을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기