arXiv논문2026. 05. 26. 12:50

선택적 잠재 사고 (Selective Latent Thinking): LLM 추론 체인의 적응형 압축

요약

LLM의 추론 비용을 줄이기 위해 정밀도가 중요한 구간은 명시적 CoT로 유지하고, 중복 구간만 잠재 표현으로 압축하는 SLT 프레임워크를 제안합니다. 신뢰도 기반 게이팅과 강화학습을 통해 정확도 손실을 최소화하면서 추론 길이를 획기적으로 단축했습니다.

핵심 포인트

정밀 구간은 CoT로 보존, 중복 구간은 잠재 표현으로 선택적 압축
신뢰도 기반 게이팅을 통한 최적의 압축 구간 결정
강화학습을 활용한 정확도와 추론 비용 간의 트레이드오프 최적화
명시적 CoT 대비 정확도 저하 2.8%로 제한하며 추론 길이 58.4% 단축

명시적인 사고 사슬 (Chain-of-Thought, CoT) 추론은 대규모 언어 모델 (LLMs)의 추론 능력을 실질적으로 향상시키지만, 긴 자기회귀 (Autoregressive) 흔적으로 인해 높은 추론 비용을 발생시킵니다. 기존의 잠재 추론 (Latent reasoning) 방식은 유망한 대안을 제시하지만, 추론을 균일하게 압축 가능한 것으로 취급하는 경우가 많아 정밀도가 중요한 중간 단계들이 과도하게 압축되어 추론 정확도를 저하시키는 문제를 일으킵니다. 본 연구에서는 우리는 선택적 잠재 사고 (Selective Latent Thinking, SLT)를 제안합니다. 이는 동일한 추론 궤적 내에서 정밀도가 중요한 구간은 명시적인 CoT로 보존하는 동시에, 중복되는 추론 구간만을 선택적으로 잠재 표현 (Latent representations)으로 압축하는 프레임워크입니다. 구체적으로, SLT는 먼저 경량 디코더 (Lightweight decoder)를 사용하여 곧 이어질 짧은 추론 구간을 예측한 다음, 신뢰도 기반 게이팅 (Confidence-based gating)을 적용하여 안정적으로 압축할 수 있는 가장 긴 구간을 결정합니다. 수용된 구간은 추론 효율성을 높이기 위해 조밀한 잠재 표현으로 인코딩되는 반면, 불확실하거나 정밀도가 중요한 추론은 정확도를 유지하기 위해 명시적인 CoT 형태로 남습니다. 이러한 선택적 압축 정책을 학습하기 위해, SLT는 구간 수준의 잠재 압축 (Span-level latent compression), 신뢰도 인지 미래 추론 예측 (Reliability-aware future reasoning prediction), 그리고 정답의 정확도와 추론 비용 사이의 트레이드오프 (Trade-off)를 최적화하기 위한 궤적 수준의 강화학습 (Reinforcement learning)을 결합한 3단계 학습 전략을 채택합니다. 4개의 수학적 추론 벤치마크에 걸친 광범위한 실험을 통해, SLT는 유사한 압축률에서 잠재 추론 베이스라인보다 22.7% 더 높은 정확도를 달성하는 동시에, 명시적 CoT 대비 정확도 저하는 단 2.8%에 불과하면서 추론 체인 길이를 58.4% 단축함을 입증했습니다. 저희의 코드는 https://github.com/hunshi34/SLT 에서 확인하실 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

선택적 잠재 사고 (Selective Latent Thinking): LLM 추론 체인의 적응형 압축

요약

핵심 포인트

댓글