효율적이고 제어 가능한 LLM 추론을 위한 에이전트 기반 사고 사슬 조향 (Agentic Chain-of-Thought Steering)
요약
LLM의 사고 사슬(CoT) 추론 시 발생하는 토큰 비효율성과 제어 불가능 문제를 해결하기 위한 ACTS 프레임워크를 제안합니다. 컨트롤러 에이전트가 마르코프 결정 과정을 통해 추론 과정을 적응적으로 조향하여, 성능 저하 없이 추론 예산을 효율적으로 관리합니다.
핵심 포인트
- 컨트롤러 에이전트가 고정된 추론기를 적응적으로 조향
- 마르코프 결정 과정(MDP) 기반의 추론 조향 공식화
- 예산 인식 전략 제어를 통한 토큰 소비 최적화
- 정확도와 효율성 사이의 제어 가능한 트레이드오프 제공
대규모 언어 모델(Large language models)은 확장된 사고 사슬 (Chain-of-thought) 추론을 통해 최종 답변의 정확도를 향상시키지만, 종종 토큰을 비효율적으로 소비하며 추론 시간 (Inference-time) 제어 기능이 부족합니다. 기존의 효율적인 추론 방법들은 추론 과정을 단축, 조기 종료(Early-stopping) 또는 압축함으로써 사고의 길이를 제어하지만, 모델이 어떻게 생각하는지는 암묵적인 상태로 남겨둡니다. 본 논문에서는 추론 조향 (Reasoning steering)을 마르코프 결정 과정 (Markov decision process)으로 공식화하여, 컨트롤러 에이전트 (Controller agent)가 추론 과정 중 고정된 추론기 (Frozen reasoner)를 적응적으로 조향하는 Agentic Chain-of-Thought Steering (ACTS)를 제안합니다. 각 단계에서 컨트롤러는 추론 흔적 (Reasoning trace)과 남은 사고 예산 (Thinking budget)을 관찰한 다음, 추론 전략 (Reasoning strategy)과 다음 추론 단계의 시작을 알리는 조향 문구 (Steering phrase)로 구성된 조향 행동 (Steering action)을 내립니다. 이를 통해 추론기의 생성 연속성 (Generation continuity)을 유지하면서도 효율적인 추론을 위한 예산 인식 전략 제어 (Budget-aware strategy control)가 가능해집니다. 우리는 다중 예산 증강 (Multi-budget augmentation)이 포함된 자체 구축 합성 조향 궤적 (Synthetic steering trajectories)을 통해 컨트롤러 에이전트를 초기화하며, 예산 조건부 보상 형성 (Budget-conditioned reward shaping)을 통한 강화학습 (Reinforcement learning)으로 이를 추가 최적화합니다. 여러 벤치마크에 걸친 실험 결과, ACTS는 상당한 토큰 절약과 함께 전체 사고 (Full-thinking) 성능에 필적하는 성능을 보여주었으며, 다양한 추론기와 작업에 대해 제어 가능한 정확도-효율성 트레이드오프 (Accuracy-efficiency trade-offs)를 가능하게 합니다. 코드는 https://github.com/Andree-9/ACTS 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기