이중 차원 일관성 (Dual-Dimensional Consistency): 적응형 추론 시간 스케일링 (Adaptive
요약
본 논문은 대규모 언어 모델(LLMs)의 추론 시간 스케일링 과정에서 발생하는 샘플링 예산과 추론 품질 간의 트레이드오프 문제를 해결하기 위해 '이중 차원 일관성(Dual-Dimensional Consistency, DDC)'이라는 통합 프레임워크를 제안합니다. DDC는 신뢰도 가중 베이지안 프로토콜을 추세 인식 계층적 가지치기 메커니즘과 결합하여, 계산 자원을 고품질의 추론 경로에 집중시키고 합의 과정을 가속화하는 동시에 환각을 효과적으로 필터링합니다. 평가 결과, 이 방법은 기존 LLMs 대비 정확도를 유지하거나 능가하면서도 토큰 소비량을 10배 이상 절감할 수 있음을 입증했습니다.
핵심 포인트
- LLM 추론 스케일링의 핵심 과제는 샘플링 예산과 추론 품질 간의 트레이드오프 해결입니다.
- 기존 방법들은 너비와 깊이를 독립적으로 다루어 비효율적이었으나, DDC는 이를 통합하여 경로 품질에 따라 적응형 종료를 수행합니다.
- DDC는 신뢰도 가중 베이지안 프로토콜과 추세 인식 계층적 가지치기를 결합한 새로운 프레임워크입니다.
- 이 접근 방식은 고품질 추론 경로에 자원을 집중시켜 합의 속도를 높이고 환각을 줄이는 효과를 보였습니다.
- 다양한 벤치마크에서 기존 대비 정확도는 유지하거나 능가하면서 토큰 소비량을 10배 이상 절감했습니다.
대규모 언어 모델 (LLMs)은 추론 (reasoning) 능력에서 놀라운 능력을 입증해 왔습니다. 하지만 추론 시간 스케일링 (inference-time scaling)을 통해 그 잠재력을 극대화하는 과정은 샘플링 예산 (sampling budget)과 추론 품질 (reasoning quality) 사이의 트레이드오프 (trade-off) 문제에 직면해 있습니다. 현재의 전략들은 샘플링 너비 (sampling width)와 깊이 (depth)를 서로 독립적인 (orthogonal) 목표로 취급하기 때문에 여전히 비효율적입니다. 너비 합의 (width consensus) 방식은 환각 (hallucinations)을 강화할 위험이 있는 반면, 깊이 가지치기 (depth pruning) 메커니즘은 복잡하지만 유효한 추론 체인 (reasoning chains)을 조기에 중단시킬 수 있습니다. 따라서 우리는 경로 품질 (path quality)과 적응형 종료 (adaptive termination)를 연결하는 통합 프레임워크인 이중 차원 일관성 (Dual-Dimensional Consistency, DDC)을 제안합니다. 신뢰도 가중 베이지안 프로토콜 (Confidence-Weighted Bayesian protocol)을 추세 인식 계층적 가지치기 (Trend-Aware Stratified Pruning)와 결합함으로써, 우리의 방법은 계산 자원이 고품질 추론 경로에 집중되도록 보장하며, 합의 (consensus)를 가속화하는 동시에 환각을 필터링합니다. 5개의 벤치마크를 통한 평가 결과, 이 접근 방식은 다양한 LLMs에 걸쳐 강력한 베이스라인 (baselines)의 정확도를 유지하거나 능가하면서도 토큰 소비량을 10배 이상 줄이는 것으로 나타났습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기