arXiv논문2026. 06. 23. 14:30

DART: 하이브리드 추론 모델의 학습이 필요 없는 적응형 사고 예산(Adaptive Thinking Budgets)을 위한 초안 합의

요약

DART는 하이브리드 추론 모델을 위한 학습이 필요 없는(training-free) 적응형 라우팅 프레임워크입니다. 두 개의 초안 샘플링과 엔트로피를 활용해 문제 난이도에 따라 사고 예산을 동적으로 할당하여 효율성을 극대화합니다.

핵심 포인트

학습 데이터나 그래디언트 업데이트 없이 작동하는 라우팅 방식
수학 추론 정확도 최대 9% 향상 및 사고 토큰 15-69% 절감
코드 추론 정확도 최대 22.5% 향상 및 사고 토큰 51-63% 절감
다양한 모델 규모(0.6B-32B)와 API 환경에서 확장 가능

하이브리드 추론 모델(Hybrid reasoning models)은 직접 답변하거나 확장된 사고(extended thinking)를 위해 추가적인 토큰을 사용할 수 있습니다. 실용적인 라우터(router)는 각 쿼리에 대해 이 모드들 중 하나를 선택해야 하며, 이를 통해 쉬운 문제는 불필요한 추론을 피하고 어려운 문제는 답변을 완성할 수 있도록 충분한 예산(budget)을 할당받아야 합니다. 기존의 라우터들도 이 방향으로 발전하고 있지만, 일반적으로 라벨링된 학습 데이터(labeled training data)를 필요로 하거나 사고 예산을 사전에 고정해 버리며, 모델 자체로부터 나오는 답변 수준의 증거(answer-level evidence)를 무시합니다. 우리는 두 개의 저렴한 '비사고(no-think)' 초안(drafts)을 샘플링하고, 초안들이 서로 일치하면 직접 답변을 수락하며, 초안들이 일치하지 않을 때는 초안 엔트로피(draft entropy)로부터 사고 예산을 예측하는 학습이 필요 없는(training-free) 라우팅 프레임워크인 DART를 소개합니다. 주요 비교 실험 전반에 걸쳐, DART는 사고 토큰(thinking-token) 사용량을 줄이면서 대부분의 설정에서 항상 사고하는(always-thinking) 방식의 정확도를 유지하거나 향상시킵니다. 수학 추론(math reasoning)의 경우, 올림피아드 수준의 문제에서 정확도가 최대 +9.0포인트 향상되는 동시에 사고 토큰은 15-69% 감소했습니다. 실행 기반 동등성(execution-based equivalence) 조건하의 코드 추론(code reasoning)에서는 정확도가 최대 +22.5포인트 향상되는 동안 사고 토큰은 51-63% 감소했습니다. Stage 1 신호는 라벨링된 데이터나 그래디언트 업데이트(gradient updates) 없이도 모델 규모(0.6B-32B), 모델 제품군, 그리고 API 전용 호스팅 설정 전반에 걸쳐 확장 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DART: 하이브리드 추론 모델의 학습이 필요 없는 적응형 사고 예산(Adaptive Thinking Budgets)을 위한 초안 합의

요약

핵심 포인트

댓글