arXiv논문2026. 06. 19. 11:54

다시 생각할 것인가, 더 오래 생각할 것인가? 예산 인지형 추론을 위한 선택적 검증 (Selective Verification for

요약

테스트 시간 추론 시 연산 자원 낭비를 방지하기 위해, 초기 답변을 유지할지 추가 검증을 수행할지 결정하는 SEVRA 프레임워크를 제안합니다. 이 방식은 정확도를 유지하면서도 생성 토큰을 크게 줄이고 해로운 답변 변경을 방지하는 효과를 보여줍니다.

핵심 포인트

SEVRA: 복구 가능성을 인지하여 검증 여부를 결정하는 서비스 계층 컨트롤러
연산 효율성: GSM 데이터셋에서 검증 토큰을 91.2% 절감하며 정확도 향상
리스크 관리: 무분별한 검증으로 인한 해로운 답변 반전(harmful flips) 감소
배포 전략: 초기 예산 조정과 명시적 체크가 필요한 상황에서 선택적 복구 권장

테스트 시간 추론 (Test-time reasoning)은 서비스 제공 시점의 제어 노브 (control knob)로 점점 더 많이 사용되고 있지만, 추가적인 추론이 항상 균등하게 가치 있는 것은 아닙니다. 추가 추론은 실패한 시도를 복구할 수도 있지만, 이미 정답인 답변에 연산 자원을 낭비하거나 해로운 답변 변경을 초래할 수도 있습니다. 우리는 이 문제를 새로운 검증기 (verifier) 문제라기보다 배포 할당 (deployment allocation) 문제로 연구합니다. 우리는 고정된 솔버 (frozen solver)의 초기 답변을 유지할지 아니면 능동적 검증 (active verification)을 호출할지를 결정하는 서비스 계층 컨트롤러인 ext{SEVRA} (Selective Verification for Reasoning Allocation)를 소개합니다. 고정된 Qwen3-4B 솔버를 사용하여 개입 결과를 기록하고, 서비스 단계에서 확인 가능한 시도 상태 (attempt state)로부터 복구 가능성을 인지하는 게이트 (recoverability-aware gates)를 학습시킵니다. ext{MATH5}에서 선택적 검증은 항상 검증하는 방식의 75.5% 정확도와 비교하여 76.3%의 정확도에 도달했으며, 생성 후 토큰 (post-generation tokens)을 26.8% 줄이고 해로운 답변 반전 (harmful flips)을 2.2%에서 1.0%로 감소시켰습니다. 그러나 8,192 토큰의 초기 해결 (initial solve) 방식은 총 모델 토큰을 28% 적게 사용하면서도 76.0%의 정확도에 도달하여, 선택적 복구가 유용하지만 테스트된 비용 경계 (cost frontier) 중 최선은 아님을 보여줍니다. ext{GSM}으로의 고정 전이 (frozen transfer)에서 선택적 정책은 예제의 3.0%만을 검증하며, 항상 검증하는 방식 대비 정확도를 93.4%에서 94.5%로 향상시키고 검증 토큰을 91.2% 줄였습니다. 여기서도 더 긴 초기 해결 방식이 더 적은 실제 토큰 사용량으로 유사한 정확도를 달성했습니다. CommonsenseQA에서는 항상 켜져 있는 검증이 성능을 저해하는 반면, Self-Consistency@5는 실제 토큰 비용을 약 5배 소모하며 정확도를 향상시킵니다. 결과적인 배포 규칙은 다음과 같습니다: 먼저 초기 예산 (initial budget)을 조정하고, 명시적인 체크, 제한된 재시도 (bounded retries), 감사 가능성 (auditability) 또는 회귀 위험 (regression-risk) 제어가 중요할 때 선택적 복구를 사용하십시오.

AI 자동 생성 콘텐츠

원문 바로가기

다시 생각할 것인가, 더 오래 생각할 것인가? 예산 인지형 추론을 위한 선택적 검증 (Selective Verification for

요약

핵심 포인트

댓글