arXiv논문2026. 04. 30. 12:59

투표할 때, 다시 작성할 때: 테스트 시간 스케일링을 위한 불일치 유도 전략 라우팅

요약

본 논문은 대규모 추론 모델(LRMs)의 테스트 시간 스케일링 문제를 해결하기 위해 '출력 불일치'를 활용하는 새로운 프레임워크를 제안합니다. 기존 방법들이 계산량 증가에 의존했던 것과 달리, 이 접근법은 사례별로 출력을 분석하여 가장 적절한 추론 전략(예: 다수 투표, 재작성)을 동적으로 라우팅함으로써 효율성을 높입니다. 실험 결과, 샘플링 비용을 크게 줄이면서도 기존 방법 대비 높은 정확도 향상(3%-7%)을 달성했습니다.

핵심 포인트

기존의 테스트 시간 스케일링 기법들은 계산량 증가에 의존하여 어려운 사례에서 성능 개선 효과가 감소하는 한계가 있었습니다.
연구진은 '출력 불일치(output disagreement)'가 문제 난이도와 예측 정확성에 강한 상관관계가 있음을 발견했습니다.
제안된 프레임워크는 출력을 기반으로 여러 스케일링 전략 중 하나를 동적으로 선택하는 '사례 수준의 라우팅' 문제를 공식화합니다.
이 방법은 일관적인 사례에는 경량 해결, 중간 불일치에는 다수 투표, 높은 모호성에는 재작성을 적용하여 효율성과 정확도를 동시에 개선했습니다.

대규모 추론 모델 (Large Reasoning Models, LRMs) 은 수학 추론 작업에서 강력한 성능을 보이지만 어려운 사례에서는 여전히 신뢰성이 떨어집니다. 기존 테스트 시간 스케일링 방법론들, 예를 들어 반복 샘플링, 자기 수정, 트리 검색은 계산량을 증가시키는 대가로 성능을 개선하지만, 어려운 문제에서는 종종 체감 효과가 감소하는 경향을 보입니다. 우리는 출력 불일치 (output disagreement) 가 사례의 난이도와 예측 정확성과 강하게 상관관계가 있음을 관찰했습니다. 이는 테스트 시간에서 사례 수준의 전략 선택을 안내하는 데 유용한 신호를 제공합니다. 이 통찰력을 바탕으로, 우리는 단일 전략 내에서 더 많은 계산을 할당하는 대신, 다양한 스케일링 전략 중 출력 불일치에 기반하여 동적으로 선택함으로써 테스트 시간 스케일링을 사례 수준의 라우팅 문제로 공식화하는 훈련 없는 (training-free) 프레임워크를 제안합니다. 이 프레임워크는 일관된 사례에는 경량 해결 (lightweight resolution), 중간 정도의 불일치에는 다수 투표 (majority voting), 그리고 매우 모호한 사례에는 다시 작성 기반의 재구성 (rewriting-based reformulation) 을 적용합니다. 수학적 벤치마크 7 개와 3 가지 모델에 대한 실험 결과, 기존 접근법에 비해 샘플링 비용을 줄이면서 정확도를 3% - 7% 향상시켰음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

투표할 때, 다시 작성할 때: 테스트 시간 스케일링을 위한 불일치 유도 전략 라우팅

요약

핵심 포인트

댓글