추론 능력이 무료는 아니다: LLM-as-a-Judge를 위한 견고한 적응형 비용 효율적 라우팅

추론 능력을 갖춘 대규모 언어 모델(LLMs)이 최근 자동화된 심사위원으로 채택되었지만, LLM-as-a-Judge 환경에서 이들의 장점과 비용은 여전히 불분명합니다. 추론을 수행하는 심사위원과 그렇지 않은 심사위원을 통제된 비교를 통해, 우리는 명시적인 추론이 구조화된 검증(예: 수학 및 코딩)이 필요한 작업의 판단 정확도를 상당히 향상시키지만, 더 간단한 평가에서는 제한적이거나 심지어 부정적인 이득을 제공하며 훨씬 높은 계산 비용을 초래한다는 것을 보여줍니다. 이러한 발견은 추론이 가능한 분포 변화에 대한 인식을 가지고 보편적으로 사용되기보다는 선택적으로 사용되어야 함을 시사합니다. 우리는 라우팅을 제약된 분포적으로 견고한 최적화 문제로 공식화하여, 고정된 예산 하에서 추론 및 비추론 심사위원 사이를 동적으로 선택하는 Robust Adaptive Cost-Efficient Routing (RACER)을 제안합니다. RACER는 KL-divergence 불확실성 집합(uncertainty set)을 통해 분포 변화를 명시적으로 고려하며, 효율적인 primal--dual 알고리즘을 채택하고, 최적 정책의 유일성과 선형 수렴을 포함하는 이론적 보장을 누립니다. 광범위한 실험은 RACER가 분포 변화 하에서 우수한 정확도-비용 트레이드오프를 달성함을 보여줍니다.

Insights

추론 능력이 무료는 아니다: LLM-as-a-Judge를 위한 견고한 적응형 비용 효율적 라우팅

요약

핵심 포인트

댓글

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일

요청에서 도구 하나를 제거해 보세요: 어떤 GPT-5 버전은 76%를 캐싱에 유지하지만, 다른 버전은 아무것도 유지하지 못합니다

나스닥, Tesla와 Alphabet 실적 발표를 앞두고 하락 마감

Justif - 웹을 위한 Knuth-Plass 양쪽 정렬과 마이크로타이포그래피

프로그래밍 잡기 2026년 7월 24일