본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 09:38

추론 능력이 무료는 아니다: LLM-as-a-Judge를 위한 견고한 적응형 비용 효율적 라우팅

요약

최근 LLM이 자동화된 심사위원(Judge)으로 활용되면서, 추론 능력을 사용하는 것이 항상 비용 효율적이지 않다는 점을 발견했습니다. 본 연구는 명시적인 추론이 구조화된 검증(수학/코딩)이 필요한 작업에서는 판단 정확도를 크게 높이지만, 간단한 평가에는 제한적이거나 오히려 부정적인 영향을 미치며 높은 계산 비용만 초래할 수 있음을 보여줍니다. 이에 따라, 저자들은 예산 제약 하에 추론 및 비추론 심사위원 사이를 동적으로 선택하는 'Robust Adaptive Cost-Efficient Routing (RACER)' 프레임워크를 제안합니다.

핵심 포인트

  • LLM-as-a-Judge 환경에서 추론(Reasoning) 능력은 모든 작업에 필수적이지 않으며, 비용 대비 효용을 고려해야 합니다.
  • 추론은 구조화된 검증이 필요한 복잡한 작업(수학, 코딩 등)의 정확도를 높이는 데 효과적입니다.
  • RACER는 KL-divergence 불확실성 집합을 사용하여 분포 변화를 명시적으로 모델링하고, 비용 효율적인 라우팅 정책을 제공합니다.
  • 제안된 RACER 프레임워크는 고정 예산 하에서 최적의 정확도와 비용 트레이드오프를 달성할 수 있음을 이론적/실험적으로 입증했습니다.

추론 능력을 갖춘 대규모 언어 모델(LLMs)이 최근 자동화된 심사위원으로 채택되었지만, LLM-as-a-Judge 환경에서 이들의 장점과 비용은 여전히 불분명합니다. 추론을 수행하는 심사위원과 그렇지 않은 심사위원을 통제된 비교를 통해, 우리는 명시적인 추론이 구조화된 검증(예: 수학 및 코딩)이 필요한 작업의 판단 정확도를 상당히 향상시키지만, 더 간단한 평가에서는 제한적이거나 심지어 부정적인 이득을 제공하며 훨씬 높은 계산 비용을 초래한다는 것을 보여줍니다. 이러한 발견은 추론이 가능한 분포 변화에 대한 인식을 가지고 보편적으로 사용되기보다는 선택적으로 사용되어야 함을 시사합니다. 우리는 라우팅을 제약된 분포적으로 견고한 최적화 문제로 공식화하여, 고정된 예산 하에서 추론 및 비추론 심사위원 사이를 동적으로 선택하는 Robust Adaptive Cost-Efficient Routing (RACER)을 제안합니다. RACER는 KL-divergence 불확실성 집합(uncertainty set)을 통해 분포 변화를 명시적으로 고려하며, 효율적인 primal--dual 알고리즘을 채택하고, 최적 정책의 유일성과 선형 수렴을 포함하는 이론적 보장을 누립니다. 광범위한 실험은 RACER가 분포 변화 하에서 우수한 정확도-비용 트레이드오프를 달성함을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0