Is Escalation Worth It? A Decision-Theoretic Characterization of LLM Cascades

저렴한 LLM(대형 언어 모델)이 저신뢰도 쿼리에서 비용이 높은 모델에 위임하는 모델 캐스케이드 (Model cascades) 는 배포 과정에서 비용 - 품질 트레이드오프를 탐색하기 위해 널리 사용된다. 기존 접근법은 대부분 위임 임계값을 경험적 하이퍼파라미터로 처리하며, 모델 풀에 대한 결과적인 비용 - 품질 프론티어의 기하학에 대한 제한된 가이드를 제공한다. 우리는 제약 최적화와 쌍대성 (duality) 에 기반한 결정론적 프레임워크를 개발한다. 두 모델의 캐스케이드에 대해, 신뢰도 지원의 감소 이익 지역에서 비용 - 품질 프론티어의 조각별 볼록성을 확립하며, 예산과 품질 제약 형식을 연결하는 역shadow prices(그림자 가격) 를 제공한다. $k$개의 모델을 가진 풀에서, 결정론적 두 모델 임계값 캐스케이드가 달성할 수 있는 프론티어를 $inom{k}{2}$ 쌍의 캐스케이드에 대한 점별 envelope(포장)으로 특징화하며, 최적 쌍이 변경되는 전환점에서 이를 제공한다. $k$-모델의 캐스케이드에 대해, 단 하나의 그림자 가격이 단계 경계에서 마진 품질 - 비용 균형을 맞추는 일차 조건을 유도한다. 우리는 5 개의 벤치마크 (MATH, MMLU, TriviaQA, SimpleQA, LiveCodeBench) 에서 5 개의 제공업체의 8 개 모델을 통해 프레임워크를 검증한다. 결정론적 임계값 캐스케이드 클래스 내에서, 전체 고정된 체인은 쌍의 envelope(포장)보다 성능이 떨어지며, 최적화된 서열 캐스케이드는 그것에 대해 실용적으로 의미 있는 홀드아웃 이득을 제공하지 않는다. 경량 사전 생성 라우터는 5 개의 데이터셋 중 4 개에서 가장 좋은 캐스케이드 정책보다 vượt (초과한다), 이는 주로 큰 모델로 직접 전송되는 쿼리에 대한 저렴한 모델의 생성 비용을 피하기 때문이며, 더 강한 라우팅 신호 때문이 아니다. 이러한 결과는 캐스케이드 성능이 중간 단계 부족에 의해 제한되지 않으며, 구조적 비용에 의해 주로 제한된다는 것을 시사한다.

Insights

Is Escalation Worth It? A Decision-Theoretic Characterization of LLM Cascades

요약

핵심 포인트

댓글

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유