문맥적 LLM 캐스케이딩을 위한 온라인 판도라의 상자 (Online Pandora's Box for Contextual LLM
요약
LLM API를 적응적으로 쿼리하고 선택하기 위한 '온라인 문맥적 판도라의 상자' 모델을 제안합니다. 비용과 보상을 고려하여 최적의 API 출력을 선택하는 2단계 의사결정 프레임워크를 다룹니다.
핵심 포인트
- LLM 캐스케이딩을 위한 적응적 API 쿼리 모델 제안
- 쿼리 단계의 비용과 선택 단계의 보상을 고려한 2단계 의사결정
- 예약 지수(reservation index)를 직접 모델링하는 학습 접근법
- GMM 추정과 UCB 스타일 신뢰 구간을 결합한 정책 개발
- 누적 후회(cumulative regret)의 이론적 상한 증명
대규모 언어 모델 (Large Language Model, LLM) 캐스케이딩 (cascading)에 착안하여, 우리는 LLM API를 적응적으로 쿼리(query)하고 선택하기 위한 온라인 문맥적 판도라의 상자 (online contextual Pandora's Box) 모델을 제안합니다. 각 주기마다 의사결정자는 요청 문맥 (request context)을 관찰하며 2단계 의사결정 문제에 직면합니다. 쿼리 단계 (query phase)에서 의사결정자는 순차적으로 API를 쿼리하며, 각 쿼리는 생성된 출력 (output)을 드러내고 의사결정자는 (출력에 의존하는) 비용을 부담합니다. 선택 단계 (selection phase)에서 의사결정자는 배포할 생성된 출력 중 하나를 선택하며, 배포된 출력의 다운스트림 보상 (downstream reward)만을 관찰합니다. 이러한 출력 매개 피드백 (output-mediated feedback) 구조는 상자를 여는 것이 보상을 직접적으로 드러내는 고전적인 온라인 문맥적 판도라의 상자 모델과는 다릅니다. 우리는 각 API의 전체 조건부 출력 및 비용 분포를 추정하는 대신, 예약 지수 (reservation index)를 직접 모델링하고 쿼리 단계를 위한 학습 접근법을 개발합니다. 구체적으로, 우리는 고전적인 Weitzman의 정책 (Weitzman's policy)에 의해 유도되는 문맥적 예약 지수 함수에 파라미터 구조 (parametric structure)를 부여합니다. 우리의 정책은 이러한 예약 지수들에 대한 일반화 적률법 (generalized method of moments, GMM) 유형의 추정과, 이 지수들 및 공유된 출력 수준 보상 평가기 (output-level reward evaluator) 모두에 대한 UCB 스타일의 신뢰 구간 (confidence bounds)을 결합합니다. 정칙성 조건 (regularity conditions) 하에서, 우리는 결과적인 정책이 $T$ 주기의 기간 동안 차원 의존적인 $\widetilde O(\sqrt T)$ 누적 후회 (cumulative regret)를 달성함을 증명합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기