검색 에이전트를 위한 자연어 질의 기반 설정 최적화
요약
검색 에이전트의 비용과 정확도를 최적화하기 위해 자연어 질의 기반의 설정 최적화 프레임워크인 BRANE을 제안합니다. BRANE은 쿼리별 특성을 분석하여 추론 시점에 비용 대비 성능을 극대화하는 설정을 동적으로 선택합니다.
핵심 포인트
- BRANE은 쿼리별 맞춤형 설정을 통해 비용-품질 트레이드오프 제공
- 고정 설정 대비 최대 89% 낮은 비용으로 유사한 정확도 달성
- LLM-라우팅 및 미세 조정된 Qwen3-4B 베이스라인 성능 능가
- 정적 워크로드 튜닝을 대체하는 쿼리별 최적화 가능성 입증
현대의 검색 에이전트(retrieval agents)는 LLM, 검색기(retriever), 문서 수, 홉(hop) 수, 합성 전략(synthesis strategy) 등 많은 설정(configuration) 선택지를 노출하며, 각 선택지는 답변의 품질과 서비스 비용(serving cost) 모두에 영향을 미칩니다. 현재 이러한 파이프라인은 일반적으로 워크로드(workload)당 한 번씩 수동으로 튜닝되며, 이로 인해 쿼리당 최적화(per-query optimization)의 상당 부분이 활용되지 못한 채 남아 있습니다. 우리는 다음과 같은 문제를 정의합니다: 자연어 질의(natural-language query)와 정확도(accuracy) 또는 예산(budget) 목표가 주어졌을 때, 사전 정의된 파이프라인 카탈로그 중에서 추론(inference) 시점에 비용을 최소화하거나 정확도를 최대화하는 설정을 선택하는 것입니다. 우리는 BRANE을 제안합니다. BRANE은 LLM을 사용하여 각 쿼리를 워크로드별 특성으로 변환한 다음, 해당 파이프라인이 쿼리에 올바르게 답변할지 여부를 추정하는 경량화된 설정별 예측기(per-configuration predictor)를 학습시킵니다. 추론 시점에 BRANE은 비용에 의해 페널티를 부여된 예측 정확도를 최대화하는 설정을 선택함으로써, 재학습 없이도 조절 가능한 비용-품질 트레이드오프(cost-quality tradeoff)를 제공합니다. MuSiQue, BrowseComp-Plus, FinanceBench에 걸쳐 BRANE은 일관되적으로 비용-품질 파레토 프런티어(Pareto frontier)를 확장하며, 최대 89% 낮은 비용으로 최적의 고정 설정(fixed configuration)의 정확도와 일치하는 성능을 보였고, LLM-라우팅(LLM-routing), 규칙 기반(rule-based), 그리고 미세 조정된(fine-tuned) Qwen3-4B 베이스라인을 능가했습니다. 이러한 결과는 전체 검색 파이프라인의 쿼리별 설정(per-query configuration)이 정적인 워크로드 수준 튜닝(static workload-level tuning)에 대한 실질적인 대안임을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기