본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 08:18

프로덕션 LLM 시스템에서의 외부 경험 서빙: 품질-비용 트레이드오프에 관한 배포 지향적 연구

요약

프로덕션 LLM 시스템에서 외부 경험을 주입할 때 발생하는 품질과 비용 간의 트레이드오프를 분석한 연구입니다. 무조건적인 프롬프트 주입보다 검색 기반의 선택적 주입이 운영 효율성 측면에서 더 우수함을 입증했습니다.

핵심 포인트

  • 외부 경험 주입은 품질을 높이지만 지연 시간과 비용을 증가시킴
  • 전역 프롬프트 주입보다 검색 기반 선택적 주입이 더 효율적임
  • 단순히 검색 결과(Top-K)를 늘리는 것보다 검색 품질이 더 중요함
  • 서빙 인터페이스와 비용 구조에 따라 경험 주입의 효과가 달라짐

프로덕션 LLM (Large Language Model) 시스템은 재사용 가능한 운영 경험을 축적하지만, 실제 배포 문제는 단순히 이러한 경험이 도움이 될 수 있는지 여부에 그치지 않습니다. 핵심은 실제 제약 조건 하에서 서로 다른 서빙 (serving) 전략이 품질과 온라인 비용 사이에서 어떻게 트레이드오프 (trade-off)를 이루느냐 하는 것입니다. 외부 경험을 주입하는 것은 작업 품질을 향상시킬 수 있지만, 프롬프트 부담 (prompt burden), 지연 시간 (latency), 그리고 서빙 압박을 증가시키기도 합니다. 우리는 이를 배포 지향적인 품질-비용 트레이드오프 문제로서 extit{외부 경험 서빙 (external experience serving)}을 연구합니다. 우리는 실제 프로덕션 중재 (moderation) 환경에서 이 문제를 평가하며, 서로 다른 출력-비용 체계를 드러내는 도구 사용 (tool-use) 및 GPQA를 보조 대조 작업으로 활용합니다. 우리는 경험이 없는 베이스라인 (baseline), 무작위 경험 대조군, 전역 프롬프트 주입 (global prompt injection), 그리고 검색 기반 선택적 주입 (retrieval-based selective injection)을 비교하고, 작업 품질과 서빙 비용을 모두 분석합니다. 연구 결과에 따르면, 경험이 사례 의존적 (case-dependent)이 되는 순간, 선택적 검색 (selective retrieval)이 무조건적인 전역 주입보다 더 강력한 운영 지점 (operating point)을 제공합니다. 또한, 단순히 Top-$K$를 늘리는 것보다 검색 품질이 더 중요하다는 점과, 동일한 서빙 정책이라도 짧은 출력 체계와 디코딩 중심 (decode-heavy) 체계 사이에서 상당히 다른 비용-편익 프로필을 보일 수 있음을 보여줍니다. 이러한 발견은 외부 경험이 보편적인 추가 기능(add-on)이라기보다, 선택적이고 비용을 인지하는 (cost-aware) 서빙 결정으로 취급되는 것이 최선임을 시사합니다. 종합적으로, 본 연구에서 다룬 설정에서는 서빙 인터페이스와 작업별 비용 구조 모두가 품질 이득을 온라인 비용만큼 가치 있게 만들 때만 외부 경험이 효과를 발휘합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0