arXiv논문2026. 06. 18. 10:59

검색과 추론의 분리: LLM 에이전트를 위한 벤더 불가지론적 그라운딩 아키텍처

요약

LLM 에이전트의 검색과 추론을 분리하여 제어력을 높이는 '분리된 검색 그라운딩(DSG)' 아키텍처를 제안합니다. MCP 호환 게이트웨이를 통해 검색 정책과 모델을 분리함으로써 비용 절감, 지연 시간 단축, 그리고 높은 정확도를 동시에 달성할 수 있습니다.

핵심 포인트

검색과 추론을 분리하여 벤더 불가지론적(vendor-agnostic) 구조 구현
검색 비용 최대 98% 절감 및 지연 시간 68% 단축 효과
시맨틱 캐싱을 통해 99.4%의 높은 웜 캐시 히트율 달성
모델 교체 및 검색 정책 최적화가 용이한 인터페이스 경계 제공

프로덕션 LLM 에이전트는 점점 더 실시간 검색에 의존하고 있지만, 네이티브 검색 그라운딩 (native search grounding)은 검색 정책, 제공자 선택, 증거 주입, 비용, 지연 시간(latency), 그리고 생성 동작을 단일 모델-제공자 경계 뒤에 묶어둡니다. 이러한 결합은 그라운딩을 검사, 조정, 재사용 또는 이식하기 어렵게 만들며, 엄격한 출력 계약을 깨뜨리는 검색 유발 장황성 (Search-Induced Verbosity)을 유발할 수 있습니다. 우리는 MCP 호환 게이트웨이를 통해 그라운딩을 추론 모델 외부로 이동시키는 벤더 불가지론적 (vendor-agnostic) 경계인 분리된 검색 그라운딩 (Decoupled Search Grounding, DSG)을 제시합니다. 이는 제공자 라우팅, 소스 인식 컨텍스트 렌더링, 구성된 폴백 (fallback), 검색 깊이 제어, 그리고 정확한 캐싱 및 시맨틱 캐싱 (semantic caching)을 일급 제어 요소로 노출합니다. SimpleQA, FreshQA, HotpotQA에 대해 5개의 프런티어 모델을 대상으로 테스트한 결과, 네이티브 검색은 최신성에 민감한 FreshQA에서 우위를 보였으나, 제어가 중요할 때는 DSG가 더 강력한 성능을 보여주었습니다. SimpleQA에서 DSG는 검색 비용을 91% 낮추면서도 네이티브 정확도에 거의 근접하였고 (86.1% vs. 87.7%), 간결한 답변 계약을 유지하며, 지연 시간을 68% 낮추면서 99.4%의 웜 캐시 (warm-cache) 히트율을 달성했습니다. 교체 가능한 모델을 사용하는 대규모 에이전트 워크로드를 위한 공유 프로덕션 그라운딩 레이어로 배포했을 때, DSG는 이커머스 질의 이해 (QIU) 워크로드에서 검색 비용을 98% 이상 절감하면서 네이티브 검색 정확도와 일치하거나 이를 약간 상회했습니다. 실시간 그라운딩은 고정된 모델 기능이 아니라 최적화 가능한 인터페이스 경계로 취급되는 것이 가장 좋습니다.

AI 자동 생성 콘텐츠

원문 바로가기

검색과 추론의 분리: LLM 에이전트를 위한 벤더 불가지론적 그라운딩 아키텍처

요약

핵심 포인트

댓글