arXiv논문2026. 06. 19. 11:48

스트리밍 도구 사용은 언제 도움이 되는가? 스트리밍 검색 증강 생성 (Streaming RAG)에서의 도구 의도 안정화 특성 분석

요약

사용자의 입력이 완료되기 전 도구 쿼리를 미리 발행하여 지연 시간을 줄이는 Streaming RAG의 '도구 의도 안정화' 특성을 분석한 연구입니다. CRAG 벤치마크를 통해 도구 지연 시간과 입력 속도에 따른 지연 시간 은닉 가능성을 모델 불가지론적 상한으로 도출했습니다.

핵심 포인트

Streaming RAG의 핵심인 도구 의도 안정화 개념 정의 및 측정
도구 지연 시간과 입력 속도 간의 관계를 통한 지연 시간 은닉 상한 도출
벤치마크 결과, 73.9%의 쿼리가 유의미한 지연 시간 은닉 가능함을 확인
질문 유형에 따른 조기/후기 안정화 예측 가능성 식별

스트리밍 검색 증강 생성 (Streaming RAG)은 사용자의 발화가 완료되기 전, 진행 중인 사용자 입력과 병렬로 도구 쿼리 (tool queries)를 발행함으로써 사용자가 체감하는 지연 시간 (latency)을 줄입니다. 보고된 이점들은 총체적이지만, 이 메커니즘의 이점은 근본적으로 쿼리 고유의 특성에 달려 있습니다. 즉, 추측 (speculation)은 사용자가 말하거나 타이핑을 멈추기 전에 올바른 도구 쿼리를 결정할 수 있을 때만 도움이 될 수 있습니다. 우리는 이 속성인 도구 의도 안정화 (tool-intent stabilization)를 분리하여 측정합니다. 이는 입력 스트림 내에서 추측된 쿼리의 검색이 정답을 포함하는 결과로 수렴하는 시점을 의미합니다. CRAG 벤치마크 (1371개의 검증 질문)를 통해 우리는 (i) 안정화의 분포를 측정하고, (ii) 도구 지연 시간 $L$과 입력 속도 $\delta$의 함수로서, 사용자의 남은 입력 뒤로 숨길 수 있는 도구 지연 시간의 비율에 대한 모델 불가지론적(model-agnostic) 상한 $H$를 도출하며, (iii) 절감된 시간이 이 상한을 충족하거나 초과하는 실제 작동하는 스트리밍 파이프라인을 통해 이를 검증하고, (iv) 어떤 쿼리 속성이 조기 안정화 대 후기 안정화를 예측하는지 식별합니다. 이 연구는 모델 학습을 필요로 하지 않으며 일반적인 CPU 하드웨어에서 실행됩니다. 우리는 현실적인 운영 지점 ($L=600\text{ms}$, $\delta=3\text{w/s}$, $\theta=0.8$)에서 전체 벤치마크 쿼리의 73.9%가 상당한 지연 시간 은닉 (latency hiding)을 허용한다는 것을 발견했습니다. 이는 정답 증거가 그대로 존재하며 BM25로 검색 가능한 21.3%의 질문(이 유리한 부분에서는 95.2%가 스트리밍 가능)에서의 충분한 안정화 (sufficiency stabilization)와 나머지 질문에서의 근거 없는 top-1 정착 (grounding-free top-1-settling) 폴백 (fallback)이 혼합된 수치입니다. 유리한 부분에서 $\phi_{\text{suf}}$는 정확한 근거 제시(exact grounding)와 완화된 근거 제시(relaxed grounding)에 의해 $[0.26, 0.281]$ 범위로 묶이며, 둘 다 조기에 발생합니다. 질문 유형은 유의미하지만 거친 조기/후기 분리를 생성하며 (Kruskal-Wallis $p=0.017$, $\epsilon^2=0.04$), 이는 학습된 추측 트리거 (speculative trigger)가 비용을 지불할 가치가 있는 시점을 직접적으로 알려줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

스트리밍 도구 사용은 언제 도움이 되는가? 스트리밍 검색 증강 생성 (Streaming RAG)에서의 도구 의도 안정화 특성 분석

요약

핵심 포인트

댓글