RASER: 멀티홉 질의응답을 위한 복구 가능성 인지 선택적 에스컬레이션 라우터
요약
멀티홉 질의응답 시 발생하는 불필요한 검색 비용을 줄이기 위한 저비용 라우터 RASER를 제안합니다. 원샷 RAG의 특징을 분석하여 추가 검색 여부를 결정함으로써, 성능을 유지하면서도 토큰 사용량을 획기적으로 절감합니다.
핵심 포인트
- 모든 멀티홉 질문에 반복적 검색을 수행하는 비용 낭비 문제 해결
- 추가 LLM 호출 없이 6가지 특징 기반으로 에스컬레이션 결정
- RASER-2와 RASER-3를 통해 비용-정확도 트레이드오프 최적화
- SOTA 성능을 유지하며 토큰 사용량을 기존 대비 약 41-49% 절감
멀티홉 질의응답 (Multi-hop question-answering) 시스템은 종종 모든 질문에 대해 비용이 많이 드는 검색 (retrieval) 과정을 사용합니다. 이들은 질문을 분해하거나, 여러 차례의 검색 라운드를 실행하거나, 답변하기 전에 브릿지 엔티티 (bridge entities)를 검색할 수도 있습니다. 이러한 모든 전략은 질문을 재작성하거나 분해하기 위해 반복적인 LLM 호출에 의존하며, 이는 추가적인 토큰 비용을 증가시켜 LLM 예산이 타이트할 때 적합하지 않습니다. 그러나 우리의 분석에 따르면, 많은 멀티홉 질문들이 이미 단일 원샷 RAG (one-shot RAG)에 의해 올바르게 답변된다는 것을 보여주며, 따라서 모든 질문에 대해 추가 검색을 실행하는 것은 예산을 낭비하는 것입니다. 우리는 원샷 RAG와 그로부터 도출된 6가지 특징을 기반으로 구축된 저비용 라우터 제품군인 RASER (Recoverability-Aware Selective Escalation Router)를 소개합니다. RASER-2는 중단할지 아니면 추가 검색 동작인 PRUNE으로 에스컬레이션(escalate)할지를 결정합니다. RASER-3는 동일한 특징을 사용하되 명시적인 비용-정확도 트레이드오프 (cost-accuracy trade-off)를 추가하여, 원샷 RAG, PRUNE, 그리고 반복적 검색인 IRCoT (iterative retrieval) 중에서 선택합니다. 두 라우터 모두 결정을 내리기 위해 추가적인 LLM 호출을 수행하지 않습니다. 6개의 LLM과 3개의 멀티홉 QA 벤치마크에 걸쳐, 두 라우터 모두 F1 점수에서 다른 최첨단 (SOTA) 베이스라인들과 경쟁력을 유지하면서도, 항상 PRUNE을 수행하는 방식의 토큰을 41-49%만 사용하며, 반복적 및 분해 검색 베이스라인보다도 적은 토큰을 사용합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기