arXiv논문2026. 06. 23. 11:01

Agentic RAG 해부: 로컬 7B 모델을 이용한 Multi-Hop QA의 구성 요소 절제 연구

요약

로컬 7B 모델을 활용하여 Agentic RAG의 구성 요소가 Multi-Hop QA 성능에 미치는 영향을 분석한 절제 연구입니다. 실험 결과, 복잡한 적응형 라우팅보다 단순한 하이브리드 검색과 적절한 검색 반복 횟수가 성능에 더 효과적임을 확인했습니다.

핵심 포인트

고정된 하이브리드 검색이 규칙 기반 적응형 라우팅보다 우수한 성능을 보임
2회의 검색 반복만으로도 5회 반복 시 이득의 95%를 달성 가능
질의 분해와 재순위화는 유의미한 성능 향상을 제공함
자원 제약 환경에서는 복잡한 설계보다 단순하고 고정된 방식이 효율적임

Agentic 검색 증강 생성 (RAG) 시스템은 멀티홉 질문 답변 (Multi-Hop QA) 문제를 해결하기 위해 반복적인 추론 루프 (reasoning loops), 질의 분해 (query decomposition), 그리고 적응형 검색 (adaptive retrieval)을 결합합니다. 그러나 각 구성 요소의 기여도는 여전히 명확히 이해되지 않고 있으며, 특히 로컬 언어 모델만을 사용하는 자원 제약 환경에서는 더욱 그러합니다. 많은 Agentic 설계들은 추가된 복잡성이 도움이 된다는 가정하에 적응형 검색 라우팅 (adaptive retrieval routing)과 더 깊은 검색 루프를 추가합니다. 이것이 실제로 도움이 되는지 테스트하기 위해, 우리는 로컬 7B 파라미터 모델 (Qwen2.5-7B-Instruct)을 사용하여 HotpotQA distractor 개발 세트의 5,000개 질문을 대상으로 전체 Agentic RAG 파이프라인에 대한 통제된 절제 연구 (ablation study)를 수행합니다. 우리의 전체 파이프라인은 EM=53.2% 및 F1=61.6%를 달성하였으며, 이는 EM=43.1% 및 F1=54.0%를 기록한 단일 패스 밀집 검색 (single-pass dense-retrieval) 베이스라인과 비교됩니다. 8가지 절제 조건에 걸쳐 우리는 다음과 같은 사실을 발견했습니다: (1) 상호 순위 융합 (reciprocal rank fusion)을 통한 고정된 하이브리드 검색 (fixed hybrid retrieval)이 규칙 기반 적응형 라우팅 (rule-based adaptive routing)보다 일관되게 우수한 성능을 보였습니다 (+1.8 EM, +1.9 F1). 이는 라우팅 휴리스틱이 거의 모든 멀티홉 하위 질문에 존재하는 고유 명사에 반응하여 BM25로 과도하게 라우팅하기 때문입니다; (2) 분해된 하위 질문에 대한 2회의 검색 반복은 5회 반복 시 얻을 수 있는 이득의 95%를 포착하며, 더 깊은 루프로부터는 의미 있는 이득이 없었습니다; (3) 질의 분해 (query decomposition)와 교차 인코더 재순위화 (cross-encoder reranking)는 각각 통계적으로 유의미하지만 더 작은 이득을 기여합니다 (각각 p<0.01 및 p<0.001). 종합하면, 고정된 로컬 모델 예산 내에서는 더 단순하고 고정된 선택이 적응형 버전과 경쟁할 만하거나 오히려 더 나은 것으로 나타났습니다. 대부분의 이득은 적응형 라우팅이나 많은 반복이 아니라, 짧은 검색 루프를 실행하는 것에서 발생합니다. 우리는 어떠한 독점 API나 대규모 컴퓨팅 자원도 사용하지 않았습니다.

AI 자동 생성 콘텐츠

원문 바로가기

Agentic RAG 해부: 로컬 7B 모델을 이용한 Multi-Hop QA의 구성 요소 절제 연구

요약

핵심 포인트

댓글