arXiv논문2026. 04. 30. 22:23

추론 중 언제 검색할 것인가: 대형 추론 모델의 적응형 검색

요약

본 논문은 대형 추론 모델(Large Reasoning Models)의 다단계 추론 과정 중 발생하는 지식 격차를 해결하기 위해 적응형 검색 프레임워크인 ReaLM-Retrieve를 제안합니다. 기존 RAG 시스템이 추론 시작 전 컨텍스트 제공에 최적화된 것과 달리, ReaLM-Retrieve는 추론 단계별 불확실성을 감지하고 외부 증거가 가장 필요한 시점에 개입하는 정책을 학습하여 검색의 효율성과 정확도를 동시에 높입니다. 실험 결과, 이 프레임워크는 표준 RAG 대비 F1 점수에서 평균 10.1%의 개선을 달성했으며, 검색 호출 횟수를 크게 줄이면서도 높은 성능을 유지했습니다.

핵심 포인트

기존 RAG 시스템은 추론 시작 전 컨텍스트 제공에 초점을 맞추지만, 대형 모델은 다단계 추론 과정 중 증거 주입(Evidence Injection)이 필요하다는 근본적인 한계가 있었습니다.
제안된 ReaLM-Retrieve는 '단계별 불확실성 감지기'를 사용하여 토큰이나 문장 단위가 아닌 추론 단계 수준에서 지식 격차를 식별합니다.
외부 증거 주입 시점을 최적화하는 '검색 개입 정책(retrieval intervention policy)'을 학습하여, 검색이 가장 필요한 순간에만 호출되도록 합니다.
실험적으로 ReaLM-Retrieve는 표준 RAG 대비 F1 점수에서 평균 10.1%의 개선을 보였으며, 검색 호출 횟수를 47% 줄이는 등 효율성과 정확도 면에서 우수한 성능을 입증했습니다.

DeepSeek-R1 과 OpenAI o1 과 같은 대형 추론 모델 (Large Reasoning Models) 은 수천 개의 토큰에 이르는 확장된 사슬 사고 (chains of thought) 를 생성하지만, 이를 검색 증강 생성 (RAG) 과 통합하는 방식은 근본적으로 정렬되지 않고 있습니다. 현재 RAG 시스템은 추론이 시작되기 전에 컨텍스트를 제공하는 것을 최적화하는 반면, 추론 모델들은 다단계 추론 연쇄 (multi-step inference chains) 도중 증거 주입을 필요로 합니다. 우리는 이러한 불일치를 해결하기 위해 세 가지 핵심 혁신을 통해 적응형 검색 프레임워크인 ReaLM-Retrieve 를 제안합니다: (1) 토큰이나 문장 단위가 아닌 추론 단계 (reasoning-step) 수준의 지식 격차를 식별하는 단계별 불확실성 감지기 (step-level uncertainty detector), (2) 외부 증거가 현재 진행 중인 추론에 최대 혜택을 줄 때를 학습하는 검색 개입 정책 (retrieval intervention policy), (3) 단순한 통합 방식 대비 단당 검색 오버헤드를 3.2 배 감소시키는 효율성 최적화 통합 메커니즘입니다. MuSiQue, HotpotQA, 및 2WikiMultiHopQA 에서 수행된 실험 결과, ReaLM-Retrieve 는 표준 RAG 대비 답변 F1 점수에서 평균 10.1% 의 절대적 개선을 달성했습니다 (세 벤치마크 간 범위: 9.0-11.8%). 또한 IRCoT 와 같은 고정 간격 방식과 비교하여 검색 호출 횟수를 47% 줄였습니다 (모든 개선 사항이 p<0.01, paired bootstrap 기준 통계적으로 유의미함). 2~4 홉 추론이 필요한 까다로운 MuSiQue 벤치마크에서 우리의 방법은 질문당 평균 1.8 회 의 검색 호출로 F1 점수 71.2% 를 달성했습니다. 분석 결과, ReaLM-Retrieve 는 검색 품질 자체도 개선하여 지원 증거에 대해 고정 간격 베이스라인보다 일관되게 높은 정밀도와 MRR 을 달성하며, Recall@5 는 81.3% 로 기록되어 추론 집약적 검색 작업에 있어 새로운 상태-of-the-art 효율성-정확도 트레이드오프를 확립했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

추론 중 언제 검색할 것인가: 대형 추론 모델의 적응형 검색

요약

핵심 포인트

댓글