본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 16:40

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG

요약

LatentRAG는 복잡한 질문에 대응하는 에이전트형 검색 증강 생성(RAG)의 높은 추론 지연 시간을 해결하기 위해 제안된 새로운 프레임워크입니다. 기존 방식들이 자연어 사고와 서브쿼리를 토큰 단위로 명시적으로 생성하여 지연 시간이 길었던 것과 달리, LatentRAG는 숨겨진 상태에서 한 번의 전방 전달만으로 잠재 공간에 대한 사고 및 서브쿼리 토큰을 효율적으로 생성합니다. 이 접근 방식은 검색 과정과 LLM 추론 과정을 통합하고 병렬 잠재 해독 메커니즘을 통해 성능 저하 없이 지연 시간을 획기적으로 줄여, 에이전트형 RAG의 실용성을 크게 향상시킵니다.

핵심 포인트

  • LatentRAG는 복잡한 질문 처리를 위한 에이전트형 RAG의 높은 추론 지연 시간 문제를 해결하는 것을 목표로 합니다.
  • 기존 방식과 달리, LatentRAG는 잠재 공간(latent space)에서 사고 및 서브쿼리 토큰을 한 번의 전방 전달(forward pass)만으로 생성하여 효율성을 극대화합니다.
  • 잠재 공간에서의 LLM과 밀도 검색 모델 정렬을 통해 엔드 투 엔드 공동 최적화를 지원하며, 잠재 서브쿼리에 대한 검색이 가능해집니다.
  • 병렬 잠재 해독(parallel latent decoding) 메커니즘을 통합하여 추론의 투명성을 유지하면서 지연 시간을 획기적으로 줄였습니다 (약 90% 감소).

단일 단계 검색 증강 생성 (RAG) 은 외부 정보를 단순 질문 답변 작업에 효과적으로 통합하는 방법이지만, 복잡한 질문에는 어려움을 겪습니다. 에이전트형 RAG 는 단일 단계 검색을 다단계 프로세스로 대체하여 대형 언어 모델 (LLM) 이 중간 사고와 서브쿼리를 생성하며 검색 시스템과 반복적으로 상호작용하는 방식으로 이 패러다임을 확장합니다. 이러한 반복적 과정은 긴 사고와 서브쿼리의 자기회귀 생성으로 인한 상당한 지연 시간을 초래합니다. 이를 해결하기 위해 우리는 추상적 언어 공간에서 추상적 잠재 공간으로 추론 및 검색을 모두 이동시키는 새로운 프레임워크인 LatentRAG 를 제안합니다. 기존에 자연어 사고나 서브쿼리를 토큰 단위로 생성하는 명시적 방법과 달리, LatentRAG 는 숨겨진 상태 (hidden states) 에서 한 번의 전방 전달 (forward pass) 로 사고와 서브쿼리에 대한 잠재 토큰을 생성합니다. 우리는 잠재 공간에서 LLM 과 밀도 검색 모델을 정렬하여 잠재 서브쿼리 토큰에 대한 검색을 가능하게 하고 엔드 투 엔드 공동 최적화를 지원합니다. 투명성을 개선하고 의미 있는 잠재 표현을 장려하기 위해, LatentRAG 는 잠재 토큰을 자연어로 다시 번역하는 병렬 잠재 해독 (parallel latent decoding) 메커니즘을 통합합니다. 7 개 벤치마크 데이터셋에 대한 광범위한 실험은 LatentRAG 가 명시적 에이전트형 RAG 방법과 유사한 성능을 달성하면서 추론 지연 시간을 약 90% 줄여, 전통적 단일 단계 RAG 와의 지연 시간 격차를 현저히 좁혔음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0