LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG

단일 단계 검색 증강 생성 (RAG) 은 외부 정보를 단순 질문 답변 작업에 효과적으로 통합하는 방법이지만, 복잡한 질문에는 어려움을 겪습니다. 에이전트형 RAG 는 단일 단계 검색을 다단계 프로세스로 대체하여 대형 언어 모델 (LLM) 이 중간 사고와 서브쿼리를 생성하며 검색 시스템과 반복적으로 상호작용하는 방식으로 이 패러다임을 확장합니다. 이러한 반복적 과정은 긴 사고와 서브쿼리의 자기회귀 생성으로 인한 상당한 지연 시간을 초래합니다. 이를 해결하기 위해 우리는 추상적 언어 공간에서 추상적 잠재 공간으로 추론 및 검색을 모두 이동시키는 새로운 프레임워크인 LatentRAG 를 제안합니다. 기존에 자연어 사고나 서브쿼리를 토큰 단위로 생성하는 명시적 방법과 달리, LatentRAG 는 숨겨진 상태 (hidden states) 에서 한 번의 전방 전달 (forward pass) 로 사고와 서브쿼리에 대한 잠재 토큰을 생성합니다. 우리는 잠재 공간에서 LLM 과 밀도 검색 모델을 정렬하여 잠재 서브쿼리 토큰에 대한 검색을 가능하게 하고 엔드 투 엔드 공동 최적화를 지원합니다. 투명성을 개선하고 의미 있는 잠재 표현을 장려하기 위해, LatentRAG 는 잠재 토큰을 자연어로 다시 번역하는 병렬 잠재 해독 (parallel latent decoding) 메커니즘을 통합합니다. 7 개 벤치마크 데이터셋에 대한 광범위한 실험은 LatentRAG 가 명시적 에이전트형 RAG 방법과 유사한 성능을 달성하면서 추론 지연 시간을 약 90% 줄여, 전통적 단일 단계 RAG 와의 지연 시간 격차를 현저히 좁혔음을 보여줍니다.

Insights

LatentRAG: Latent Reasoning and Retrieval for Efficient Agentic RAG

요약

핵심 포인트

댓글

Claude Opus 5가 오늘 출시될 예정이라는 보고 — 유출된 "Honeycomb EAP" 모델이 가리키는 특징:

Forward-Deployed Engineer(FDE)란 무엇인가?

ANTHROPIC 🔥: Claude Voice Mode가 Opus 4.8 및 Sonnet 5 모델 지원과 함께 업그레이드되었습니다!

속보: Alphabet($GOOGL)의 Anthropic 지분이 약 $124,000,000,000로 급증했습니다.

Claude Opus 5가 오늘 출시될 예정이라는 보고 — 유출된 "Honeycomb EAP" 모델이 가리키는 특징:

Forward-Deployed Engineer(FDE)란 무엇인가?

ANTHROPIC 🔥: Claude Voice Mode가 Opus 4.8 및 Sonnet 5 모델 지원과 함께 업그레이드되었습니다!

속보: Alphabet($GOOGL)의 Anthropic 지분이 약 $124,000,000,000로 급증했습니다.