컨텍스트 내에 무엇이 살아남는가: 예산 제한적 멀티홉 RAG를 위한 진단 및 서브모듈러 증거 패킹(Submodular Evidence

고정된 리더 컨텍스트 예산(reader-context budget) 하에서의 검색 증강 생성 (RAG)은 선택의 문제를 강요합니다. 즉, 검색된 증거 중 일부만이 리더에게 보여질 수 있습니다. 우리는 이 체제에서 표준 검색 지표인 문서 재현율 (document recall)이 최적화해야 할 잘못된 양이라고 주장하며, 두 가지 기여를 합니다. 첫째, 일반적인 기여로서, 우리는 정답(gold answer)이 패킹된 리더 컨텍스트(retrieved set이 아닌) 내에서 연속적인 스팬(contiguous span)으로 살아남는지 측정하는 진단 도구인 'answer-in-context'를 도입합니다. 이는 재현율 (recall)보다 정답 F1을 더 잘 예측하며 (r=0.39-0.55 vs. 약 0.31), 정답 품질을 대략 5배 차이로 구분합니다 (HotpotQA에서 0.60 vs. 0.12). 또한 이는 검색 이상의 정보를 포함합니다: 재현율 대비 Delta R squared=0.17을 추가하며, 모든 정답이 검색된 질문들 사이에서도 4.6배의 EM 격차를 보여줍니다. 우리는 또한 개입 실험을 통해 이를 확인했습니다: 2WikiMultiHopQA에서 커버리지(coverage)는 높이지만 answer-in-context는 높이지 않는 패킹 변경은 정확도 향상을 가져오지 못했습니다. 둘째, 조건부 기여로서, 우리는 리더 컨텍스트 구축을 예산이 제한된 단조 서브모듈러 최대화 (budgeted monotone submodular maximization) 문제로 정의하고, 관련성 (relevance), 쿼리 커버리지 (query coverage), 대표성 (representativeness), 다양성 (diversity)을 공동으로 최적화하는 패커 (packer)를 구축합니다. 160-토큰 예산과 3B 리더를 사용한 HotpotQA 실험에서, 이 방식은 강력한 집중형 휴리스틱 (focused heuristic), MMR, 그리고 단순 패킹 (naive packing)을 세 가지 시드에 걸쳐 동일하거나 더 낮은 토큰 비용으로 최대 +5.1 F1까지 능가합니다. 결정적으로, 우리는 이러한 승리의 범위를 정직하게 매핑합니다: 이는 (i) 멀티홉 보완적 구조 (multi-hop complementary structure), (ii) 증거를 드러내는 검색 (retrieval), (iii) 구속력이 있지만 극단적이지 않은 예산, (iv) 읽기 능력(reading capacity)이 아닌 증거 밀도(evidence density)가 병목 현상이 될 만큼 충분히 약한 리더, 이 네 가지 조건의 결합을 필요로 합니다. 양자화 제어된 리더 규모 사다리 (3B에서 7B, 14B로) 실험 결과, 휴리스틱 대비 우위는 7B에서 흡수되고 14B에서는 유의미하게 역전되는 것을 보여주었으며, 해당 진단 도구는 단일 변수로 모든 경계 조건을 설명합니다.

Insights

컨텍스트 내에 무엇이 살아남는가: 예산 제한적 멀티홉 RAG를 위한 진단 및 서브모듈러 증거 패킹(Submodular Evidence

요약

핵심 포인트

댓글

Micron 주식 투자자 여러분, 7월 10일을 주목하세요

Roblox 주식, 역사적으로 강세 신호를 보냈다

Microsoft, 인도-동남아시아 해저 AI 케이블 구축 컨소시엄 합류 - 보고서

아이들의 '트럼프 계좌' 자금, 어디에 투자할 수 있을까? 재무부(Treasury Department)가 그 질문에 답했다.

Roblox 주식, 역사적으로 강세 신호를 보냈다

Microsoft, 인도-동남아시아 해저 AI 케이블 구축 컨소시엄 합류 - 보고서

아이들의 '트럼프 계좌' 자금, 어디에 투자할 수 있을까? 재무부(Treasury Department)가 그 질문에 답했다.