컨텍스트 내에 무엇이 살아남는가: 예산 제한적 멀티홉 RAG를 위한 진단 및 서브모듈러 증거 패킹(Submodular Evidence
요약
제한된 컨텍스트 예산 내에서 RAG 성능을 최적화하기 위한 새로운 진단 도구와 증거 패킹 기법을 제안합니다. 기존의 문서 재현율 대신 'answer-in-context' 지표를 사용하여 정답 품질을 더 정확히 예측하며, 서브모듈러 최적화를 통해 효율적인 증거 구성을 달성합니다.
핵심 포인트
- 기존 문서 재현율의 한계를 지적하고 'answer-in-context' 지표 도입
- 서브모듈러 최대화 문제를 통한 효율적인 증거 패킹(Packer) 구축
- HotpotQA 실험에서 기존 방식 대비 최대 +5.1 F1 성능 향상
- 모델 규모와 예산에 따른 성능 변화 및 최적의 증거 밀도 조건 규명
고정된 리더 컨텍스트 예산(reader-context budget) 하에서의 검색 증강 생성 (RAG)은 선택의 문제를 강요합니다. 즉, 검색된 증거 중 일부만이 리더에게 보여질 수 있습니다. 우리는 이 체제에서 표준 검색 지표인 문서 재현율 (document recall)이 최적화해야 할 잘못된 양이라고 주장하며, 두 가지 기여를 합니다. 첫째, 일반적인 기여로서, 우리는 정답(gold answer)이 패킹된 리더 컨텍스트(retrieved set이 아닌) 내에서 연속적인 스팬(contiguous span)으로 살아남는지 측정하는 진단 도구인 'answer-in-context'를 도입합니다. 이는 재현율 (recall)보다 정답 F1을 더 잘 예측하며 (r=0.39-0.55 vs. 약 0.31), 정답 품질을 대략 5배 차이로 구분합니다 (HotpotQA에서 0.60 vs. 0.12). 또한 이는 검색 이상의 정보를 포함합니다: 재현율 대비 Delta R squared=0.17을 추가하며, 모든 정답이 검색된 질문들 사이에서도 4.6배의 EM 격차를 보여줍니다. 우리는 또한 개입 실험을 통해 이를 확인했습니다: 2WikiMultiHopQA에서 커버리지(coverage)는 높이지만 answer-in-context는 높이지 않는 패킹 변경은 정확도 향상을 가져오지 못했습니다. 둘째, 조건부 기여로서, 우리는 리더 컨텍스트 구축을 예산이 제한된 단조 서브모듈러 최대화 (budgeted monotone submodular maximization) 문제로 정의하고, 관련성 (relevance), 쿼리 커버리지 (query coverage), 대표성 (representativeness), 다양성 (diversity)을 공동으로 최적화하는 패커 (packer)를 구축합니다. 160-토큰 예산과 3B 리더를 사용한 HotpotQA 실험에서, 이 방식은 강력한 집중형 휴리스틱 (focused heuristic), MMR, 그리고 단순 패킹 (naive packing)을 세 가지 시드에 걸쳐 동일하거나 더 낮은 토큰 비용으로 최대 +5.1 F1까지 능가합니다. 결정적으로, 우리는 이러한 승리의 범위를 정직하게 매핑합니다: 이는 (i) 멀티홉 보완적 구조 (multi-hop complementary structure), (ii) 증거를 드러내는 검색 (retrieval), (iii) 구속력이 있지만 극단적이지 않은 예산, (iv) 읽기 능력(reading capacity)이 아닌 증거 밀도(evidence density)가 병목 현상이 될 만큼 충분히 약한 리더, 이 네 가지 조건의 결합을 필요로 합니다. 양자화 제어된 리더 규모 사다리 (3B에서 7B, 14B로) 실험 결과, 휴리스틱 대비 우위는 7B에서 흡수되고 14B에서는 유의미하게 역전되는 것을 보여주었으며, 해당 진단 도구는 단일 변수로 모든 경계 조건을 설명합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기