arXiv논문2026. 05. 27. 12:19

RAG 읽기 과정에서 문맥 길이와 의미적 경쟁의 분리

요약

RAG 시스템의 리더 모델이 검색된 구절 중 정답을 식별하지 못하는 원인이 문맥 길이 때문인지, 아니면 구절 간의 의미적 경쟁 때문인지 분석합니다. 매칭 제어 프로토콜을 통해 경쟁 구절의 영향을 분리하여 실험한 결과, 경쟁 효과가 성능에 미치는 영향을 입증했습니다.

핵심 포인트

RAG 리더 모델의 성능 저하 원인인 문맥 길이와 의미적 경쟁 분리
매칭 제어 프로토콜을 통한 경쟁 구절(hard competitors) 실험 설계
Phi-2 및 Qwen2.5-1.5B 모델에서 성능 회복 효과 입증
경쟁 구절 축적에 따른 성능 변화를 유지 곡선으로 분석

검색 증강 생성 (Retrieval-augmented generation, RAG) 시스템은 올바른 구절 (passage)이 검색되었음에도 불구하고 잘못된 응답을 할 수 있습니다. 모델은 여전히 검색된 구절들을 읽어야 하며, 관련 있어 보이는 다른 구절들 사이에서 어떤 것이 정답을 포함하고 있는지 식별해야 합니다. 이러한 구절 읽기 모델을 리더 (reader)라고 부릅니다. 모델이 실패하는 이유가 단순히 문맥 (context)이 길기 때문일까요, 아니면 다른 구절들이 정답 구절과 진정으로 경쟁하기 때문일까요? 우리는 RAG 읽기를 위한 매칭 제어 프로토콜 (matched-control protocol)을 도입하고 입증합니다. 우리는 구절의 수와 길이는 고정하되, 강력한 경쟁 구절 (hard competitors)을 경쟁력이 낮은 실제 구절로 교체합니다. 우리는 SQuAD 데이터셋에서 두 개의 소형 오픈 모델 (compact open models)에 이 제어 방식을 적용했습니다. 이러한 교체는 성능을 부분적으로 회복시키며, F1 점수와 정답 포함 (answer inclusion) 측면에서 가장 강력한 효과를 보였습니다. Phi-2의 경우, EM (exact match) +6.0 포인트, 정답 포함 +7.0 포인트, F1 +0.057을 회복했습니다. Qwen2.5-1.5B의 경우, EM +4.5 포인트, 정답 포함 +9.0 포인트, F1 +0.068을 회복했습니다. 경쟁 구절이 축적됨에 따라 성능이 어떻게 변하는지 추적하기 위해, 우리는 유지 곡선 (retention curves)을 보고하며, 곡선이 절반 유지 (half-retention) 지점에 도달하지 않을 경우 우측 절단 반감기 (right-censored half-life)로 요약합니다. 종합적으로, 이러한 결과들은 이 프로토콜이 문맥 길이와 구별되는 경쟁 효과 (competition effect)를 분리해낸다는 것을 보여줍니다. 다만, 이 효과는 정확도 일치 (exact match)보다는 F1 및 정답 포함에서 더 명확하게 나타나며, 구절 길이 (snippet length)에 따라 달라지기도 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RAG 읽기 과정에서 문맥 길이와 의미적 경쟁의 분리

요약

핵심 포인트

댓글