arXiv논문2026. 06. 18. 11:07

단일 벡터에서의 손실: 청크 증거 집계(Chunk Evidence Aggregation)를 통한 긴 문서 검색(Long-Document

요약

긴 문서 검색 시 단일 벡터 인코딩으로 인해 결정적인 정보가 희석되는 문제를 해결하기 위해 DICE(Document Inference via Chunk Evidence)를 제안합니다. DICE는 문서를 청크 단위로 인코딩한 후 이를 집계하는 training-free 전략으로, 긴 문맥에서도 높은 검색 성능을 유지합니다.

핵심 포인트

단일 벡터 인코딩 시 발생하는 정보 희석 문제를 EDI 지표로 정의
훈련이 필요 없는 DICE 전략을 통해 청크 수준의 증거를 효과적으로 집계
4k 토큰 이상의 긴 문서 환경에서 검색 성능의 비약적 향상 입증
LongEmbed 벤치마크의 다양한 백본 모델에서 성능 개선 확인

밀집 검색(Dense retrieval)은 하나의 쿼리 벡터를 하나의 문서 벡터와 비교하여 순위를 매깁니다. 긴 문서의 경우, 랭킹(ranking) 전 문서 인코딩(encoding) 과정에서 짧지만 결정적인 구간(span)이 약화될 때 이러한 인터페이스가 실패할 수 있습니다. 우리는 이러한 실패 모드를 문서 측면의 조기 압축(early compression)으로 연구하며, 문서 수준의 표현(document-level representation)이 동일한 정답 문서(gold document) 내에서 가장 강력한 청크 수준(chunk-level)의 증거로부터 얼마나 멀어지는지를 측정하는 증거 희석 지수(Evidence Dilution Index, EDI)를 도입합니다. 이러한 관점에 따라, 우리는 문서를 청크(chunks)로 분할하고, 동결된 모델(frozen model)로 이를 독립적으로 인코딩한 다음, 표준적인 1-쿼리-1-문서 인터페이스를 유지하면서 이를 다시 단일 벡터로 집계하는 훈련이 필요 없는(training-free) 문서 측면 전략인 DICE(Document Inference via Chunk Evidence)를 제안합니다. LongEmbed에서 DICE는 4가지 백본(backbones) 전반에 걸쳐 검색 성능을 향상시켰으며, 4k 토큰 이상의 슬라이스에서 가장 큰 이득을 보였습니다. 구체적으로 Dream의 경우, Passkey >4k는 30.0에서 90.0으로, Needle >4k는 23.3에서 74.0으로 상승했습니다. 12,779개의 필터링된 샘플 전체에서 DICE는 92.8%의 사례에서 단일 벡터 베이스라인(single-vector baseline)보다 낮은 EDI를 기록했습니다. 이러한 결과는 문서 수준의 인코딩이 긴 문서 검색(long-document retrieval)을 위한 실용적이고 아직 충분히 탐구되지 않은 지렛대임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

단일 벡터에서의 손실: 청크 증거 집계(Chunk Evidence Aggregation)를 통한 긴 문서 검색(Long-Document

요약

핵심 포인트

댓글