본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 17:30

Chunk Filtering 을 통한 Retrieval-Augmented Generation 의 중복성 감소

요약

본 연구는 표준 RAG 청킹 방식에서 발생하는 과도한 중복성 문제를 해결하기 위해 다양한 '청크 필터링(Chunk Filtering)' 전략을 제안합니다. Semantic, topic-based, 그리고 named-entity-based 방법론들을 탐구하고 실험한 결과, 특히 엔티티 기반 필터링이 벡터 인덱스 크기를 25%에서 36%까지 줄이면서도 검색 품질 저하를 최소화할 수 있음을 입증했습니다. 이는 RAG 파이프라인의 효율성을 높이는 가벼우면서도 효과적인 중복성 감소 방안을 제시합니다.

핵심 포인트

  • 표준 RAG 청킹은 과도한 데이터 중복성을 발생시켜 저장 비용 및 검색 속도를 저하시키는 문제가 있습니다.
  • 청크 필터링 전략(Semantic, Topic-based, Entity-based)을 통해 코퍼스 크기를 줄이면서 검색 품질을 유지할 수 있습니다.
  • 엔티티 기반 필터링은 벡터 인덱스 크기를 25%~36% 감소시키면서도 높은 검색 성능(Precision, Recall 등)을 유지하는 효과를 보였습니다.
  • 이는 RAG 파이프라인의 검색 지향적 구성 요소의 효율성을 향상시키는 실용적인 방법을 제공합니다.

표준 Retrieval-Augmented Generation (RAG) Chunking 방법은 종종 과도한 중복성을 생성하여 저장 비용을 증가시키고 검색 속도를 늦춥니다. 본 연구는 인덱싱된 코퍼스 (corpus) 를 줄이면서 검색 품질을 유지하기 위해 semantic, topic-based, 그리고 named-entity-based 방법과 같은 chunk filtering 전략을 탐구합니다. 여러 코퍼스에 대한 실험이 수행되었으며, Retrieval 성능은 정밀도 (precision), 재현율 (recall), intersection-over-union 지표를 기반으로 한 token-based framework 를 사용하여 평가되었습니다. 결과는 entity-based filtering 이 벡터 인덱스 크기를 약 25% 에서 36%까지 줄일 수 있으면서도 베이스라인에 가까운 높은 검색 품질을 유지할 수 있음을 보여줍니다. 이러한 발견은 chunking 과정에서 도입된 중복성을 가벼운 필터링 (lightweight filtering) 을 통해 효과적으로 감소시킬 수 있음을 시사하며, RAG 파이프라인 내의 검색 지향적 구성 요소의 효율성을 향상시킵니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
5

댓글

0