본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 20:11

검색증강생성 (RAG) 을 위한 표 데이터에 대한 구조 인식 청크링

요약

본 논문은 기존 RAG(검색증강생성) 시스템이 무시하던 표 데이터의 구조적 특성을 활용하는 '구조 인식 표 데이터 청크링(STC)' 프레임워크를 제안합니다. STC는 각 행을 키-값 블록으로 인코딩하여 계층적인 Row Tree 표현을 구축하고, 구조적 경계와 정렬된 토큰 제약 분할을 통해 겹침 없이 밀집되고 의미 관계가 보존된 청크를 생성합니다. 실험 결과, STC는 기존 방식 대비 청크 수를 크게 줄이고, 검색(Retrieval) 성능 지표인 MRR과 Recall@1을 현저히 개선하여 표 데이터 기반 RAG의 효율성을 입증했습니다.

핵심 포인트

  • 기존 RAG 청크링 전략은 비구조화 텍스트에 최적화되어 있어, 표 데이터의 구조를 제대로 활용하지 못한다.
  • 제안된 STC 프레임워크는 행을 키-값 블록으로 인코딩하여 계층적인 Row Tree 표현을 구축함으로써 구조 인식 청크링을 수행한다.
  • STC는 구조적 경계와 토큰 제약 분할, 오버랩 없는 병합 기법을 사용하여 정보 손실 없이 효율적으로 청크를 생성한다.
  • 평가 결과, STC는 기존 방식 대비 청크 수를 최대 56%까지 감소시키고, 검색 성능(MRR 및 Recall@1)을 크게 향상시키는 것으로 나타났다.

CSV 와 Excel 파일과 같은 표 문서 (tabular documents) 는 기업 데이터 파이프라인에서 널리 사용되지만, 검색증강생성 (Retrieval-Augmented Generation, RAG) 를 위한 기존 청크링 전략은 주로 비구조화된 텍스트를 대상으로 설계되어 있으며 표의 구조를 고려하지 않습니다. 우리는 각 행을 키-값 블록으로 인코딩하여 계층적 Row Tree 표현을 구축함으로써 행 단위의 단위 (row-level units) 에 작동하는 구조 인식 표 데이터 청크링 (Structure-Aware Tabular Chunking, STC) 프레임워크를 제안합니다. STC 는 구조적 경계와 정렬된 토큰 제약 분할 (token-constrained splitting) 을 수행하고 오버랩 없는 그리디 병합 (overlap-free greedy merging) 을 적용하여 밀집되고 겹침이 없는 청크를 생성합니다. 이 설계는 행 내 필드 간의 의미 관계를 보존하면서 토큰 활용도를 개선하고 분할을 줄입니다. MAUD 데이터셋에 대한 평가에서 STC 는 표준 재귀적 (recursive) 및 키-값 기반 (key-value based) 베이스라인과 비교하여 청크 수를 각각 최대 40% 와 56% 감소시키며, 토큰 활용도와 처리 효율성을 개선합니다. 검색 벤치마크에서 STC 는 하이브리드 설정에서 MRR 을 0.3576 에서 0.5945 로 개선하고 BM25-only 검색에서 Recall@1 을 0.366 에서 0.754 로 증가시킵니다. 이러한 결과는 청크링 과정에서 구조를 보존하는 것이 검색 성능을 개선한다는 것을 보여주며, 표 데이터에 대한 RAG 에서 구조 인식 청크링의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0