검색증강생성 (RAG) 을 위한 표 데이터에 대한 구조 인식 청크링

CSV 와 Excel 파일과 같은 표 문서 (tabular documents) 는 기업 데이터 파이프라인에서 널리 사용되지만, 검색증강생성 (Retrieval-Augmented Generation, RAG) 를 위한 기존 청크링 전략은 주로 비구조화된 텍스트를 대상으로 설계되어 있으며 표의 구조를 고려하지 않습니다. 우리는 각 행을 키-값 블록으로 인코딩하여 계층적 Row Tree 표현을 구축함으로써 행 단위의 단위 (row-level units) 에 작동하는 구조 인식 표 데이터 청크링 (Structure-Aware Tabular Chunking, STC) 프레임워크를 제안합니다. STC 는 구조적 경계와 정렬된 토큰 제약 분할 (token-constrained splitting) 을 수행하고 오버랩 없는 그리디 병합 (overlap-free greedy merging) 을 적용하여 밀집되고 겹침이 없는 청크를 생성합니다. 이 설계는 행 내 필드 간의 의미 관계를 보존하면서 토큰 활용도를 개선하고 분할을 줄입니다. MAUD 데이터셋에 대한 평가에서 STC 는 표준 재귀적 (recursive) 및 키-값 기반 (key-value based) 베이스라인과 비교하여 청크 수를 각각 최대 40% 와 56% 감소시키며, 토큰 활용도와 처리 효율성을 개선합니다. 검색 벤치마크에서 STC 는 하이브리드 설정에서 MRR 을 0.3576 에서 0.5945 로 개선하고 BM25-only 검색에서 Recall@1 을 0.366 에서 0.754 로 증가시킵니다. 이러한 결과는 청크링 과정에서 구조를 보존하는 것이 검색 성능을 개선한다는 것을 보여주며, 표 데이터에 대한 RAG 에서 구조 인식 청크링의 중요성을 강조합니다.

Insights

검색증강생성 (RAG) 을 위한 표 데이터에 대한 구조 인식 청크링

요약

핵심 포인트

댓글

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.