arXiv논문2026. 05. 27. 12:19

LitSeg: 문학적 RAG를 위한 서사 인지형 문서 분할

요약

문학 작품과 같은 복잡한 서사 구조를 가진 텍스트를 위해 서사 이론 기반의 문서 분할 프레임워크인 LitSeg를 제안합니다. 다단계 프롬프팅을 통해 서사적 맥락을 보존하며, 경량화 모델인 LitSeg-Lite를 통해 계산 효율성까지 확보했습니다.

핵심 포인트

서사 구조를 반영한 새로운 문서 분할 프레임워크 LitSeg 제안
다단계 프롬프팅을 통한 사건 추출 및 서사적 전환점 파악
데이터 증류를 통한 경량화 모델 LitSeg-Lite 도입
기존 방식 대비 검색 정확도 및 QA 성능 향상 입증

검색 증강 생성 (Retrieval-Augmented Generation, RAG)은 외부 지식을 통합함으로써 거대 언어 모델 (Large Language Models, LLMs)을 강화하며, 특히 문학 작품과 같은 롱테일 (long-tail) 도메인에서 유용합니다. 그러나 RAG에서 문서 분할 (document segmentation)이라는 핵심 단계는 여전히 충분히 연구되지 않은 상태입니다. 기존의 전략들은 대개 의미론적으로 무지하며 문학 작품의 복잡한 서사 구조 (narrative structures)를 간과하여, 종종 파편화된 줄거리와 불분명한 참조를 초래하며 이는 검색 및 생성 성능을 심각하게 저해합니다. 이를 해결하기 위해, 우리는 새로운 서사 이론 기반의 분할 프레임워크인 LitSeg를 제안합니다. LitSeg는 다단계 프롬프팅 (multi-stage prompting)을 채택하여 유효한 사건을 명시적으로 추출하고, 서사적 실타래를 풀며, 서사 구조를 명확히 하고, 전환점 (turning points)을 찾아내어 분할에 정보를 제공합니다. 대규모 모델을 사용한 다단계 추론의 계산 오버헤드 (computational overhead)를 완화하기 위해, 우리는 추가적으로 LitSeg-Lite를 도입합니다. LitSeg-Lite는 2단계 학습 전략을 통해 LitSeg가 생성한 데이터로 미세 조정 (fine-tuned)된 경량 단일 패스 청커 (single-pass chunker)로, 복잡한 과정을 단일 추론 패스로 증류 (distilling)합니다. 광범위한 실험을 통해, 구조적으로 독립적인 텍스트 청크 (text chunks)를 사용함으로써 우리의 방법론이 베이스라인 대비 검색 정확도와 문맥 관련성을 크게 향상시키고, 궁극적으로 다운스트림 질의응답 (QA) 성능을 높임을 입증하였으며, 절제 연구 (ablation studies)를 통해 서사학적 가이드 (narratological guidance)와 데이터 증류 (data distillation)의 효능을 검증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

LitSeg: 문학적 RAG를 위한 서사 인지형 문서 분할

요약

핵심 포인트

댓글