Storyline Trees: 긴 서사(Long-Form Narratives)를 위한 계층적 표현
요약
긴 서사 구조를 효과적으로 처리하기 위해 계층적 표현 방식인 'Storyline Trees'를 제안합니다. 챕터를 장면 단위로 분할하고 상하향식 절차를 통해 트리를 구축하여, 긴 문맥 모델의 질의응답 성능을 높이는 적응형 검색을 가능하게 합니다.
핵심 포인트
- 계층적 스토리라인 트리 구축을 통한 긴 서사 구조의 명시적 표현
- 하향식 및 상향식 절차를 통한 다양한 추상화 수준의 서사 조직
- 적응형 검색을 통해 고수준 구조 검토 및 세부 장면 검색 수행
- 기존 긴 문맥 모델 및 에이전트 기반 방식보다 우수한 QA 성능 입증
긴 서사(Long-form narratives)는 구조가 암시적이기 때문에 긴 문맥 모델(long-context models)에게 도전적인 과제입니다. 사건, 등장인물, 그리고 플롯라인(plotlines)은 구조화된 문서에서 탐색을 안내하는 명시적인 단서 없이 수백 페이지에 걸쳐 상호작용합니다. 우리는 전역적 주제(global themes)와 주요 플롯라인에서 세밀한 사건(fine-grained events)에 이르기까지 서사를 조직하는 계층적 표현인 스토리라인 트리(storyline trees)를 구축함으로써 이 문제를 해결합니다. 먼저 챕터(chapters)를 연속적인 서사 세그먼트(narrative segments) 또는 장면(scenes)으로 분할하고, 이를 트리 구축을 위한 기본 단위로 사용합니다. 그런 다음, 다양한 추상화 수준에서 스토리라인을 도출, 정제, 클러스터링(cluster) 및 요약하는 상호 보완적인 하향식(top-down) 및 상향식(bottom-up) 절차를 통해 스토리라인 트리를 추론합니다. 우리는 질의응답(question answering)에 대한 이 표현의 유용성을 보여줍니다. 스토리라인 트리는 적응형 검색(adaptive retrieval)을 가능하게 하여, 모델이 고수준의 서사 구조를 반복적으로 검토하고 필요에 따라 장면 수준의 증거를 검색할 수 있도록 합니다. 세 가지 긴 문맥 서사 질의응답(QA) 벤치마크에 대한 실험 결과, 적응형 검색이 사후 학습된 긴 문맥 모델(post-trained long-context models) 및 에이전트 기반 청크 방식(agentic chunk-based methods)을 포함한 강력한 베이스라인(baselines)보다 뛰어난 성능을 보임을 입증했습니다. 절제 연구(Ablations)를 통해 장면(scenes)이 챕터나 일반적인 세그먼테이션(segmentation)보다 더 효과적인 기본 단위임을 확인하였으며, 이러한 이점이 동일한 검색 예산(retrieval budgets) 하에서도 유지됨을 확인했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기