arXiv논문2026. 06. 17. 11:37

NarrativeWorldBench: 프런티어 모델이 포화된 벤치마크와 장기적 공동 창작 오디오 드라마를 위한 잠재 세계 모델 (Latent

요약

장기적인 서사 구조를 유지하기 어려운 기존 LLM의 한계를 극복하기 위해 NarrativeWorldBench와 N-VSSM 모델을 제안합니다. N-VSSM은 Mamba-2 백본을 활용해 200회 이상의 에피소드에서도 일관된 서사를 유지하며, 기존 프런티어 모델보다 높은 성능과 효율성을 보여줍니다.

핵심 포인트

장기 서사 평가를 위한 오픈 벤치마크 NarrativeWorldBench 공개
Mamba-2 기반의 서사 변분 상태 공간 모델(N-VSSM) 제안
기존 폐쇄형 모델 대비 적은 연산량으로 높은 서사 일관성 유지
교차 언어 평가 및 전문 작가 대상 선호도 검증 완료

200회에서 800회에 이르는 에피소드로 이어지는 서사가 있는 장편 시리즈 오디오 드라마는 주요한 창의적 매체이지만, 프런티어 거대 언어 모델 (LLMs)이 실패하는 환경이기도 합니다. 우리는 고전적, 미세 조정된 (fine-tuned), 오픈 프런티어 (open-frontier), 폐쇄형 프런티어 (closed-frontier), 그리고 추론 (reasoning) 계층을 아우르는 21개의 모델을 일관된 구조적 서사 지표 세트로 벤치마킹했습니다. 모든 폐쇄형 프런티어 시스템은 플롯 비트 (plot-beat) F1 점수 [0.78, 0.81] 범위에서 포화 상태를 보이며, 지평 (horizon) h=200에 도달하면 약 -0.20 F1만큼 붕괴합니다. 우리는 {10, 20, 50, 100, 200}의 지평 h에 걸쳐 평가되는 9가지 서사 구조 지표를 포함하는 오픈 벤치마크인 NarrativeWorldBench를 소개하며, 4개의 인도 언어 (Hindi, Tamil, Telugu, Marathi)를 통한 교차 언어 평가를 수행합니다. 우리는 이벤트 조건부 사후 확률 (event-conditioned posterior)과 8B 디코더를 갖춘 Mamba-2 백본을 통해 200회 이상의 에피소드 동안 구조화된 256차원 잠재 세계 상태 (latent world state)를 유지하는 서사 변분 상태 공간 모델 (Narrative Variational State-Space Model, N-VSSM)을 소개합니다. N-VSSM은 폐쇄형 프런티어 그룹보다 4배 적은 연산량으로 모든 지평에서 plot-beat F1 >= 0.84를 유지합니다. 학습된 문화 전이 함수 (Cultural Transfer Function)는 교차 언어 충실도 (cross-language fidelity)를 리커트 (Likert) 점수 기준으로 +0.20에서 +0.23만큼 높입니다. 피험자 내 작가 연구 (n = 12명의 전문 작가, 240회 시행)에서, N-VSSM은 장기 서사 일관성 (long-arc consistency) 측면에서 71%의 확률로 Claude Opus 4.5보다 선호되었으며, 제어 가능성 (controllability) 측면에서는 리커트 점수가 +1.3점 더 높게 평가되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

NarrativeWorldBench: 프런티어 모델이 포화된 벤치마크와 장기적 공동 창작 오디오 드라마를 위한 잠재 세계 모델 (Latent

요약

핵심 포인트

댓글