arXiv논문2026. 06. 25. 11:28

스토리 연산자: 임베딩 공간에서의 원작 $\to$ 속편 변환 분해

요약

문학 작품을 임베딩 공간의 점으로 간주하여, 원작에서 속편으로의 변화를 기하학적 연산으로 분석하는 연구입니다. PCA를 통해 문학적 변환을 해석 가능한 축으로 분해하여 작품의 구조적 변화를 정량화합니다.

핵심 포인트

문학적 변환을 임베딩 공간 내의 변위(displacement)로 정의
PCA를 활용해 속편의 변화를 정형적, 집중적, 구성적 유형으로 분류
Tom Sawyer 사례를 통해 구조적 변화가 주제적 변화보다 우선함을 입증
저자의 의도와 기하학적 변환 경로 간의 상관관계 정량화

나는 책을 문장 임베딩 공간(sentence-embedding space)의 한 점으로 취급하며, 문학적 변환을 점들에 대한 연산(operation)으로 간주한다. 원작 소설과 그 속편이 주어졌을 때, 첫 번째 작품을 두 번째 작품으로 바꾸기 위해 기하학적으로 무엇이 필요한지 질문한다. PG19 코퍼스의 사전 계산된 인덱스에서 추출한 all-mpnet-base-v2 단락 임베딩(paragraph embeddings)을 사용하여, 나는 변위(displacement) $d=\bar{x}{\rm seq}-\bar{x}{\rm orig}$를 형성하고, 두 책의 자체 단락들에 대한 PCA(주성분 분석)를 통해 얻은 콘텐츠 기저(content basis)를 따라 이를 탐욕적(greedily)으로 분해한다. 각 성분은 양 끝단에 실제 구절들이 고정된 해석 가능한 축(interpretable axis)이다. Project Gutenberg의 검증된 13개 저자 쌍을 통해, 이 분해는 속편의 작은 분류 체계(taxonomy)를 드러낸다: 정형적(formulaic)인 경우(매우 작고 낮은 계수(low-rank)의 변화: Doyle의 Holmes 컬렉션, $|d|=0.12$), 집중된(concentrated) 경우(하나의 지배적인 축: Alcott의 Little Women $\to$ Little Men, 단일 이동에 75% 집중), 그리고 구성적인(compositional) 경우(많은 작은 축들: Twain, Burroughs의 Barsoom, Nesbit). 전형적인 사례인 Tom Sawyer $\to$ Huckleberry Finn의 경우, 회복된 지배적 축은 방언적 목소리나 노예제와 같은 유명한 표면적 주제(이들은 나중에 나타나는 더 작은 축들에 해당함)보다는 구조적(structural)인 것, 즉 보호받는 가정 환경이 피카레스크적 여정(picaresque road)으로 붕괴되는 것이다. 또한 이 변환은 일반적인 사실주의(generic realism)로 희석되기보다는 모험-여정 공간(adventure-journey space)을 통해 경로를 형성한다. 나는 회복된 기하학적 구조를 Twain의 기록된 저자 의도(Howells에게 보낸 1875--76년 편지)와 대조하여 확인하였는데, 이 편지는 수년 전에 1인칭 피카레스크적 이동을 언급하고 있다. 또한, 명시적인 표현상의 주의 사항과 함께, 실현된 변환 중 그의 명시된 의도가 얼마나 많은 부분을 차지하는지 정량화한다. 모든 계산은 공개된 스크립트와 데이터를 통해 재현 가능하다.

AI 자동 생성 콘텐츠

원문 바로가기

스토리 연산자: 임베딩 공간에서의 원작 $\to$ 속편 변환 분해

요약

핵심 포인트

댓글