본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 25. 11:28

스토리 연산자: 임베딩 공간에서의 원작 $\to$ 속편 변환 분해

요약

문학 작품을 임베딩 공간의 점으로 간주하여, 원작에서 속편으로의 변화를 기하학적 연산으로 분석하는 연구입니다. PCA를 통해 문학적 변환을 해석 가능한 축으로 분해하여 작품의 구조적 변화를 정량화합니다.

핵심 포인트

  • 문학적 변환을 임베딩 공간 내의 변위(displacement)로 정의
  • PCA를 활용해 속편의 변화를 정형적, 집중적, 구성적 유형으로 분류
  • Tom Sawyer 사례를 통해 구조적 변화가 주제적 변화보다 우선함을 입증
  • 저자의 의도와 기하학적 변환 경로 간의 상관관계 정량화

나는 책을 문장 임베딩 공간(sentence-embedding space)의 한 점으로 취급하며, 문학적 변환을 점들에 대한 연산(operation)으로 간주한다. 원작 소설과 그 속편이 주어졌을 때, 첫 번째 작품을 두 번째 작품으로 바꾸기 위해 기하학적으로 무엇이 필요한지 질문한다. PG19 코퍼스의 사전 계산된 인덱스에서 추출한 all-mpnet-base-v2 단락 임베딩(paragraph embeddings)을 사용하여, 나는 변위(displacement) $d=\bar{x}{\rm seq}-\bar{x}{\rm orig}$를 형성하고, 두 책의 자체 단락들에 대한 PCA(주성분 분석)를 통해 얻은 콘텐츠 기저(content basis)를 따라 이를 탐욕적(greedily)으로 분해한다. 각 성분은 양 끝단에 실제 구절들이 고정된 해석 가능한 축(interpretable axis)이다. Project Gutenberg의 검증된 13개 저자 쌍을 통해, 이 분해는 속편의 작은 분류 체계(taxonomy)를 드러낸다: 정형적(formulaic)인 경우(매우 작고 낮은 계수(low-rank)의 변화: Doyle의 Holmes 컬렉션, $|d|=0.12$), 집중된(concentrated) 경우(하나의 지배적인 축: Alcott의 Little Women $\to$ Little Men, 단일 이동에 75% 집중), 그리고 구성적인(compositional) 경우(많은 작은 축들: Twain, Burroughs의 Barsoom, Nesbit). 전형적인 사례인 Tom Sawyer $\to$ Huckleberry Finn의 경우, 회복된 지배적 축은 방언적 목소리나 노예제와 같은 유명한 표면적 주제(이들은 나중에 나타나는 더 작은 축들에 해당함)보다는 구조적(structural)인 것, 즉 보호받는 가정 환경이 피카레스크적 여정(picaresque road)으로 붕괴되는 것이다. 또한 이 변환은 일반적인 사실주의(generic realism)로 희석되기보다는 모험-여정 공간(adventure-journey space)을 통해 경로를 형성한다. 나는 회복된 기하학적 구조를 Twain의 기록된 저자 의도(Howells에게 보낸 1875--76년 편지)와 대조하여 확인하였는데, 이 편지는 수년 전에 1인칭 피카레스크적 이동을 언급하고 있다. 또한, 명시적인 표현상의 주의 사항과 함께, 실현된 변환 중 그의 명시된 의도가 얼마나 많은 부분을 차지하는지 정량화한다. 모든 계산은 공개된 스크립트와 데이터를 통해 재현 가능하다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0