본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 10:50

이벤트 기반 서사 추출에서의 복합 일관성(Composite Coherence)에 대한 정보 기하학적 정당화

요약

이벤트 기반 서사 추출 시 사용되는 일관성 지표의 정보 기하학적 근거를 제시하는 연구입니다. 문서 임베딩의 각도 유사도와 젠슨-샤논 거리를 결합한 복합 일관성 지표가 기하 평균을 통해 최적화됨을 수학적으로 증명했습니다.

핵심 포인트

  • 복합 일관성 지표 $C=\sqrt{A\cdot T}$의 정보 기하학적 정당화
  • 기하 평균이 네 가지 자연적 공리를 만족하는 유일한 결합자임을 입증
  • 피셔-라오 계량과 젠슨-샤논 거리 간의 국소적 일치성 확인
  • 실험을 통해 제안된 프레임워크의 높은 정확도와 LLM 평가 우수성 검증

그래프 기반 서사 추출(Graph-based narrative extraction)은 이벤트 간의 전이를 점수화하기 위해 일관성 함수(coherence function)에 의존하지만, 현재 사용되는 일관성 지표들은 운영적(operationally)으로 정의되어 있으며 정보 이론적(information-theoretic) 토대가 부족합니다. 본 연구에서는 $C=\sqrt{A\cdot T}$라는 복합 지표를 연구합니다. 여기서 $A$는 문서 임베딩(document embeddings)의 각도 유사도(angular similarity)이고, $T=1-d_{\mathrm{JS}}$는 소프트 멤버십(soft memberships)의 젠슨-샤논 거리(Jensen-Shannon distance)로부터 도출된 토픽 근접도(topic proximity)입니다. 우리는 기하 평균 결합자(geometric-mean combinator)의 공리적 특성(axiomatic characterization)과 함께 이 지표에 대한 정보 기하학적(information-geometric) 해석을 제공합니다. 곱 매니폴드(product manifold) $\mathbb{S}^{d-1}\timesΔ^{K-1}$ 위에서, 음의 로그 일관성(negative log-coherence)은 각도 비용(angular cost)과 토픽 비용(topic cost)으로 가산적으로 분해됩니다. 심플렉스(simplex) 상의 젠슨-샤논 거리에 의해 유도된 리만 계량 텐서(Riemannian metric tensor)는 피셔 정보 행렬(Fisher information matrix)에 비례하기 때문에, 토픽 구성 요소는 첸초프 정리(Chentsov's theorem)에 의해 선정된 피셔-라오 계량(Fisher-Rao metric)과 국소적으로 일치합니다. 결합자(combinators)의 보상 가능 스펙트럼(compensability spectrum) 내에서, 기하 평균은 네 가지 자연적 공리(경계/거부 조건, 대칭성, 로그 가산성, 정규화)와 일치하는 유일한 결합자이며, 이 구성은 적절한 곱 계량(product metric) $d_\times$를 정당화합니다. 네 개의 코퍼스(corpora), 세 가지 임베딩 제품군, 세 가지 토픽 모델에 대한 실험은 본 프레임워크와 일치합니다: 피셔 항등식(Fisher identity)이 성립하며 ($R\ge0.99$), 기하 평균이 $d_\times$를 밀접하게 추적합니다 ($ρ=0.999$), 그리고 LLM-as-judge를 이용한 다운스트림 체크 결과, 이 지표가 다른 대안적 결합자나 단일 채널 베이스라인(single-channel baseline)에 의해 압도되지 않음을 확인했습니다. 스펙트럼을 훑어보면, 추출된 스토리라인과 무작위 스토리라인 사이의 병목 일관성 격차(bottleneck-coherence gap)는 대칭적 구성 요소(다섯 개의 코퍼스 전반에서 기하 평균일 때 최대화됨)와 변위 항(displacement term)으로 나뉩니다. 교차 모달(cross-modal) 이미지-서사 사례 연구는 이 효과를 재현합니다. 이러한 결과는 복합 일관성 지표를 정당화하며, 기하 평균이 언제 자연스러운 선택이 되는지를 명확히 설명합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0