arXiv논문2026. 06. 17. 12:19

Darshana Graph: 비교 인도 철학을 위한 병렬 주석 코퍼스, 문체론적 및 탐색적 그래프 분석을 중심으로

요약

인도 철학 전통을 아우르는 125,000개 이상의 텍스트 레코드로 구성된 Darshana Graph 코퍼스를 소개합니다. 문체론적 분석과 LLM 기반의 관계 추출을 통해 학파 간의 논증 스타일과 철학적 관계를 그래프 형태로 분석합니다.

핵심 포인트

힌두, 불교, 자이나 철학을 아우르는 대규모 병렬 주석 코퍼스 구축
문체론적 분석을 통한 경전 인용 밀도 및 반박률 상관관계 규명
LLM 파이프라인을 활용한 개념 간 철학적 관계 그래프 추출
코퍼스, 관계 그래프 및 전체 소스 코드 공개

우리는 Bhagavad Gita, Brahma Sutras, 주요 Upanishads, Pali Canon, 그리고 핵심 Jain 텍스트를 포함한 출처의 퍼블릭 도메인 및 공개 라이선스 번역본에서 추출한, 고전 힌두(Hindu), 불교(Buddhist), 자이나(Jain) 철학 전통을 아우르는 125,000개 이상의 텍스트 레코드로 구성된 코퍼스인 Darshana Graph를 소개합니다. 이 코퍼스의 독보적인 기여는 약 8,500개의 힌두 및 자이나 레코드로 이루어진 구조적으로 독특한 하위 집합에 있습니다. 이 집합에서는 동일한 근본 구절(verse) 또는 수트라(sutra)가 Vedanta의 5개 학파 및 기타 darshana를 대표하는 18명의 역사적 주석가들에 걸쳐 정렬되어 있어, 독립적인 해석 전통들이 동일한 원천 자료를 어떻게 읽어내는지 직접적인 비교를 가능하게 합니다. 우리가 알기로는, 이 정도 규모로 주석가 간의 비교 가능한 정렬을 제공하는 공개 가능한 리소스는 없습니다. 우리는 이 코퍼스를 기반으로 구축된 두 가지 분석을 제시합니다. 첫째, 머신 러닝(Machine Learning) 측정 없이 경전 인용 밀도(citation density), 명시적 반박률(explicit refutation rate), 문장 복잡성(sentence complexity)을 통해 논증 스타일을 측정하는 투명한 문체론적(stylometric) 비교입니다. 이를 통해 인용 밀도와 반박률 사이의 중간 정도의 음의 상관관계, 관련 교리 계보 내 세 명의 주석가 사이에서 나타나는 반박률의 현저한 증가, 그리고 Pali Canon 자체 내에서의 측정 가능한 장르 수준의 차이를 발견했습니다. 둘째, 사전 정의된 관계 어휘(relation vocabulary)와 결정론적 사후 검증(deterministic post-hoc validation)을 사용하여 개념 간의 유형화된 철학적 관계를 추출하는 제한된 대규모 언어 모델(Large Language Model, LLM) 파이프라인을 설명합니다. 결과물인 그래프는 학파 간의 의견 불일치 패턴을 드러내는 동시에, 독립적인 임베딩 기반(embedding-based) 분석이 그래프 유도 결과와 일치하지 않는 사례를 포함하여 중요한 추출 한계점들도 밝혀냅니다. 우리는 전체 코퍼스, 추출된 관계 그래프, 그리고 모든 소스 코드를 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Darshana Graph: 비교 인도 철학을 위한 병렬 주석 코퍼스, 문체론적 및 탐색적 그래프 분석을 중심으로

요약

핵심 포인트

댓글