arXiv논문2026. 05. 25. 16:34

언어 모델의 계층적 개념 기하학은 단어 공생(Co-occurrence)으로부터 발현된다

요약

언어 모델의 임베딩 내에서 상위어 관계(Hypernymy)가 기하학적으로 어떻게 인코딩되는지 분석합니다. 단어 공생 통계가 임베딩 Gram 행렬의 스펙트럼 구조를 통해 계층적 분할 기하학을 생성함을 이론적·경험적으로 증명합니다.

핵심 포인트

단어 공생(Co-occurrence)이 계층적 개념 기하학의 근원임을 규명
Gram 행렬의 고유벡터가 거친-정밀(Coarse-to-fine) 구조를 형성
Gemma 2B의 언임베딩에서도 동일한 계층적 특성 확인
특수 메커니즘 없이 통계적 구조만으로 계층 구조 발현 가능

우리는 일반적 개념과 구체적 개념 사이의 "is-a" 관계인 상위어 관계(Hypernymy)가 언어 표현(Language representations) 내에서 어떻게 기하학적으로 인코딩되는지에 대한 분포 이론(Distributional theory)을 제안합니다. WordNet 상위어 그래프(Hypernym graph)에서 더 가까운 단어들이 더 자주 공생(Co-occur)한다는 경험적으로 검증된 가정에서 시작하여, 우리는 word2vec 임베딩의 결과물인 임베딩 Gram 행렬(Gram matrix)의 스펙트럼을 이론적으로 규명합니다. 공생 커널(Co-occurrence kernel)에 대한 완만한 양의 조건(Positivity conditions) 및 감쇠 조건(Decay conditions) 하에서, 우리는 주요 고유벡터(Leading eigenvectors)가 먼저 광범위한 분류학적 가지(Taxonomic branches)를 분리한 다음 점진적으로 더 미세한 하위 가지(Sub-branches)를 분리하며, 트리를 반영하는 거친-정밀(Coarse-to-fine) 스펙트럼 구조를 가진 extit{계층적 분할 기하학(Hierarchical splitting geometry)}을 생성함을 증명합니다. 우리는 샘플링된 많은 WordNet 하위 트리(Subtrees)에 걸친 word2vec 임베딩에서 이러한 예측을 확인하였으며, 동일한 특징이 Gemma 2B의 언임베딩(Unembeddings)에도 놀라울 정도로 잘 확장됨을 보여줍니다. 우리의 결과는 LLM 내의 계층적 개념 기하학이 반드시 계층 구조에 특화된 기능적 메커니즘을 반영할 필요는 없으며, 쌍별 단어 통계(Pairwise word statistics)의 스펙트럼 구조로부터 발현된다는 것을 나타냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 모델의 계층적 개념 기하학은 단어 공생(Co-occurrence)으로부터 발현된다

요약

핵심 포인트

댓글