지식 그래프 완성을 위한 계층적 구조화 양자화 프레임워크 (GS-Quant)
요약
본 논문은 LLM의 지식 그래프 완성(KGC) 적용 시 발생하는 연속 임베딩과 이산 토큰 간의 모달리티 격차 문제를 해결하기 위해 GS-Quant라는 새로운 양자화 프레임워크를 제안합니다. 기존 방식들이 단순한 수치 압축에 그쳐 의미론적 구조를 놓쳤던 것과 달리, GS-Quant는 엔티티 표현이 '거시(coarse)에서 미세(fine)'의 언어적 논리를 따르도록 설계되었습니다. 이를 통해 계층적 지식을 코드북에 주입하고, 생성적 구조 재구성을 통해 토큰 시퀀스에 인과적 의존성을 부여함으로써, LLM이 그래프 구조를 자연어 생성처럼추
핵심 포인트
- GS-Quant는 엔티티 표현이 '거시(coarse)에서 미세(fine)'의 언어적 논리를 따르도록 설계하여 계층적 지식을 코드북에 주입합니다.
- Granular Semantic Enhancement 모듈을 통해 초기 코드는 전역 의미 범주를 포착하고, 후기 코드가 특정 속성을 정교화하도록 합니다.
- Generative Structural Reconstruction 모듈은 코드 시퀀스에 인과적 의존성을 부과하여 독립적인 이산 단위를 구조화된 의미 설명자로 변환합니다.
- 이 프레임워크는 LLM 어휘를 학습된 코드로 확장하여, 모델이 그래프 구조를 자연어 생성처럼 추론할 수 있게 합니다.
대규모 언어 모델(LLMs)은 지식 그래프 완성(Knowledge Graph Completion, KGC) 분야에서 엄청난 잠재력을 보여주고 있습니다. 하지만 연속적인 그래프 임베딩과 이산적인 LLM 토큰 사이에 존재하는 모달리티 격차는 여전히 핵심적인 도전 과제입니다.
최근의 양자화 기반 접근 방식들은 이러한 모달리티를 정렬하려 시도하지만, 대부분 이를 단순한 수치적 압축으로 간주합니다. 그 결과 생성되는 코드는 의미론적으로 얽혀 있어(semantically entangled) 인간 추론이 가진 계층적 본질을 반영하지 못하는 한계가 있었습니다.
본 논문에서는 이러한 문제를 해결하기 위해 GS-Quant라는 새로운 프레임워크를 제안합니다. GS-Quant는 지식 그래프 엔티티에 대해 의미론적으로 일관되고 구조적으로 계층화된 이산 코드를 생성하는 것을 목표로 합니다. 기존 방법들과 달리, GS-Quant는 엔티티 표현이 '언어적 거시(coarse)에서 미세(fine)'의 논리를 따라야 한다는 통찰에 기반합니다.
이를 위해 두 가지 핵심 모듈을 도입했습니다:
- Granular Semantic Enhancement (GSE) 모듈: 이 모듈은 계층적 지식을 코드북에 주입합니다. 이를 통해 초기 코드는 광범위한 전역 의미 범주(global semantic categories)를 포착하는 역할을 수행하고, 후반부 코드가 해당 엔티티의 특정 속성(specific attributes)을 정교하게 다듬는 구조를 만듭니다.
- Generative Structural Reconstruction (GSR) 모듈: 이 모듈은 코드 시퀀스에 인과적 의존성(causal dependencies)을 부과합니다. 이는 독립적인 이산 단위들을 단순한 나열이 아닌, 구조화된 의미 설명자(structured semantic descriptors)로 변환하는 핵심 역할을 합니다.
GS-Quant는 이러한 학습된 코드를 LLM의 어휘에 확장함으로써, 모델이 그래프 구조를 자연어 생성과 동형적으로(isomorphically) 추론할 수 있게 만듭니다. 실험 결과들은 GS-Quant가 기존의 텍스트 기반 및 임베딩 기반 베이스라인들을 크게 능가함을 입증했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기