텍스트 선택 및 속성 매칭을 통한 텍스트 속성 그래프 응축 (Text-attributed Graph Condensation)
요약
텍스트 속성 그래프(TAG)의 학습 효율을 높이기 위해 데이터 크기를 줄이는 새로운 응축 방법론인 TAGSAM을 제안합니다. 서브그래프 텍스트 선택과 속성 유사도 매칭 기술을 통해 그래프 토폴로지와 텍스트 설명을 효과적으로 압축합니다.
핵심 포인트
- TAGSAM은 학습 정확도를 보존하며 TAG를 압축하는 기술임
- 상호 정보량을 최대화하여 대표적인 텍스트 청크를 선택함
- 속성 유사도 매칭을 통해 기존 응축 방식의 분산 문제를 완화함
- 1% 크기로 압축 시에도 경쟁력 있는 학습 정확도를 유지함
- 기존 SOTA 모델 대비 평균 4.9%의 정확도 향상을 달성함
텍스트 속성 그래프 (Text-Attributed Graph, TAG)는 각 노드가 텍스트 설명을 가지고 있는 중요한 유형의 그래프 구조 데이터입니다. TAG 모델은 일반적으로 그래프 신경망 (Graph Neural Network, GNN)과 언어 모델을 공동으로 학습시키는데, 이는 특히 대규모 데이터셋에서 높은 공간 및 시간 소모를 초래합니다. 이를 완화하기 위해, 우리는 학습 정확도를 보존하면서 TAG를 압축하는 응축 (condensation) 방법인 TAGSAM을 제안합니다. TAGSAM은 두 가지 핵심 설계, 즉 서브그래프 텍스트 선택 (subgraph text Selection)과 속성 유사도 매칭 (Attribute similarity Matching)을 포함하며, 이는 각각 TAG의 텍스트 설명과 그래프 토폴로지 (topology)를 압축합니다. 텍스트의 경우, 서브그래프 텍스트 선택은 상호 정보량 (mutual information)을 최대화함으로써 여러 관련 텍스트 설명으로부터 대표적인 텍스트 청크 (text chunks)를 선택하고 병합합니다. 그래프 토폴로지의 경우, 훈련 궤적 매칭 (Matching Training Trajectories, MTT)에 기반한 기존의 인기 있는 응축 방법들은 높은 분산 (variance) 문제로 인해 정확도가 저하되는 어려움을 겪습니다. 우리의 속성 유사도 매칭은 안정적인 유사도 행렬 (similarity matrices)을 정렬함으로써 이 문제를 완화합니다. 우리는 6개의 최첨단 (state-of-the-art) 베이스라인 모델을 대상으로 TAGSAM을 평가하였으며, 그 결과 우수한 성능을 보여주었습니다. 동일한 압축 크기에서 TAGSAM은 가장 성능이 좋은 베이스라인보다 정확도 면에서 평균 4.9% 향상되었습니다. 또한, TAG가 단 1% 크기로 응축되었을 때도 경쟁력 있는 학습 정확도를 유지합니다. 우리의 코드는 https://github.com/SundayVHan/TAGSAM 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기