TAG-DLM: 텍스트 속성 그래프 학습을 위한 확산 언어 모델 (Diffusion Language Models)

각 노드가 자연어 설명을 포함하는 텍스트 속성 그래프 (Text-attributed graphs, TAGs)는 텍스트와 그래프 토폴로지 (topology)를 공동으로 추론할 수 있는 모델을 필요로 합니다. 기존 방식들은 종종 이 두 가지 모달리티 (modalities)를 별도로 처리합니다. 즉, 그래프 신경망 (Graph Neural Networks, GNNs)은 얕은 텍스트 특징 (text features) 위에서 작동하며, LLM과 그래프의 하이브리드 모델은 언어 모델을 주로 텍스트 인코더 (text encoder)로 사용하고 구조 학습 (structure learning)은 별도의 그래프 모듈에 위임합니다. 우리는 양방향 어텐션 (bidirectional attention)과 생성적 디코딩 (generative decoding)을 갖춘 언어 모델인 마스크 확산 언어 모델 (masked diffusion language model) 내에서 텍스트 추론과 그래프 메시지 패싱 (message passing)을 통합하는 방법을 제안합니다. 각 그래프 인스턴스에 대해, 이 방법은 샘플링된 로컬 이웃 (local neighbourhood)을 토큰 시퀀스 (token sequence)로 선형화하고, 그래프 상의 메시지 패싱을 구현하는 토폴로지 어텐션 마스크 (topology attention mask)를 통해 그래프 구조를 주입합니다. 확산 언어 모델은 텍스트를 해석하고 생성할 수 모두 가능하기 때문에, 이 방법은 프롬프트 (prompt)를 변경하는 것만으로 다양한 태스크에 적응할 수 있으며, 타겟 특정 미세 조정 (target-specific fine-tuning) 없이 노드 분류 (node classification), 링크 예측 (link prediction), 그리고 교차 데이터셋 전이 (cross-dataset transfer)를 지원합니다. 실험 결과, 이 방법은 두 가지 태스크에 걸친 세 가지 TAG 벤치마크 모두에서 그래프 신경망 (GNNs), 그래프 트랜스포머 (Graph Transformers), 그리고 LLM 기반 베이스라인 (baselines)보다 뛰어난 성능을 보였으며, 가장 강력한 베이스라인보다 최대 3.9포인트 향상된 성능을 기록했습니다.

Insights

TAG-DLM: 텍스트 속성 그래프 학습을 위한 확산 언어 모델 (Diffusion Language Models)

요약

핵심 포인트

댓글

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

모델 리스트 하드코딩 중단하기: 토큰 낭비를 40% 줄이는 탐색 기반 MCP 사용법