arXiv논문2026. 05. 19. 13:21

S2Aligner: 희소 텍스트 속성 그래프를 위한 쌍 효율적 및 전이 가능한 사전 학습

요약

S2Aligner는 텍스트 정보가 부족하거나 노이즈가 있는 희소한 텍스트 속성 그래프(TAGs)를 위해 제안된 새로운 사전 학습 프레임워크입니다. 의미론적 정렬과 구조적 모델링을 분리하여 텍스트의 희소성 문제를 해결하고, 교차 도메인 리스크 균형을 통해 도메인 간 전이 성능을 극대화합니다.

핵심 포인트

텍스트 정보가 부족한 희소한 TAGs 환경에서 그래프와 텍스트 표현을 효과적으로 정렬하는 LLM-as-Aligner 프레임워크 제안
의미론적 구성 요소와 구조적 구성 요소를 분리하여 위상 인식 신호를 텍스트 표현에 주입하는 구조 지향적 재구성 방식 도입
도메인 밀도 비율과 그래프 신뢰도 추정을 활용하여 교차 도메인 간의 리스크를 균형 있게 조절
다양한 그래프 도메인 및 희소성 수준에서 기존 베이스라인 대비 우수한 일반화 성능 입증

텍스트 속성 그래프 (Text-Attributed Graphs, TAGs)에 대한 사전 학습 (Pre-training)은 전이 가능한 그래프 파운데이션 모델 (Graph Foundation Models)을 구축하는 데 핵심적이며, 여기서 LLM-as-Aligner 방식은 대규모 언어 모델 (Large Language Models, LLMs)의 의미론적 지식을 통해 그래프와 텍스트 표현 (Representations)을 정렬합니다. 그러나 이러한 방식은 일반적으로 노드 텍스트가 충분하고 신뢰할 수 있는 감독 (Supervision)을 제공한다고 가정하는데, 이는 실제 환경의 희소한 (Sparse) TAGs에서는 자주 위배되는 가정입니다. 텍스트 앵커 (Textual anchors)가 누락되었거나, 노이즈가 있거나, 도메인 간에 불균형할 경우, 그래프 구조는 약한 의미론적 증거를 바탕으로 정렬되어야 하며, 이는 신뢰할 수 없는 구조-의미론적 대응 (Structure-semantics correspondence)과 희소성으로 인한 전이 편향 (Transfer bias)을 초래합니다.

본 논문은 희소한 TAGs에 대한 그래프-텍스트 사전 학습을 위해, 희소성을 인식하고 구조를 강화하는 LLM-as-Aligner 프레임워크인 S2Aligner를 제안합니다. 핵심 아이디어는 의미론적 정렬 (Semantic alignment)을 구조적 모델링 (Structural modeling)으로부터 분리하여, 공유된 의미 공간 (Semantic space)을 오염시키지 않으면서 위상 인식 신호 (Topology-aware signals)가 정렬을 강화할 수 있도록 하는 것입니다. 구체적으로, S2Aligner는 그래프-텍스트 표현을 의미론적 구성 요소와 구조적 구성 요소로 분해하고, 일관성 제어 (Consistency control)를 포함한 구조 지향적 재구성 (Structure-oriented reconstruction)을 사용하여 신뢰할 수 있는 위상 단서 (Topology cues)를 텍스트 표현에 주입하며, 텍스트 희소성 하에서 일관되지 않은 구조적 신호를 억제합니다.

또한, S2Aligner는 희소성을 인식하는 교차 도메인 리스크 균형 (Cross-domain risk balancing)을 도입하여, 전역 도메인 밀도 비율 (Global-domain density ratio)을 통해 도메인 리스크를 교정하고 그래프 신뢰도 추정 (Graph reliability estimation)을 통해 신뢰할 수 없는 희소 샘플의 가중치를 낮춥니다. 이론적 분석에 따르면, 이 목적 함수는 도메인 리스크 차이 (Domain risk discrepancy)를 제어함으로써 교차 도메인 일반화 격차 (Cross-domain generalization gaps)를 줄입니다. 다양한 그래프 도메인, 희소성 수준 및 다운스트림 태스크 (Downstream tasks)에 걸친 광범위한 실험을 통해 S2Aligner가 기존 베이스라인 (Baselines)보다 일관되게 우수한 성능을 보임을 입증하였습니다.

AI 자동 생성 콘텐츠

원문 바로가기

S2Aligner: 희소 텍스트 속성 그래프를 위한 쌍 효율적 및 전이 가능한 사전 학습

요약

핵심 포인트

댓글