동적 그래프 Transformer의 어텐션 분산 문제 진단 및 전이 가능한 해결책
요약
본 연구는 연속 시간 동적 그래프(CTDG) 학습 시 시간적 분포 변화로 인해 발생하는 어텐션 분산(attention dispersion) 문제를 진단하고 이를 해결하는 방법을 제시합니다. 기존 Transformer가 핵심 노드에 집중하지 못하는 문제를 차분 어텐션(differential attention) 도입을 통해 해결하여, 공통 모드 신호는 억제하고 독특한 토큰 신호를 증폭함으로써 성능을 개선했습니다. 이를 적용한 DiffDyG 모델은 다양한 벤치마크에서 SOTA 성능을 달성하며 특히 변화가 큰 데이터셋에서 탁월한 효과를 입증했습니다.
핵심 포인트
- 시간적 분포 변화 상황에서 동적 그래프 Transformer가 겪는 '어텐션 분산' 실패 모드 식별
- 표준 어텐션을 차분 어텐션(differential attention)으로 교체하여 핵심 노드에 대한 집중도 향상
- 차분 어텐션은 어텐션 엔트로피를 감소시키고 핵심 노드에 대한 어텐션 질량을 증가시킴
- 제안된 DiffDyG 모델은 9개의 벤치마크에서 SOTA 성능을 기록하며 높은 전이 가능성을 증명
Transformer 기반 아키텍처는 연속 시간 동적 그래프 (Continuous-Time Dynamic Graph, CTDG) 학습의 지배적인 패러다임이 되었으나, 시간적 변화 (temporal shift)가 있는 데이터셋에서의 성능은 여전히 제한적입니다. 본 연구에서는 시간적 분포 변화 (temporal distribution shift) 상황에서 동적 그래프 Transformer가 공통적으로 겪는 실패 모드(failure mode)로 어텐션 분산 (attention dispersion)을 식별합니다. 구조적 및 시간적으로 구별되는 과거 이웃 (historical neighbors)과 무작위 이웃을 대조하는 통제된 절제 연구 (ablation study)를 통해, 예측이 임의의 이웃보다 일관되게 더 많은 예측 신호를 전달하는 일련의 핵심 노드 (critical nodes)에 의존함을 보여줍니다. 그러나 기존의 Transformer는 이러한 노드들이 입력에 존재하더라도, 시간적 변화가 어텐션 대비 (attention contrast)를 약화시키고 과도하게 분산된 어텐션 분포를 생성하기 때문에 이 노드들에 집중하는 데 실패합니다. 이러한 진단은 간단하고 전이 가능한 해결책을 제시합니다. 즉, 표준 어텐션 (standard attention)을 차분 어텐션 (differential attention)으로 교체하여 공통 모드 어텐션 (common-mode attention)을 억제하고 독특한 토큰 수준의 신호 (token-level signals)를 증폭하는 것입니다. 세 가지 대표적인 CTDG Transformer 베이스라인에 이를 추가했을 때, 차분 어텐션은 성능을 일관되게 향상시켰으며, 특히 변화가 큰 데이터셋에서 성능 향상이 집중되었습니다. 어텐션 수준의 측정 결과 또한 이러한 메커니즘을 확인해주며, 어텐션 엔트로피 (attention entropy)의 감소와 핵심 노드에 대한 어텐션 질량 (attention mass)의 증가를 보여줍니다. 이러한 발견을 바탕으로, 우리는 차분 어텐션을 표준 입력 인코딩 (input encodings)과 결합한 참조 구현체인 DiffDyG를 소개합니다. 9개의 벤치마크와 3가지 부정 샘플링 (negative sampling) 프로토콜 전반에 걸쳐 DiffDyG는 SOTA (State-of-the-Art) 성능을 달성하였으며, 특히 변화가 가장 심한 데이터셋에서 매우 큰 성능 향상을 보였습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기