arXiv논문2026. 06. 16. 22:47

RAID: 진정한 콜드 스타트 및 교차 언어 예측을 위한 의미론적 그래프 확산 (Semantic Graph Diffusion)

요약

RAID는 시계열 데이터의 콜드 스타트 문제를 해결하기 위해 메타데이터 기반의 의미론적 검색과 그래프 조건부 확산을 결합한 프레임워크입니다. 다국어 임베딩을 통해 언어 간 장벽을 넘어 제로샷 교차 언어 전이를 지원하며, 추론 지연 시간을 획기적으로 단축했습니다.

핵심 포인트

메타데이터 기반의 의미론적 검색과 그래프 확산 모델 결합
진정한 콜드 스타트 시나리오에서 기존 파운데이션 모델 능가
비자기회귀 디코딩을 통한 추론 지연 시간 대폭 감소
제로샷 교차 언어 전이를 통한 다국어 일반화 성능 확보

시계열 파운데이션 모델 (Time-series foundation models)은 비어 있지 않은 이력 윈도우 (history window)가 주어질 때 강력한 전이 성능을 보여줍니다. 그러나 새로운 아이템에 대한 이전 관측치가 없는 진정한 콜드 스타트 (true cold-start) 시나리오는 이러한 가정을 위반합니다. 우리는 이력 기반의 상관관계 학습 (correlation learning)을 메타데이터 기반의 의미론적 검색 (semantic retrieval) 및 그래프 조건부 확산 (graph-conditioned diffusion)으로 대체하는 프레임워크인 RAID (Retrieval-Augmented Iterative Diffusion)를 제안합니다. RAID는 고정된 다국어 임베딩 모델 (multilingual embedding model)을 사용하여 텍스트 메타데이터를 공유된 의미론적 공간 (semantic space)으로 매핑하고, 보지 못한 아이템으로 자연스럽게 확장되는 귀납적 검색 그래프 (inductive retrieval graph)를 구축합니다. 이 모델은 먼저 의미론적으로 관련된 이웃들로부터 정보를 집계하여 기본 예측 (base forecast)을 형성한 다음, 게이트형 확산 모듈 (gated diffusion module)을 통해 잔차 불확실성 (residual uncertainty)을 모델링하여 이 예측을 정교화합니다. 엄격한 진정한 콜드 스타트 프로토콜 하에서, RAID는 예측 정확도와 예측 구간 커버리지 (prediction interval coverage) 모두에서 강력한 파운데이션 모델 및 경쟁력 있는 베이스라인들을 능가하며, 비자기회귀 디코딩 (non-autoregressive decoding)을 통해 추론 지연 시간 (inference latency)을 한 자릿수(order of magnitude)만큼 줄입니다. 또한 공유된 의미론적 공간은 제로샷 교차 언어 전이 (zero-shot cross-lingual transfer)를 가능하게 하여, 영어 설명으로 학습된 모델이 직접적인 지도 학습 없이도 다른 언어로 설명된 아이템으로 일반화될 수 있도록 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RAID: 진정한 콜드 스타트 및 교차 언어 예측을 위한 의미론적 그래프 확산 (Semantic Graph Diffusion)

요약

핵심 포인트

댓글