arXiv논문2026. 06. 01. 12:04

센서에 목소리를 부여하기: 의미론적 시계열 임베딩을 위한 멀티모달 JEPA

요약

다변량 시계열 데이터를 위한 새로운 표현 학습 모델인 CHARM을 소개합니다. JEPA 아키텍처와 텍스트 설명을 결합하여 센서 데이터의 의미론적 임베딩을 생성하며, 노이즈에 강건하고 해석 가능한 성능을 제공합니다.

핵심 포인트

채널별 텍스트 설명을 통합한 CHARM 모델 제안
JEPA 기반의 잠재 공간 예측을 통한 노이즈 강건성 확보
설명 인지 게이팅을 통한 채널 간 관계 해석 가능성 제공
이상 탐지, 분류, 예측 작업에서 선형 프로브만으로 높은 성능 달성

Transformer 기반 아키텍처는 언어와 시각 분야의 시퀀스 모델링 (sequence modeling)을 발전시켜 왔으나, 이질적인 다변량 시계열 (multivariate time series)을 위한 범용 표현 학습 (representation learning)은 여전히 미개척 분야로 남아 있습니다. 본 연구에서는 채널 순서에 불변하는 (equivariant) Transformer 인코더에 채널 수준의 텍스트 설명을 통합한 CHARM (Channel-Aware Representation Model)을 소개합니다. CHARM은 공동 임베딩 예측 아키텍처 (Joint Embedding Predictive Architecture, JEPA)와 정보가 풍부하고 시간적으로 안정적인 임베딩을 촉진하는 새로운 손실 함수 (loss function)를 통해 학습됩니다. 잠재 공간 예측 (latent-space prediction)은 센서 노이즈에 대한 강건성 (robustness)을 장려하며, 설명 인지 게이팅 (description-aware gating)은 학습된 채널 간 관계를 통해 해석 가능성 (interpretability)을 제공합니다. 이상 탐지 (anomaly detection), 분류 (classification), 그리고 단기 및 장기 예측 (short- and long-term forecasting) 전반에 걸쳐, 학습된 임베딩은 선형 프로브 (linear probe)만을 사용하여 강력한 성능을 달성합니다. 성능은 주로 JEPA 목적 함수와 조건부 아키텍처 (conditioning architecture)에 의해 주도되며, 텍스트 설명은 데이터셋 간 일반화 (cross-dataset generalization)를 위한 채널 식별자 역할을 수행합니다.

AI 자동 생성 콘텐츠

원문 바로가기

센서에 목소리를 부여하기: 의미론적 시계열 임베딩을 위한 멀티모달 JEPA

요약

핵심 포인트

댓글