LeNEPA: 시계열 표현 학습을 위한 증강 없는 차세대 잠재 예측 (No-Augmentation Next-Latent Prediction)
요약
시계열 자기지도 학습(SSL)에서 데이터 증강 없이도 효과적인 표현 학습을 가능하게 하는 LeNEPA 프레임워크를 제안합니다. LeNEPA는 인과적 백본과 등방성 정규화를 사용하여 도메인 변경 시에도 재튜닝 없이 높은 성능을 유지하며, 기존 JEPA 방식보다 빠른 학습 속도를 보여줍니다.
핵심 포인트
- 데이터 증강 없이 잠재 토큰을 예측하는 LeNEPA 아키텍처 제안
- SIGReg 기반 등방성 정규화를 통한 학습 안정성 확보
- 도메인 변경 시에도 별도의 레시피 수정 없이 높은 성능 유지
- 기존 JEPA 방식 대비 더 빠른 초기 표현 습득 및 학습 속도
시계열 (Time series) 데이터는 산업용 원격 측정 및 서버 메트릭부터 금융 및 생리학에 이르기까지 현대 데이터 마이닝 애플리케이션의 핵심이지만, 시계열 자기지도 학습 (Self-supervised learning, SSL)은 종종 도메인 특화된 불변성 (Invariances)을 인코딩하는 뷰 (View) 및 증강 (Augmentation) 선택에 의존합니다. 본 연구에서는 사전 학습 신호 계열이 변경된 후에도 방법론 특화 구성 (Method-specific configuration)을 변경 없이 재사용할 때 SSL 레시피가 어떻게 작동하는지 연구하며, 이를 최적화된 방법론과의 비교보다는 고정된 레시피 스트레스 테스트 (Fixed-recipe stress test)로 프레임화합니다. 우리는 인과적 백본 (Causal backbone)을 갖춘 증강 없는 차세대 잠재 토큰 예측 목적 함수인 LeNEPA (Latent Euclidean Next-Embedding Prediction Architecture)를 소개합니다. LeNEPA는 기존 NEPA에서 사용되는 stop-gradient/EMA 안정화 기법을 SIGReg 기반의 등방성 정규화 (Isotropy regularization)로 대체하며, 평가 시에는 폐기되는 경량화된 투영 공간 (Projected space)에서 예측 손실 (Predictive loss)을 계산합니다. 우리는 PTB-XL 및 Aionoscope로 생성된 합성 진단 코퍼스인 Diag에서 고정된 지평선 동결 프로브 (Fixed-horizon frozen-probe) 프로토콜 하에 ECG에 튜닝된 JEPA 레시피와 LeNEPA를 비교합니다. 두 방법 모두 방법론 특화 레시피를 변경하지 않은 채 각 데이터셋에서 독립적으로 재학습됩니다. 이 프로토콜에서 ECG에 튜닝된 JEPA 레시피는 PTB-XL의 도메인 내 (In-domain) 성능은 강력하지만, 변경 없이 Diag에 재사용될 때는 더 약한 모습을 보이는 반면, LeNEPA는 두 데이터셋 모두에서 유용한 동결 프로브 이득을 유지합니다. 학습 곡선은 더 빠른 초기 표현 습득을 시사합니다. LeNEPA는 최종 AUROC/AUPRC 이득의 80%에 도달하는 데 25k 업데이트가 소요된 반면, 더 빠른 JEPA 판독 (Readout)은 510k 업데이트가 소요되었습니다. 별도의 외부 동결 인코더 (Frozen-encoder) 확인 결과, CauKer로 사전 학습된 LeNEPA 변형 모델은 단일 시드, 최적 체크포인트 실행에서 Mantis와 1.16포인트 차이, MOMENT (77.89%)와 0.24포인트 차이 내의 77.65% 평균 UCR-128 Random-Forest 정확도에 도달했습니다. 전반적으로, 이러한 결과는 증강 없는 잠재 예측 (No-augmentation latent prediction)이 재튜닝이 적은 시계열 SSL을 위한 유용한 후보 레시피임을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기