arXiv논문2026. 05. 18. 20:02

불규칙한 시계열 데이터 처리를 위한 생성적 사전 학습 모델 ITGPT

요약

ITGPT는 불규칙한 샘플링과 결측치가 포함된 멀티모달 시계열 데이터를 처리하기 위해 설계된 어텐션 기반 아키텍처입니다. 자기지도 학습(SSL)과 GPT 방식의 목적 함수를 결합하여, 별도의 재샘플링이나 데이터 보간 없이도 의료 및 예측 유지보수 분야에서 최첨단 성능을 달성했습니다. 특히 레이블이 부족한 상황에서 비구조화된 데이터를 효과적으로 활용하여 지도 학습보다 뛰어난 성능을 보여줍니다.

핵심 포인트

불규칙한 샘플링 및 결측치가 있는 멀티모달 시계열 데이터 처리에 최적화됨
재샘플링, 특징 융합, 명시적 데이터 보간 과정 없이도 높은 성능 구현
자기지도 학습(SSL)과 GPT 방식의 목적 함수를 결합한 아키텍처 설계
레이블이 부족한 환경에서 비구조화된 데이터를 활용해 지도 학습 대비 우수한 성능 입증
의료(TIHM) 및 예측 유지보수(CompX) 도메인에서의 실효성 검증

시계열 회귀 (Timeseries regression) 모델은 대량의 레이블이 지정된 멀티모달 (multimodal) 데이터를 활용하는 데 종종 어려움을 겪으며, 특히 데이터가 불규칙하게 샘플링되거나 결측치 (missing values)를 포함하고 있는 경우 더욱 그러합니다. 이는 데이터가 신뢰할 수 없는 소스로부터 수집되고, 레이블링에 전문가의 지식이나 비용이 많이 드는 장비가 필요한 의료 및 예측 유지보수 (predictive maintenance)와 같은 도메인에서 흔히 발생하는 문제입니다. Transformer 기반의 대규모 언어 모델 (Large Language Models, LLM)은 자기지도 학습 (Self-Supervised Learning, SSL) 및 생성적 사전 학습 (Generative Pretraining, GPT) 프레임워크를 통해 텍스트와 같은 구조화된 데이터에서 효과적임이 입증되었습니다. 그러나 이러한 모델들은 불규칙하게 샘플링된 멀티모달 시계열 데이터를 효율적으로 처리할 수 있는 유연성이 부족합니다. 본 논문에서는 SSL 손실 (losses)과 GPT 방식의 목적 함수 (objectives)를 모두 사용하여 학습할 수 있도록 설계된, 멀티모달 및 불규칙하게 샘플링된 시계열 처리를 위한 어텐션 (attention) 기반 아키텍처인 ITGPT를 소개합니다. 우리는 TIHM 데이터셋을 사용한 의료 작업과 CompX 데이터셋을 사용한 예측 유지보수 작업에서 그 성능을 평가합니다. 실험 결과, ITGPT는 재샘플링 (resampling), 특징 융합 (feature fusion) 또는 명시적인 데이터 보간 (data imputation) 없이도 최첨단 (state-of-the-art) 성능을 달성함을 보여줍니다. 또한, 레이블이 부족할 때 ITGPT는 SSL 및 GPT 학습을 통해 레이블이 없는 데이터를 효과적으로 활용하여, 순수 지도 학습 (purely supervised) 방식보다 뛰어난 성능을 보입니다. 이는 실질적인 추론 작업을 위해 대규모의 비구조화된 시계열 데이터셋을 효율적으로 사용하는 방향으로 나아가는 중요한 단계입니다.

AI 자동 생성 콘텐츠

원문 바로가기

불규칙한 시계열 데이터 처리를 위한 생성적 사전 학습 모델 ITGPT

요약

핵심 포인트

댓글