arXiv논문2026. 06. 18. 10:57

토큰화를 넘어: 시계열 질의응답을 위한 직접적 타임스텝 임베딩 및 대조적 정렬

요약

시계열 질의응답(TSQA)에서 발생하는 토큰화 병목 현상을 해결하기 위해 새로운 프레임워크 CADE를 제안합니다. 직접적 타임스텝 임베딩과 대조적 정렬을 통해 데이터 손실을 줄이고 LLM과의 의미론적 간극을 좁혔습니다.

핵심 포인트

기존 패치 기반 인코딩의 토큰화 병목 및 정보 손실 문제 해결
직접적 타임스텝 임베딩을 통한 인덱스 수준의 정밀한 접근 보존
단방향 지도 대조 손실을 활용한 시계열-언어 표현 간 의미론적 정렬
Time-MQA 벤치마크에서 기존 오픈 소스 및 독점 LLM 성능 상회

최근 거대 언어 모델 (LLMs)의 발전은 시계열 분석을 자연어 질의응답 형식으로 구성하는 시계열 질의응답 (TSQA)의 부상을 가져왔습니다. 그러나 원시 수치 시리즈를 LLM에 직접 입력하는 것은 토큰화 병목 현상 (tokenization bottleneck) 문제를 겪습니다. Byte Pair Encoding은 연속적인 값을 불안정한 토큰으로 파편화하며, 이들의 임베딩은 의미 있는 메트릭 구조 (metric structure)가 부족하여 크기, 규모 및 추세 정보의 손실을 초래합니다. 기존 방법들은 시리즈를 고정된 윈도우로 나누는 패치 기반 인코더 (patch-based encoders)를 사용하는데, 이는 패턴을 깨뜨리고 정확한 타임스텝을 숨기는 하나의 입도 (granularity)에 고정되며, 길이가 다르거나 샘플링 속도가 다른 데이터셋 간에는 거의 전이되지 않는 별도의 모듈을 통해 이루어집니다. 이러한 과제를 해결하기 위해, 우리는 직접적 타임스텝 임베딩 (direct timestep embedding)과 의미론적 정렬 (semantic alignment)이라는 두 가지 핵심 구성 요소를 기반으로 구축된 TSQA를 위한 새로운 프레임워크인 CADE (Contrastive Alignment with Direct Embedding)를 제안합니다. 제안된 프레임워크는 포인트 단위 선형 인코더 (point-wise linear encoder)와 MLP 프로젝터 (MLP projector)를 통해 각 타임스텝을 LLM 임베딩 공간으로 직접 매핑하여, 패칭 (patching) 및 패딩 (padding)의 필요성을 제거하면서도 정확한 인덱스 수준의 접근을 보존합니다. 시계열과 언어 표현 사이의 의미론적 간극을 더욱 좁히기 위해, 우리는 시계열 임베딩을 동결된 클래스 이름 텍스트 앵커 (frozen class-name text anchors)와 정렬하는 새로운 단방향 지도 대조 손실 (one-directional supervised contrastive loss)을 도입합니다. 공개 벤치마크인 Time-MQA에서의 실험 결과는 우리의 프레임워크가 6가지 TSQA 작업 전반에서 성능을 일관되게 향상시키며, 오픈 소스 및 독점 LLM 베이스라인을 모두 능가함을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

토큰화를 넘어: 시계열 질의응답을 위한 직접적 타임스텝 임베딩 및 대조적 정렬

요약

핵심 포인트

댓글