Reddit요약2026. 06. 15. 14:14

시간적 중복성 마스킹 및 잠재 인페인팅을 통한 적응형 토큰화 (Adaptive Tokenisation Via Temporal

요약

비디오의 시각적 복잡성에 따라 토큰을 동적으로 할당하는 적응형 비디오 토큰화 기술을 제안합니다. 잠재 공간의 시간적 중복성을 활용해 계산 오버헤드를 줄이고, LIT 구조를 통해 누락된 위치를 효율적으로 재구성합니다.

핵심 포인트

잠재 공간의 시간적 L1 차이를 이용한 파라미터 없는 적응형 토큰 할당
정적 장면은 압축하고 역동적 장면은 토큰을 유지하는 콘텐츠 중심적 방식
Latent Inpainting Transformer(LIT)를 통한 효율적인 누락 위치 재구성
기존 베이스라인 대비 최대 31배의 추론 시간 가속 달성

링크 - https://arxiv.org/abs/2606.06158 초록: 적응형 비디오 토큰화 (Adaptive video tokenisation)는 시퀀스의 기저 시각적 복잡성에 따라 토큰 예산을 동적으로 할당하는 것을 목표로 합니다. 현재의 연속 체제 (continuous-regime) 접근 방식은 반복적인 이진화 탐색 (binarised searches) 또는 학습된 신경 회귀기 (neural regressors)를 통해 이를 달성하는 반면, 이산 방식 (discrete methods)은 정보량을 추정하기 위해 전체 속도의 디코더 패스 (decoder pass)를 요구하는 경우가 많습니다. 우리는 이러한 계산 오버헤드가 엄격하게 필수적인 것은 아님을 입증합니다. 우리는 동결된 연속 비디오 토크나이저 (frozen continuous video tokeniser)의 잠재 공간 (latent space)이 직접 활용될 수 있는 시간적 중복성 (temporal redundancy)을 본질적으로 인코딩하고 있음을 보여줍니다. 즉, 연속된 프레임 사이에서 잠재 표현 (latent representations)이 최소한으로 변하는 공간 위치는 추가 정보가 거의 제로에 가깝습니다. 우리는 위치별 시간적 L1 차이 (temporal-L1 differences)에 고정 임계값을 적용하여 중복된 잠재 위치를 식별하고 제거하는 파라미터가 없는 적응형 토큰 할당 메커니즘을 도입합니다. 결과적으로 압축률은 상향식 (top-down)으로 강제되는 것이 아니라 입력 콘텐츠로부터 자연스럽게 나타납니다. 정적인 장면은 공격적으로 압축되는 반면, 매우 역동적인 시퀀스는 더 많은 토큰을 유지합니다. 누락된 위치를 재구성하기 위해, 우리는 경량화된 인수 분해된 시공간 어텐션 (factorised spatial-temporal attention) 구조인 잠재 인페인팅 트랜스포머 (Latent Inpainting Transformer, LIT)를 제안합니다. 결과적인 추론 파이프라인은 매우 효율적이며, 단 한 번의 인코더 패스 (encoder pass)와 한 번의 LIT 순전파 (forward pass)만을 필요로 하여 보조 라우팅 네트워크 (auxiliary routing networks)의 필요성을 제거합니다. 최근 토크나이저들이 사용하는 표준 벤치마크인 TokenBench 및 DAVIS를 통한 평가 결과, 우리의 프레임워크는 경쟁력 있는 재구성 충실도 (reconstruction fidelity)를 유지하면서도 의미 있고 콘텐츠 중심적인 토큰 할당을 생성하며, 연속형 적응형 베이스라인 (ElasticTok-CV) 대비 31배, 이산 정보 이론적 베이스라인 (InfoTok) 대비 2배의 추론 시간 가속을 제공합니다. /u/chhaya_35가 r/MachineLearning에 제출함 [링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기