arXiv논문2026. 06. 15. 05:32

HYDRA-X: 총체적 시각적 토크나이저를 갖춘 네이티브 통합 멀티모달 모델

요약

HYDRA-X는 단일 Vision Transformer 내에서 이미지와 비디오 토큰화를 통합하는 최초의 네이티브 통합 멀티모달 모델(UMM)입니다. 시공간 재구성 능력과 의미론적 인식을 잠재 공간에 임베딩하여 이미지 및 비디오 이해와 생성 성능을 극대화했습니다.

핵심 포인트

이미지와 비디오 토큰화를 단일 ViT 내에서 통합하는 구조 제안
프레임 수준의 인과적 시간 주의 집중을 통한 효율적 시공간 재구성
계층적 시간 압축과 경량 디컴프레서를 통한 의미론적 인식 강화
토크나이저 잠재 수준에서의 상호작용을 통한 편집 일관성 향상
7B 밀집 모델 구현을 통해 이미지/비디오 이해 및 생성 성능 입증

총체적 시각적 토크나이저 (Holistic visual tokenizers)는 다양한 시각적 입력을 통합된 표현 공간 (unified representation space)으로 매핑하기 때문에 통합 멀티모달 모델 (UMMs)의 핵심적인 요소입니다. 본 논문에서 우리는 단일 Vision Transformer (ViT) 내에서 이미지와 비디오 토큰화 (tokenization)를 통합하는 최초의 UMM인 HYDRA-X를 선보입니다. 우리의 설계는 두 가지 핵심 과제에 의해 추진되었습니다: 네이티브 ViT에 시공간 재구성 (spatiotemporal reconstruction) 능력을 효율적으로 주입하는 것과, 잠재 공간 (latent space)에 이미지 및 비디오 수준의 의미론적 인식 (semantic awareness)을 임베딩하는 것입니다. 첫 번째 문제를 해결하기 위해 종합적인 절제 연구 (ablations)를 수행한 결과 두 가지 주요 발견을 확인했습니다: (1) 프레임 수준의 인과적 시간 주의 집중 (frame-level causal temporal attention)은 시각적 재구성에 충분하지만, 전체 시공간 주의 집중 (full spatiotemporal attention)은 성능을 저하시킵니다; (2) 계층적 시간 압축 (hierarchical temporal compression)은 단일 단계 대안보다 실질적으로 뛰어난 성능을 보입니다. 두 번째 문제를 해결하기 위해, 우리는 이미지-비디오 공동 교사 감독 (joint image-video teacher supervision) 하에 시간적으로 압축된 특징을 업샘플링하는 경량 디컴프레서 (decompressor)를 제안하며, 이를 통해 압축된 잠재 공간 내에 상호 보완적인 의미 구조를 강제합니다. 이 총체적 토크나이저를 기반으로, 우리는 편집 파이프라인 (editing pipeline)의 원칙적인 개선을 추가로 제안합니다: 소스-타겟 상호작용 (source-target interaction)은 LLM 내부의 의미 수준이 아니라 토크나이저 내부의 잠재 수준에서 발생해야 하며, 이는 편집 일관성 (editing consistency)을 실질적으로 향상시키고 수렴 (convergence)을 가속화합니다. 7B 밀집 모델 (dense model)로 구현된 HYDRA-X는 이미지 및 비디오 이해와 생성 작업 전반에서 강력한 성능을 달성하며, 향후 통합 토크나이저 기반 UMM의 길을 열어줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

HYDRA-X: 총체적 시각적 토크나이저를 갖춘 네이티브 통합 멀티모달 모델

요약

핵심 포인트

댓글