본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 05:32

HYDRA-X: 총체적 시각적 토크나이저를 갖춘 네이티브 통합 멀티모달 모델

요약

HYDRA-X는 단일 Vision Transformer 내에서 이미지와 비디오 토큰화를 통합하는 최초의 네이티브 통합 멀티모달 모델(UMM)입니다. 시공간 재구성 능력과 의미론적 인식을 잠재 공간에 임베딩하여 이미지 및 비디오 이해와 생성 성능을 극대화했습니다.

핵심 포인트

  • 이미지와 비디오 토큰화를 단일 ViT 내에서 통합하는 구조 제안
  • 프레임 수준의 인과적 시간 주의 집중을 통한 효율적 시공간 재구성
  • 계층적 시간 압축과 경량 디컴프레서를 통한 의미론적 인식 강화
  • 토크나이저 잠재 수준에서의 상호작용을 통한 편집 일관성 향상
  • 7B 밀집 모델 구현을 통해 이미지/비디오 이해 및 생성 성능 입증

총체적 시각적 토크나이저 (Holistic visual tokenizers)는 다양한 시각적 입력을 통합된 표현 공간 (unified representation space)으로 매핑하기 때문에 통합 멀티모달 모델 (UMMs)의 핵심적인 요소입니다. 본 논문에서 우리는 단일 Vision Transformer (ViT) 내에서 이미지와 비디오 토큰화 (tokenization)를 통합하는 최초의 UMM인 HYDRA-X를 선보입니다. 우리의 설계는 두 가지 핵심 과제에 의해 추진되었습니다: 네이티브 ViT에 시공간 재구성 (spatiotemporal reconstruction) 능력을 효율적으로 주입하는 것과, 잠재 공간 (latent space)에 이미지 및 비디오 수준의 의미론적 인식 (semantic awareness)을 임베딩하는 것입니다. 첫 번째 문제를 해결하기 위해 종합적인 절제 연구 (ablations)를 수행한 결과 두 가지 주요 발견을 확인했습니다: (1) 프레임 수준의 인과적 시간 주의 집중 (frame-level causal temporal attention)은 시각적 재구성에 충분하지만, 전체 시공간 주의 집중 (full spatiotemporal attention)은 성능을 저하시킵니다; (2) 계층적 시간 압축 (hierarchical temporal compression)은 단일 단계 대안보다 실질적으로 뛰어난 성능을 보입니다. 두 번째 문제를 해결하기 위해, 우리는 이미지-비디오 공동 교사 감독 (joint image-video teacher supervision) 하에 시간적으로 압축된 특징을 업샘플링하는 경량 디컴프레서 (decompressor)를 제안하며, 이를 통해 압축된 잠재 공간 내에 상호 보완적인 의미 구조를 강제합니다. 이 총체적 토크나이저를 기반으로, 우리는 편집 파이프라인 (editing pipeline)의 원칙적인 개선을 추가로 제안합니다: 소스-타겟 상호작용 (source-target interaction)은 LLM 내부의 의미 수준이 아니라 토크나이저 내부의 잠재 수준에서 발생해야 하며, 이는 편집 일관성 (editing consistency)을 실질적으로 향상시키고 수렴 (convergence)을 가속화합니다. 7B 밀집 모델 (dense model)로 구현된 HYDRA-X는 이미지 및 비디오 이해와 생성 작업 전반에서 강력한 성능을 달성하며, 향후 통합 토크나이저 기반 UMM의 길을 열어줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0