arXiv논문2026. 06. 02. 12:22

AdaCodec: 비디오 MLLM을 위한 예측형 시각 코드

요약

AdaCodec은 비디오 프레임 간의 시간적 중복성을 활용하여 시각적 토큰을 효율적으로 압축하는 예측형 시각 코드를 제안합니다. 예측 가능한 프레임은 변화량인 P-토큰으로 인코딩하여 토큰 사용량을 줄이고 모델의 성능과 추론 속도를 동시에 개선합니다.

핵심 포인트

프레임 간 중복성을 활용한 예측형 시각 코드 구현
예측 잔차를 P-토큰으로 인코딩하여 토큰 효율성 극대화
기존 RGB 베이스라인 대비 긴 비디오 벤치마크 성능 우위
첫 번째 토큰 생성 시간(TTFT)을 9.26초에서 1.62초로 단축

비디오는 시간적으로 중복됩니다. 인접한 프레임들은 대개 대부분의 객체, 배경, 레이아웃을 공유합니다. 그러나 기존의 비디오 멀티모달 거대 언어 모델 (video MLLMs)은 대개 각 샘플링된 프레임을 독립적인 RGB 이미지로 인코딩하며, 이로 인해 시각적 토큰 (visual tokens)이 이전 프레임에 이미 존재하는 콘텐츠를 반복하게 됩니다. 이는 더 직접적인 비디오 인터페이스를 시사합니다. 즉, 이전 문맥(context)으로부터 장면을 잘 예측할 수 없을 때만 전체 참조 프레임 (reference frame)을 전송하고, 그렇지 않으면 프레임 간 변화에 대한 압축된 설명을 전송하는 방식입니다. 우리는 이 인터페이스를 extit{예측형 시각 코드 (predictive visual code)}라고 부르며, 이를 비디오 MLLM을 위해 구현한 것이 extbf{AdaCodec}입니다. AdaCodec은 조건부 예측 비용 (conditional predictive cost)이 높을 때만 참조 프레임에 전체 시각적 토큰을 할당하며, 그렇지 않으면 움직임과 예측 잔차 (prediction residuals)를 포함한 프레임 간 변화를 압축된 P-토큰 (P-tokens)으로 인코딩합니다. 11개의 모든 벤치마크에서 AdaCodec은 동일한 시각적 토큰 예산 내에서 Qwen3-VL-8B의 프레임당 RGB 베이스라인보다 성능을 향상시켰습니다. 예산이 $1/7$ 수준인 상황에서도, 32k 토큰을 사용하는 AdaCodec은 모든 긴 비디오 (long-video) 벤치마크에서 224k 베이스라인을 능가합니다. 5개의 일반 비디오 (general-video) 벤치마크에서는 평균 점수를 높이는 동시에 첫 번째 토큰 생성 시간 (time-to-first-token)을 9.26초에서 1.62초로 대폭 단축했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

AdaCodec: 비디오 MLLM을 위한 예측형 시각 코드

요약

핵심 포인트

댓글