arXiv논문2026. 06. 26. 11:33

ProtoKV: 지연된 쿼리 환경에서의 요약 상태 메모리를 활용한 스트리밍 비디오 이해 (Streaming Video Understanding)

요약

ProtoKV는 스트리밍 비디오 이해(SVU) 환경에서 지연된 쿼리에 대응하기 위해 제안된 상수 크기 메모리 기술입니다. 과거 이력을 요약된 상태로 표현하여 제한된 GPU 메모리 내에서 비디오의 핵심 정보를 효율적으로 유지합니다.

핵심 포인트

지연된 쿼리 환경에서 시각적 토큰의 손실 및 희석 문제 해결
상수 크기의 요약 상태(summary state)를 활용한 메모리 효율성 확보
의미적-공간적 프로토타입 뱅크를 통한 오래된 콘텐츠 집계
기존 토큰 유지 방식 대비 정확도 최대 12.5% 향상

스트리밍 비디오 이해 (Streaming Video Understanding, SVU)는 엄격한 GPU 메모리 및 쿼리 시간 지연 시간 (latency) 예산 하에서 시각적 토큰 (visual tokens)이 지속적으로 스트리밍되는 동안 비동기적으로 도착하는 쿼리에 답해야 합니다. 주요 과제는 지연된 쿼리 (delayed query)입니다. 결정적인 단서가 짧게 나타날 수 있지만, 쿼리가 도착하기 전에 많은 후속 업데이트가 발생하여 제한된 메모리 하에서 해당 단서가 제거되거나 희석될 위험이 커집니다. 우리는 토큰 인스턴스를 유지하는 대신 먼 과거의 이력을 고정된 용량의 요약 상태 (summary state)로 표현하는 상수 크기 (constant-footprint) SVU 메모리인 ProtoKV를 제안합니다. ProtoKV는 정확한 근접 윈도우 KV 캐시 (KV cache)를 유지하며, 오래된 콘텐츠를 잔차 통계 (residual statistics)를 포함하는 의미적-공간적 프로토타입 뱅크 (semantic-spatial prototype bank)로 집계합니다. 쿼리 시점에 각 프로토타입은 표준 어텐션 (attention)과 즉시 호환 가능한 제한된 의사 토큰 (pseudo-token) 인터페이스를 통해 노출됩니다. 동일한 예산과 유사한 쿼리 시간 비용 조건에서, ProtoKV는 긴 지연 시간 영역 (long-delay regime)의 SVU 벤치마크에서 토큰 유지 (token-retention) 베이스라인 대비 정확도를 최대 12.5포인트 향상시켰으며, 이러한 이득은 쿼리 지연이 증가함에 따라 더욱 커집니다.

AI 자동 생성 콘텐츠

원문 바로가기

ProtoKV: 지연된 쿼리 환경에서의 요약 상태 메모리를 활용한 스트리밍 비디오 이해 (Streaming Video Understanding)

요약

핵심 포인트

댓글