LiveStarPro: 계층적 메모리를 활용한 장기 스트림 대상의 선제적 스트리밍 비디오 이해
요약
LiveStarPro는 장기 비디오 스트림을 효율적으로 이해하기 위해 설계된 새로운 라이브 스트리밍 어시스턴트입니다. SVeD, SCAM, TSHM이라는 세 가지 핵심 구성 요소를 통해 실시간 응답성과 장기 문맥 유지 능력을 혁신적으로 개선했습니다.
핵심 포인트
- SVeD를 통해 명시적 토큰 없이도 최적의 응답 타이밍 식별
- SCAM 학습 전략으로 가변 길이 스트림에 대한 비디오-언어 정렬 강화
- TSHM 계층적 메모리 구조로 무제한에 가까운 비디오 스트림 검색 가능
- 기존 모델 대비 의미론적 정확도 28.9% 향상 및 타이밍 오류 18.2% 감소
- 스트리밍 KV 캐시 활용으로 추론 속도 1.58배 향상
비디오 거대 언어 모델 (Video-LLMs)의 놀라운 발전에도 불구하고, 현재의 온라인 아키텍처는 연속적인 비디오 스트림을 동시에 처리하고, 언제 응답할지 자율적으로 결정하며, 장기적인 문맥 메모리 (long-horizon contextual memory)를 유지하는 데 여전히 어려움을 겪고 있습니다. 이러한 장애물은 실시간 응답성을 저해하고 장기간의 상호작용 동안 심각한 망각을 초래합니다. 본 연구에서는 장기 스트림에 대한 선제적 비디오 이해를 위해 설계된 라이브 스트리밍 어시스턴트인 LiveStarPro를 소개합니다. LiveStarPro의 설계는 세 가지 상호 보완적인 구성 요소에 기반합니다. 첫 번째 구성 요소는 Streaming Verification Decoding (SVeD)로, 단일 패스 퍼플렉시티 검증 (single-pass perplexity verification)을 통해 적절한 응답 타이밍을 식별하는 추론 프레임워크이며, 이를 통해 명시적인 침묵 토큰 (silence tokens)에 대한 의존성을 제거합니다. 두 번째 구성 요소는 Streaming Causal Attention Masks (SCAM)로, 가변 길이 스트림에 대해 점진적인 비디오-언어 정렬 (video-language alignment)을 강제하는 학습 전략입니다. 세 번째 구성 요소는 Tree-Structured Hierarchical Memory (TSHM)로, 축출된 과거 정보를 이벤트 체인 (event chains)으로 구성하여 사실상 무제한인 비디오 스트림으로부터 효율적인 검색을 가능하게 하는 재귀적 메모리 아키텍처입니다. 현실적인 온라인 조건에서의 종합적인 평가를 용이하게 하기 위해, 우리는 15가지의 다양한 실제 시나리오를 아우르며 장기 회상 (long-term recall) 평가를 위해 시간 단위 스트림까지 확장된 대규모 벤치마크인 OmniStarPro를 추가로 제시합니다. 광범위한 실험을 통해 LiveStarPro가 기존 방법들을 일관되게 능가함을 입증하였으며, 의미론적 정확도 (semantic correctness)에서 28.9% 향상과 타이밍 오류 (timing error)에서 18.2% 감소를 달성하였고, 스트리밍 키-값 캐시 (streaming key-value cache)를 통해 캐싱이 없는 동일 모델 대비 1.58배의 추론 속도 향상을 이끌어냈습니다. 모델과 코드는 https://github.com/sotayang/LiveStarPro 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기