arXiv논문2026. 06. 24. 11:51

AVOC: 검색 기반 토큰 압축을 통한 Omni-Modal LLM의 시간 단위 오디오-비디오 이해 능력 향상

요약

AVOC는 긴 형식의 오디오-비디오 이해를 위해 검색 기반 토큰 압축 기술을 도입한 프레임워크입니다. 관련성, 중요도, 다양성 기준을 활용해 컨텍스트 예산 내 최적의 토큰을 검색함으로써 멀티모달 LLM의 성능을 극대화합니다.

핵심 포인트

검색 기반 토큰 압축을 통한 긴 컨텍스트 처리 병목 해결
관련성, 중요도, 다양성 기준의 맞춤형 압축 메커니즘 구현
OmniVideoBench 등 주요 벤치마크에서 SOTA 성능 달성
최대 1시간 길이의 오디오-비디오 데이터에 대한 견고한 이해 능력

멀티모달 대규모 언어 모델 (Multimodal Large Language Models)은 짧은 형식의 오디오-비디오 이해 분야에서 놀라운 발전을 이루었으나, 긴 형식의 오디오-비디오 이해는 제한된 컨텍스트 창 (context windows)과 심각한 정보 중복 문제로 인해 여전히 어려움을 겪고 있습니다. 이러한 병목 현상을 해결하기 위해, 우리는 Omni-modal 대규모 언어 모델 (Omni-modal Large Language Models)에서의 긴 형식 오디오-비디오 이해를 위한 프레임워크인 AVOC를 제안합니다. AVOC는 모달리티 인코더 (modality encoders)와 LLM 백본 (backbone) 사이에 학습 가능한 토큰 압축 (token compression) 모듈을 도입합니다. 우리는 멀티모달 토큰 압축을 top-$K$ 검색 (retrieval) 문제로 재정의합니다. 즉, 고정된 컨텍스트 예산이 주어졌을 때, 해당 모듈은 사용자 질의에 답변하는 데 가장 잘 지원되는 토큰의 압축된 부분 집합을 검색해야 합니다. 우리는 대규모 후보 풀에서 정보가 풍부한 단위를 선택하기 위한 세 가지 고전적인 정보 검색 (Information Retrieval) 기준인 관련성 (relevance), 중요도 (importance), 다양성 (diversity)에서 영감을 얻었습니다. AVOC는 각 기준을 오디오-비디오 이해를 위한 맞춤형 메커니즘으로 구현하고, 이를 통합된 검색 스타일의 압축 파이프라인으로 통합합니다. 실험 결과, AVOC는 긴 형식의 오디오-비디오 벤치마크에서 최첨단 (state-of-the-art) 성능을 달성하였으며, OmniVideoBench와 LVOmniBench에서 각각 평균 정확도 기준 2위 모델을 4.9포인트와 5.5포인트 차이로 앞질렀습니다. 또한, AVOC는 최대 1시간 길이의 오디오-비디오 Needle-in-a-Haystack 작업에서도 견고한 성능을 유지합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AVOC: 검색 기반 토큰 압축을 통한 Omni-Modal LLM의 시간 단위 오디오-비디오 이해 능력 향상

요약

핵심 포인트

댓글