옴니모달 이해를 위한 추론으로서의 네이티브 능동적 지각 (Native Active Perception)
요약
비디오 이해를 위해 POMDP 기반의 '관찰-사고-행동' 사이클을 사용하는 네이티브 옴니모달 에이전트 OmniAgent를 제안합니다. 이 모델은 필요한 정보만 선택적으로 추출하여 계산 비용을 줄이며, 테스트 시간 스케일링을 통해 성능을 향상시킵니다.
핵심 포인트
- POMDP 기반의 반복적 관찰-사고-행동 사이클 도입
- 비디오 길이에 관계없이 추론 복잡성을 분리하여 효율성 증대
- 에이전트 기반 지도 미세 조정 및 강화학습 기법 적용
- 7B 모델로 72B 모델을 능가하는 SOTA 성능 달성
긴 비디오 이해를 위한 수동적 (Passive) 모델들은 일반적으로 쿼리 난이도와 상관없이 프레임을 균일하게 처리하는 "모두 보기 (watch-it-all)" 패러다임에 의존하며, 이로 인해 계산 비용이 비디오 길이에 따라 증가하는 문제를 겪습니다. 상호작용형 프레임워크가 등장했음에도 불구하고, 이들은 종종 전역 사전 스캐닝 (global pre-scanning)에 의존하며 컨텍스트 비용이 여전히 비디오 길이에 따라 확장됩니다. 우리는 비디오 이해를 POMDP 기반의 반복적인 관찰-사고-행동 (Observation-Thought-Action) 사이클로 공식화하는 최초의 네이티브 옴니모달 에이전트인 OmniAgent를 제안합니다. OmniAgent는 온디맨드 (on-demand) 행동을 실행하여 오디오-비주얼 단서를 지속적인 텍스트 메모리로 선택적으로 추출하며, 이를 통해 추론 복잡성을 원본 비디오 길이로부터 효과적으로 분리합니다. 이를 실행하기 위해, 우리는 (1) 2단계 품질 관리를 포함한 best-of-N 궤적 합성을 통해 네이티브 능동적 지각을 부트스트랩하는 에이전트 기반 지도 미세 조정 (Agentic Supervised Fine-Tuning), 그리고 (2) 턴 수준의 엔트로피를 활용하여 신용 할당 (credit assignment)을 핵심적인 발견 턴으로 유도하는 TAURA (Turn-aware Adaptive Uncertainty Rescaled Advantage) 기반의 에이전트 강화학습 (Agentic Reinforcement Learning)을 도입합니다. 결정적으로, OmniAgent는 추론 턴 수가 증가함에 따라 성능이 향상되는 양의 테스트 시간 스케일링 (positive test-time scaling)을 보여주며, 이는 능동적 지각의 효능을 입증합니다. 10개의 벤치마크 (예: VideoMME, LVBench)에 걸친 실증적 결과는 OmniAgent가 오픈 소스 모델들 사이에서 최첨단 (state-of-the-art) 성능을 달성함을 보여줍니다. 특히 LVBench에서 우리의 7B 에이전트는 10배 더 큰 Qwen2.5-VL-72B를 능가합니다 (50.5% 대 47.3%).
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기