arXiv논문2026. 06. 08. 11:20

MemDreamer: 계층적 그래프 메모리 및 에이전트 기반 검색 메커니즘을 통한 긴 비디오 이해를 위한 인지 및 추론의 분리

요약

MemDreamer는 긴 비디오 이해를 위해 인지와 추론을 분리한 새로운 프레임워크를 제안합니다. 계층적 그래프 메모리와 에이전트 기반 검색을 통해 토큰 폭발 문제를 해결하며, 주요 벤치마크에서 SOTA 성능을 달성했습니다.

핵심 포인트

인지와 추론을 분리하여 긴 비디오 처리 효율성 극대화
계층적 그래프 메모리를 통한 시공간적/인과적 관계 포착
에이전트 기반 도구 증강 검색(ORA 루프) 활용
추론 컨텍스트 창을 2%로 제한하면서도 정확도 12.5점 향상
에이전트 역량 확장이 멀티모달 이해의 핵심임을 입증

현재의 시각-언어 모델 (Vision-Language Models, VLM)은 전체 길이의 시각적 시퀀스를 처리할 때 발생하는 과도한 토큰 폭발 (token explosion) 및 어텐션 희석 (attention dilution) 문제로 인해 몇 시간 길이의 비디오를 처리하는 데 어려움을 겪고 있습니다. 이를 극복하기 위해, 우리는 인지 (perception)와 추론 (reasoning)을 분리하여 긴 비디오 이해를 에이전트 기반 탐색 과정으로 전환하는 MemDreamer를 소개합니다. 플러그 앤 플레이 (plug-and-play) 프레임워크로서, 이는 비디오를 점진적으로 스트리밍하여 계층적 그래프 메모리 (Hierarchical Graph Memory)를 구축합니다. 이 메모리는 시공간적 및 인과적 관계를 포착하는 기초 그래프를 중심으로 하는 의미론적 추상화를 위한 하향식 3단계 구조입니다. 추론 과정에서 추론 모델은 에이전트 기반 도구 증강 검색 (agentic tool-augmented retrieval)을 사용하여 관찰-추론-행동 (Observation-Reason-Action) 루프를 통해 계층 구조를 탐색하고, 노드를 검색하며, 논리적 엣지 (logical edges)를 통과합니다. 실험 결과, MemDreamer는 4개의 주요 벤치마크에서 SOTA (State-of-the-Art) 결과를 달성하였으며, 인간 전문가와의 격차를 단 3.7점 차이로 좁혔습니다. 이 모델은 전체 컨텍스트를 수용하는 대신 추론 컨텍스트 창 (reasoning context window)을 단 2%로 제한하면서도 12.5점의 절대 정확도 향상을 제공합니다. 또한, 통계적 분석을 통해 VLM의 논리 추론 성능과 긴 비디오 이해 벤치마크 성능 사이에 강력한 양의 선형 상관관계가 있음을 발견하였으며, 이는 에이전트 역량 확장 (agentic capability scaling)이 멀티모달 이해를 위한 새로운 패러다임임을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

MemDreamer: 계층적 그래프 메모리 및 에이전트 기반 검색 메커니즘을 통한 긴 비디오 이해를 위한 인지 및 추론의 분리

요약

핵심 포인트

댓글