본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 11:20

MemDreamer: 계층적 그래프 메모리 및 에이전트 기반 검색 메커니즘을 통한 긴 비디오 이해를 위한 인지 및 추론의 분리

요약

MemDreamer는 긴 비디오 이해를 위해 인지와 추론을 분리한 새로운 프레임워크를 제안합니다. 계층적 그래프 메모리와 에이전트 기반 검색을 통해 토큰 폭발 문제를 해결하며, 주요 벤치마크에서 SOTA 성능을 달성했습니다.

핵심 포인트

  • 인지와 추론을 분리하여 긴 비디오 처리 효율성 극대화
  • 계층적 그래프 메모리를 통한 시공간적/인과적 관계 포착
  • 에이전트 기반 도구 증강 검색(ORA 루프) 활용
  • 추론 컨텍스트 창을 2%로 제한하면서도 정확도 12.5점 향상
  • 에이전트 역량 확장이 멀티모달 이해의 핵심임을 입증

현재의 시각-언어 모델 (Vision-Language Models, VLM)은 전체 길이의 시각적 시퀀스를 처리할 때 발생하는 과도한 토큰 폭발 (token explosion) 및 어텐션 희석 (attention dilution) 문제로 인해 몇 시간 길이의 비디오를 처리하는 데 어려움을 겪고 있습니다. 이를 극복하기 위해, 우리는 인지 (perception)와 추론 (reasoning)을 분리하여 긴 비디오 이해를 에이전트 기반 탐색 과정으로 전환하는 MemDreamer를 소개합니다. 플러그 앤 플레이 (plug-and-play) 프레임워크로서, 이는 비디오를 점진적으로 스트리밍하여 계층적 그래프 메모리 (Hierarchical Graph Memory)를 구축합니다. 이 메모리는 시공간적 및 인과적 관계를 포착하는 기초 그래프를 중심으로 하는 의미론적 추상화를 위한 하향식 3단계 구조입니다. 추론 과정에서 추론 모델은 에이전트 기반 도구 증강 검색 (agentic tool-augmented retrieval)을 사용하여 관찰-추론-행동 (Observation-Reason-Action) 루프를 통해 계층 구조를 탐색하고, 노드를 검색하며, 논리적 엣지 (logical edges)를 통과합니다. 실험 결과, MemDreamer는 4개의 주요 벤치마크에서 SOTA (State-of-the-Art) 결과를 달성하였으며, 인간 전문가와의 격차를 단 3.7점 차이로 좁혔습니다. 이 모델은 전체 컨텍스트를 수용하는 대신 추론 컨텍스트 창 (reasoning context window)을 단 2%로 제한하면서도 12.5점의 절대 정확도 향상을 제공합니다. 또한, 통계적 분석을 통해 VLM의 논리 추론 성능과 긴 비디오 이해 벤치마크 성능 사이에 강력한 양의 선형 상관관계가 있음을 발견하였으며, 이는 에이전트 역량 확장 (agentic capability scaling)이 멀티모달 이해를 위한 새로운 패러다임임을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0