arXiv논문2026. 06. 29. 11:28

DMV-Bench: 부수적 단서 주입을 통한 장기 시계열 멀티모달 에이전트의 시각적 메모리 진단

요약

멀티모달 에이전트의 시각적 메모리 능력을 진단하기 위한 최초의 상호작용형 벤치마크인 DMV-Bench를 소개합니다. 이 벤치마크는 텍스트가 아닌 픽셀 기반의 단서를 통해 시각적 회상 능력을 측정하며, 제안된 DualMem 아키텍처는 기존 모델보다 뛰어난 성능을 입증했습니다.

핵심 포인트

시각적 메모리 진단을 위한 새로운 벤치마크 DMV-Bench 제안
텍스트 유출을 방지하고 픽셀 기반의 부수적 단서 활용
이중 부호화 이론 기반의 DualMem 메모리 아키텍처 제안
Gemini 2.5 Flash 및 Qwen2.5-VL-7B에서 기존 모델 대비 우수한 성능 확인

에이전트 메모리(agent memory)에 대한 연구는 빠르게 성숙해 왔으나, 거의 전적으로 텍스트 측면에만 집중되어 있습니다. 즉, 상호작용 환경에서 에이전트가 단순히 기록할 수 있는 내용이 아니라, 실제로 본 것을 기억해야 하는 상황을 요구하는 벤치마크는 거의 존재하지 않습니다. 우리는 멀티모달 에이전트(multimodal-agent)의 시각적 메모리를 위한 최초의 상호작용형 벤치마크인 DMV-Bench (Code: https://github.com/yyyujintang/DMV-Bench)를 소개합니다. DMV-Bench는 1,000개의 제품 변형이 포함된 통제된 가구 이커머스 카탈로그를 기반으로 구축되었으며, 여기에는 텍스트 유출 방지 계약(text-leakage contract)이 적용되어 각 작업의 판별 신호가 오직 픽셀(pixels)에만 존재하도록 유지됩니다. 일련의 자율 쇼핑 세션 전반에 걸쳐, 방문한 모든 제품 이미지에는 고유하게 사전 렌더링된 부수적 단서(incidental cue)가 포함되어 있으며, 에이전트는 나중에 특정 단서가 포함된 제품을 회상하고 해당 URL로 이동하도록 요청받습니다. 이중 부호화 이론(dual-coding theory)에서 영감을 받아, 우리는 시각적 코드(visual code)와 언어적 코드(verbal code)를 병렬로 유지하는 메모리 아키텍처인 DualMem을 제안합니다. DMV-Bench에서 DualMem은 Gemini 2.5 Flash와 Qwen2.5-VL-7B 모두에서 체인 길이 J가 {5, 10, 15, 50}인 모든 경우에 대해 캡션 베이스라인(caption baseline) 및 최근의 세 가지 멀티모달 에이전트 메모리 시스템보다 뛰어난 성능을 보였습니다. 이러한 우위는 메모리 뱅크(memory-bank) 크기와 인코딩 위치 편향(encoding-position bias)에 대한 통제 하에서도 유지되었으며, 시각 정보가 엔드투엔드(end-to-end)로 단서를 전달하고 언어 채널은 더 작은 쿼리 접지(query-grounding) 역할을 수행하는 비대칭 이중 부호화 체제(asymmetric dual-coding regime)를 통해 달성되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

DMV-Bench: 부수적 단서 주입을 통한 장기 시계열 멀티모달 에이전트의 시각적 메모리 진단

요약

핵심 포인트

댓글