arXiv논문2026. 06. 08. 10:32

M$^3$Exam: 현실적인 사용자-에이전트 상호작용을 위한 멀티모달 메모리 벤치마킹

요약

현실적인 사용자-에이전트 상호작용을 평가하기 위한 멀티모달 메모리 벤치마크인 M³Exam을 소개합니다. 기존 벤치마크의 한계를 넘어 교차 모달 접지와 암시적 정보 추론 능력을 다차원적으로 평가하며, 효율적인 메모리 방법론인 M³Proctor를 함께 제안합니다.

핵심 포인트

현실적 상호작용 기반의 멀티모달 메모리 벤치마크 M³Exam 제안
교차 모달 접지 및 세션 간 추론 능력의 격차 확인
정확도를 13% 향상시킨 M³Proctor 방법론 제시
인덱스 구축 시간 및 검색 토큰 70% 이상 절감

언어 에이전트(Language agents)가 축적되는 멀티모달(Multimodal) 정보 위에서 점점 더 많이 배포되고 있지만, 기존의 벤치마크들은 시각 정보가 희소하고 내용이 단순한 인간 대 인간(human-human) 형태를 가정하고 있어, 실제적인 멀티모달 파일 상호작용에 대한 추론이나 숨겨진 사용자 정보의 해석을 평가하지 못합니다. 따라서 우리는 현실적인 사용자-에이전트(user-agent) 상호작용을 기반으로 구축되었으며, 교차 모달 접지(cross-modal grounding)와 암시적 정보 추론(implicit information inference)을 아우르는 다차원적 평가를 포함하는 질의 중심의 멀티모달 대화 메모리 벤치마크인 M$^3$Exam을 소개합니다. 멀티모달 거대언어모델(MLLMs)과 메모리 시스템을 벤치마킹한 결과, 교차 모달 접지(cross-modal grounding), 세션 간 추론(cross session reasoning), 그리고 멀티모달 컨텍스트(multimodal context) 축적에 따른 효율성 비용 측면에서 지속적인 격차가 있음이 드러났습니다. 우리는 더 나아가 질의 모달리티 편향(query modality bias)을 탐지하고 필요할 때만 원시 시각 소스(raw visual sources)를 소비하는 멀티모달 메모리 방법론인 M$^3$Proctor를 제안하며, 이를 통해 정확도를 13% 향상시키는 동시에 인덱스 구축 시간과 검색된 토큰(retrieved tokens)을 70% 이상 절감했습니다.

AI 자동 생성 콘텐츠

원문 바로가기

M$^3$Exam: 현실적인 사용자-에이전트 상호작용을 위한 멀티모달 메모리 벤치마킹

요약

핵심 포인트

댓글