EgoMemReason: 장기 시점 자기 중심 비디오 이해를 위한 메모리 기반 추론 벤치마크

스마트 글래스, 체화된 에이전트(embodied agents), 항상 작동하는 라이프 로깅 시스템과 같은 차세대 비주얼 어시스턴트는 하루 또는 그 이상의 연속적인 시각적 경험에 걸쳐 추론해야 합니다. 초장기 비디오 환경에서는 관련 정보가 시간이나 날짜에 걸쳐 희소하게 분포되어 있어, 메모리가 근본적인 과제가 됩니다: 모델은 시간에 걸쳐 정보를 축적하고, 이전 상태를 회상하며, 시간적 순서를 추적하고, 반복되는 패턴을 추상화해야 합니다. 그러나 기존의 주간 비디오 벤치마크는 여러 날에 걸쳐 증거를 통합하는 것을 요구하는 추론보다는, 순간 위치 파악(moment localization)이나 전역 요약(global summarization)과 같은 지각 및 인식(perception and recognition)을 위해 주로 설계되었습니다. 이를 해결하기 위해

우리는 MLLM 및 에이전트 프레임워크 전반에 걸쳐 17가지 방법론으로 EgoMemReason을 평가했으며, 최고 성능의 모델조차 전체 정확도 39.6%만을 달성하는 것을 밝혀냈습니다. 추가 분석 결과, 세 가지 메모리 유형은 각기 다른 이유로 실패하며, 증거가 더 긴 시간적 범위(temporal horizons)에 걸쳐 펼쳐질수록 성능이 저하되는 것으로 나타나 장기 시점 기억(long-horizon memory)이 아직 해결되지 않았음을 보여줍니다. 우리는 EgoMemReason이 장문맥(long-context), 메모리 인식 멀티모달 시스템을 평가하고 발전시키는 강력한 기반을 마련했다고 믿습니다.

Insights

EgoMemReason: 장기 시점 자기 중심 비디오 이해를 위한 메모리 기반 추론 벤치마크

요약

핵심 포인트

댓글

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AT&T, 번들 상품 수요 증가로 신규 무선 가입자 목표치 상회

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AT&T, 번들 상품 수요 증가로 신규 무선 가입자 목표치 상회