arXiv논문2026. 06. 09. 11:51

H2HMem: 인간 간 상호작용 내 에이전트를 위한 멀티모달 메모리 벤치마크

요약

인간 간 상호작용 환경에서 LLM 에이전트의 멀티모달 메모리 능력을 평가하기 위한 새로운 벤치마크인 H2HMem을 소개합니다. 기존 텍스트 중심 벤치마크의 한계를 넘어, 복잡한 대화와 멀티모달 정보를 포함한 다자간 상호작용에서의 메모리 회상 및 추론 능력을 측정합니다.

핵심 포인트

인간 간 상호작용을 위한 멀티모달 메모리 벤치마크 H2HMem 제안
대용어, 지시어, 비동기적 정보 등 복잡한 담화 현상 반영
메모리 회상, 추론, 응용의 세 가지 차원에서 에이전트 평가
기존 LLM 에이전트의 멀티모달 메모리 유지 및 활용 한계 확인

대규모 언어 모델 (LLM) 에이전트들은 회의 보조 도구나 임상 기록 시스템과 같이, 대화를 관찰하고 후속 질의를 위해 정보를 유지해야 하는 인간 간 상호작용 (human-human interaction) 환경에 점점 더 많이 배치되고 있습니다. 기존의 인간-보조자 (human-assistant) 설정과 달리, 이러한 환경은 본질적으로 멀티모달 (multimodal)이며, 대용어 (anaphora) 및 지시 (deixis)와 같은 복잡한 담화 현상을 포함하고, 여러 참여자로부터 발생하는 비동기적 또는 상충되는 정보를 포함합니다. 그러나 기존의 메모리 벤치마크 (memory benchmarks)는 주로 단일 사용자, 텍스트 전용 상호작용에 집중되어 있어 이러한 도전 과제들을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 복잡한 인간 간 상호작용에서의 메모리 능력을 평가하기 위한 인간 대 인간 멀티모달 메모리 벤치마크인 H2HMem을 소개합니다. H2HMem은 멀티모달 정보 스트림을 포함하는 이자적 (dyadic) 및 다자간 (multi-party) 대화를 모두 포함하며, 에이전트를 메모리 회상 (memory recall), 추론 (reasoning), 응용 (application)의 세 가지 차원에서 평가합니다. 고도화된 에이전트들을 대상으로 한 실험 결과, 모달리티 (modalities), 참여자, 세션 전반에 걸쳐 메모리를 구축, 유지 및 활용하는 데 있어 상당한 한계가 있음이 드러났으며, 이는 차세대 LLM 에이전트의 개선 여지가 매우 크다는 점을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

H2HMem: 인간 간 상호작용 내 에이전트를 위한 멀티모달 메모리 벤치마크

요약

핵심 포인트

댓글