본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:57

MemGym: LLM 에이전트를 위한 장기적 관점의 메모리 환경

요약

MemGym은 LLM 에이전트가 장기적인 과업을 수행할 때 필수적인 동적 메모리 형성 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 기존 벤치마크가 개인화된 정보 유지에 치중했던 것과 달리, MemGym은 도구 사용, 심층 연구, 코딩, 컴퓨터 사용 등 실제적인 에이전트 환경을 포괄합니다. 특히 메모리 성능을 추론, 검색, 도구 사용 능력과 분리하여 측정함으로써 메모리 전략의 순수 효과를 정밀하게 평가할 수 있습니다.

핵심 포인트

  • 기존 메모리 벤치마크의 한계인 '동적 메모리 형성 과정' 간과 문제를 해결하기 위해 설계됨
  • 도구 사용, 심층 연구, 코딩, 컴퓨터 사용 등 4가지 에이전트 체제를 아우르는 5가지 평가 트랙 제공
  • 추론, 검색, 도구 사용 능력과 메모리 성능을 분리하여 측정하는 '메모리 고립 점수' 도입
  • 코딩 환경 평가의 효율성을 위해 QLoRA로 미세 조정된 경량 보상 모델 MemRM(Qwen3-1.7B 기반) 활용

메모리는 장기적 관점의 과업 (long-horizon tasks)을 수행하는 LLM 에이전트에게 핵심적인 능력입니다. 기존의 메모리 벤치마크는 주로 다회차 채팅 시나리오에서 개인화된 정보의 유지 능력을 평가하며, 에이전트의 장기 실행 과정에서 발생하는 동적인 메모리 형성 과정을 간과하고 있습니다. 결과적으로, 이러한 벤치마크를 통해 생성된 메모리 시스템은 코딩이나 웹 탐색과 같은 실제적인 에이전트 환경 (agentic environments)으로의 전이가 잘 이루어지지 않습니다. 우리는 기존의 에이전트 짐 (agent gyms)과 자체적인 메모리 기반 파이프라인을 하나의 메모리 추론 인터페이스로 통합한 에이전트 메모리용 벤치마크인 MemGym을 제시합니다. MemGym은 네 가지 에이전트 체제 (agentic regimes)로 그룹화된 다섯 가지 평가 트랙을 아우릅니다: 도구 사용 대화 (tool-use dialogue, tau2-bench), 다회차 심층 연구 검색 (multi-turn deep-research search, MEMGYM-DR), 코딩 (coding, SWE-Gym 및 MEMGYM-CODEQA), 그리고 컴퓨터 사용 (computer use, WebArena-Infinity). MemGym은 메모리 성능을 추론 (reasoning), 검색 (retrieval), 도구 사용 (tool-use) 능력과 분리하여 메모리 고립 점수 (memory-isolated scores)를 보고하므로, 이러한 혼란 변수 (confounders) 없이 메모리 전략의 순위를 매길 수 있습니다. MEMGYM-CODEQA 및 MEMGYM-DR을 위한 우리의 합성 파이프라인 (synthetic pipelines)은 길이를 조절할 수 있고, 모든 단계에서 어블레이션 검증 (ablation-verified)을 거쳤으며, 다운스트림 시나리오와 밀접하게 정렬되어 있습니다. 코딩 환경에서의 평가를 학술적으로 다루기 용이하게 만들기 위해, 우리는 전체 Docker 롤아웃 (rollouts)을 대신하여 압축 품질을 빠른 스칼라 값으로 읽어 점수를 매기는 경량 보상 모델 (reward model)인 MemRM (QLoRA로 미세 조정된 Qwen3-1.7B)을 학습시켰습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0