arXiv논문2026. 06. 15. 03:48

EvoArena: 동적 환경에서 견고한 LLM 에이전트를 위한 메모리 진화 추적

요약

본 논문은 정적 환경에 국한된 기존 LLM 에이전트 평가의 한계를 지적하며, 동적인 환경 변화를 모델링하는 새로운 벤치마크 EvoArena를 제안합니다. 또한, 메모리 진화를 구조화된 업데이트 히스토리로 기록하는 패치 기반 메모리 시스템인 EvoMem을 개발했습니다. 실험 결과, EvoMem은 기존 에이전트 대비 다양한 표준 벤치마크에서 성능 향상을 입증하며, 동적 환경에서의 에이전트 신뢰성을 높이는 데 기여함을 보여줍니다.

핵심 포인트

EvoArena: 동적인 환경 변화를 모델링하는 새로운 LLM 벤치마크 스위트
EvoMem: 메모리 진화를 패치 기반의 업데이트 히스토리로 기록하는 방법론 제시
EvoMem은 표준 벤치마크에서 평균적으로 높은 성능 향상을 보임
동적 환경에서의 에이전트 평가 및 메모리 모델링의 중요성 강조

대규모 언어 모델 (LLM) 에이전트는 광범위한 벤치마크에서 강력한 성능을 달성했지만, 대부분의 평가는 정적인 환경을 가정합니다. 반면, 실제 세계 배포는 본질적으로 동적이어서, 에이전트가 변화하는 환경과 업데이트된 작업 조건에 맞춰 지식, 기술 및 행동을 지속적으로 조정해야 합니다. 이러한 격차를 해소하기 위해, 우리는 EvoArena라는 벤치마크 스위트를 소개합니다. 이 스위트는 터미널, 소프트웨어, 사회적 영역 전반에 걸쳐 점진적인 업데이트 시퀀스로 환경 변화를 모델링합니다. 나아가, 우리는 메모리 진화를 구조화된 업데이트 히스토리로 기록하는 패치 기반의 메모리 패러다임인 EvoMem을 제안합니다. 이를 통해 에이전트는 자신의 메모리 내 변화를 통해 환경적 진화에 대해 추론할 수 있게 됩니다. 실험 결과는 현재 에이전트들이 EvoArena에서 어려움을 겪으며, 진화하는 터미널, 소프트웨어 및 사회적 선호도 영역 전반에 걸쳐 평균 정확도 39.6%를 달성했음을 보여줍니다. EvoMem은 일관되게 성능을 개선하여, EvoArena에서 평균 1.5%의 이득을 얻었으며, GAIA나 LoCoMo와 같은 표준 벤치마크에서도 각각 6.1%, 4.8%의 향상을 보였습니다. 개별 작업을 넘어, EvoMem은 연속적인 관련 진화 하위 작업 시퀀스를 완료해야 하는 EvoArena에서 체인 레벨 정확도를 3.7% 더 개선합니다. 메커니즘 분석에 따르면, EvoMem은 메모리 내 증거 포착을 개선하여 완전한 진화하는 환경 상태의 보존이 더 잘 이루어짐을 나타냅니다. 우리의 결과는 신뢰할 수 있는 에이전트 배포를 위해 평가와 메모리 모두에서 진화를 모델링하는 것의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

EvoArena: 동적 환경에서 견고한 LLM 에이전트를 위한 메모리 진화 추적

요약

핵심 포인트

댓글