arXiv논문2026. 05. 29. 12:55

장기적 관점의 LLM 에이전트를 위한 메타 인지적 메모리 정책 최적화 (Meta-Cognitive Memory Policy

요약

장기적 과제 수행 시 발생하는 LLM 에이전트의 메모리 품질 저하 문제를 해결하기 위한 새로운 학습 방식을 제안합니다. 믿음 엔트로피(Belief Entropy)를 도입하여 메모리 요약 과정에서의 불확실성을 관리하는 MMPO 방법론을 통해 장기 추론 성능을 크게 향상시켰습니다.

핵심 포인트

기존 결과 기반 강화학습의 메모리 품질 국지화 실패 문제 지적
믿음 엔트로피를 통한 자기 지도 프록시 도입
MMPO를 통한 인식론적 불확실성 유도 요약 처벌
1.75M 토큰 확장 시에도 97.1%의 높은 성능 유지

메모리 증강 LLM 에이전트(Memory-augmented LLM agents)는 상호작용 궤적(interaction trajectories)을 압축된 메모리로 재귀적으로 요약함으로써 복잡한 장기적(long-horizon) 과제를 해결합니다. 그러나 기존 방식들은 일반적으로 결과 기반 강화학습(outcome-based reinforcement learning)을 사용하여 이러한 메모리 정책을 학습하며, 이로 인해 중간 단계의 메모리 품질이 어디에서 저하되는지 국지화(localize)하는 데 실패합니다. 상호작용이 전개됨에 따라, 모호한 재귀적 요약은 과제 관련 정보를 점진적으로 폐기하고 의미론적 노이즈(semantic noise)를 유입시킵니다. 이는 믿음 편차(belief deviation)를 악화시켜, 잠재적 과제 상태(latent task state)에 대한 에이전트의 추정치를 흐리고 궁극적으로 장기적 추론을 탈선시킵니다.

따라서 우리는 메모리 최적화가 단순히 궤적 수준의 성공에만 집중할 것이 아니라, 중간 요약에 의해 유도되는 믿음(belief)의 명확성에 초점을 맞춰야 한다고 주장합니다. 이를 위해 우리는 모델이 현재 메모리를 바탕으로 잠재적 과제 상태에 대해 얼마나 불확실성을 유지하는지 조사하는 자기 지도 프록시(self-supervised proxy)인 믿음 엔트로피(Belief Entropy)를 도입합니다. 이 프록시를 기반으로, 우리는 메타 인지적 메모리 정책 최적화(Metacognitive Memory Policy Optimization, MMPO)를 제안합니다. MMPO는 희소한 결과 기반 신호에만 의존하는 대신, 높은 인식론적 불확실성(epistemic uncertainty)을 유도하는 요약을 명시적으로 처벌함으로써 미세하고 메모리 특화된 감독(supervision)을 제공합니다. 실험 결과, MMPO는 다양한 장기적 과제에서 기존 방법들을 일관되게 능가하며, 1.75M 토큰 컨텍스트로 확장했을 때도 97.1%의 성능을 유지함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

장기적 관점의 LLM 에이전트를 위한 메타 인지적 메모리 정책 최적화 (Meta-Cognitive Memory Policy

요약

핵심 포인트

댓글