본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 04. 19:40

기억을 어떻게 그리고 무엇을 기억해야 하는지 학습하기: 진화하는 기억에 영감을 받은 인지적 두 단계 최적화

요약

본 논문은 LLM 에이전트가 장기 상호작용 동안 변화하는 사용자 선호도를 효과적으로 추적하기 위한 새로운 인지적 기억 최적화 프레임워크인 MemCoE를 제안합니다. 기존의 정적인 기억 시스템과 불안정한 RL 기반 접근 방식의 한계를 극복하고자 합니다. MemCoE는 '기억 가이드라인 유도' 단계에서 전역 지침을 학습하고, 이를 바탕으로 '가이드라인 정렬 기억 정책 최적화' 단계를 통해 일관성 있게 진화하는 기억 업데이트 정책을 학습합니다.

핵심 포인트

  • LLM 에이전트의 장기 개인화를 위해 변화하는 사용자 선호도를 추적할 수 있는 새로운 메모리 시스템(MemCoE)을 제안함.
  • MemCoE는 두 단계 최적화 프레임워크를 사용: 1단계에서 전역 기억 가이드라인을 유도하고, 2단계에서 이 가이드라인에 맞춰 기억 업데이트 정책을 학습함.
  • 기존의 정적인 규칙이나 불안정한 RL 보상 방식보다 더 안정적이고 일관된 장기 지평 최적화를 달성함을 입증함.
  • 명시적/암묵적 선호도를 포함한 다양한 벤치마크에서 강력한 성능 개선, 견고성, 전이성을 보여줌.

대형 언어 모델 (LLM) 에이전트는 일관된 개인화를 위해 장기 사용자 기억이 필요하지만, 제한된 컨텍스트 윈도우는 긴 상호작용 동안 변화하는 선호도를 추적하는 것을 방해합니다. 기존 기억 시스템은 주로 정적인, 수동으로 설계된 업데이트 규칙에 의존합니다; 강화 학습 (RL)- 기반 에이전트가 기억 업데이트를 학습할 수는 있지만, 희소 결과 보상은 약한 감독을 제공하여 장기 지평 최적화가 불안정해집니다. 기억 스키마 이론과 전두엽 영역과 해마 영역 간의 기능적 분부를 바탕으로, 우리는 기억이 어떻게 조직화되어야 하고 무엇을 업데이트해야 하는지를 학습하는 인지적 두 단계 최적화 프레임워크인 MemCoE 를 소개합니다. 첫 번째 단계에서, 우리는 대비적 피드백을 텍스트 기울기로 해석하여 전역 가이드라인을 최적화하는 '기억 가이드라인 유도 (Memory Guideline Induction)'를 제안합니다; 두 번째 단계에서, 유도된 가이드라인을 사용하여 구조화된 프로세스 보상을 정의하고 가이드라인 따르는 기억 진화 정책을 학습하기 위한 다중 턴 RL 을 수행하는 '가이드라인 정렬 기억 정책 최적화 (Guideline-Aligned Memory Policy Optimization)'를 수행합니다. 우리는 명시적/암묵적 선호도와 다양한 크기 및 노이즈를 포함한 세 가지 개인화 기억 벤치마크에서 평가하였으며, 강력한 베이스라인에 비해 일관된 개선과 유리한 견고성, 전이성, 효율성을 관찰했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0