기억을 어떻게 그리고 무엇을 기억해야 하는지 학습하기: 진화하는 기억에 영감을 받은 인지적 두 단계 최적화

대형 언어 모델 (LLM) 에이전트는 일관된 개인화를 위해 장기 사용자 기억이 필요하지만, 제한된 컨텍스트 윈도우는 긴 상호작용 동안 변화하는 선호도를 추적하는 것을 방해합니다. 기존 기억 시스템은 주로 정적인, 수동으로 설계된 업데이트 규칙에 의존합니다; 강화 학습 (RL)- 기반 에이전트가 기억 업데이트를 학습할 수는 있지만, 희소 결과 보상은 약한 감독을 제공하여 장기 지평 최적화가 불안정해집니다. 기억 스키마 이론과 전두엽 영역과 해마 영역 간의 기능적 분부를 바탕으로, 우리는 기억이 어떻게 조직화되어야 하고 무엇을 업데이트해야 하는지를 학습하는 인지적 두 단계 최적화 프레임워크인 MemCoE 를 소개합니다. 첫 번째 단계에서, 우리는 대비적 피드백을 텍스트 기울기로 해석하여 전역 가이드라인을 최적화하는 '기억 가이드라인 유도 (Memory Guideline Induction)'를 제안합니다; 두 번째 단계에서, 유도된 가이드라인을 사용하여 구조화된 프로세스 보상을 정의하고 가이드라인 따르는 기억 진화 정책을 학습하기 위한 다중 턴 RL 을 수행하는 '가이드라인 정렬 기억 정책 최적화 (Guideline-Aligned Memory Policy Optimization)'를 수행합니다. 우리는 명시적/암묵적 선호도와 다양한 크기 및 노이즈를 포함한 세 가지 개인화 기억 벤치마크에서 평가하였으며, 강력한 베이스라인에 비해 일관된 개선과 유리한 견고성, 전이성, 효율성을 관찰했습니다.

Insights

기억을 어떻게 그리고 무엇을 기억해야 하는지 학습하기: 진화하는 기억에 영감을 받은 인지적 두 단계 최적화

요약

핵심 포인트

댓글

AI 인프라 논쟁이 진화함에 따라 Nvidia, Vera CPU 전략 강조

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화

영국 데이터 센터 소유주, 140억 파운드 규모의 미국 기업 인수 제안 수용 예정

디지털 자산을 위한 새로운 벤치마크 지수 등장 — 비트코인은 제외되었다

Bank of America, AI 돌발 변수 이후 Micron 주식에 대한 투자 강화