Auto-Dreamer: 언어 에이전트를 위한 오프라인 메모리 공고화 학습

언어 에이전트 (Language agents)는 점점 더 연관된 작업들의 스트림 위에서 작동하고 있지만, 기존의 메모리 시스템은 축적된 경험을 재사용 가능한 지식으로 변환하는 데 어려움을 겪고 있습니다. 검색 증강 (Retrieval-augmented) 및 구조화된 메모리 방식은 세션별 관찰 내용을 효과적으로 기록하지만, 종종 습득 (acquisition)과 공고화 (consolidation)를 단일한 온라인 프로세스로 결합하여, 에이전트가 반복되는 패턴을 발견하거나, 추상화된 공유 절차를 도출하거나, 중복된 항목을 제거할 수 있는 세션 간의 전역적 관점 (global view)을 갖지 못하게 만듭니다. 상보적 학습 시스템 이론 (complementary learning systems theory)에서 영감을 받아, 우리는 언어 에이전트 메모리를 위한 학습된 오프라인 공고화 도구인 Auto-Dreamer를 제안합니다. Auto-Dreamer는 빠른 세션별 메모리 습득과 느린 세션 간 공고화를 분리합니다. 타입화된 메모리 뱅크 (memory bank)의 선택된 작업 영역이 주어지면, 공고화 도구는 해당 영역을 읽기 전용 증거로 취급하고, 항목 및 출처가 연결된 소스 궤적 (source trajectories)을 조사하기 위해 제한된 도구 사용 (tool-use)을 수행하며, 세션 전반에 걸쳐 추상화되고 기존 영역을 대체하는 새로운 압축된 교체 세트를 합성합니다. 우리는 빠른 온라인 경험을 통해 습득된 메모리를 어떻게 공고화할지 학습하기 위해, 엔드 투 엔드 (end-to-end) 에이전트 성능을 보상 신호로 사용하는 GRPO를 통해 Auto-Dreamer를 훈련합니다. ScienceWorld 궤적만으로 학습된 Auto-Dreamer는 ScienceWorld에서 가장 강력한 베이스라인보다 12배 더 작은 활성 메모리 뱅크를 사용하면서도 고정형, RL 훈련형 및 프롬프트 기반 메모리 베이스라인보다 7포인트 높은 성능을 기록했으며, 재학습 없이도 별도의 ALFWorld 및 WebArena에서 계속해서 우위를 점했습니다. ALFWorld에서는 가장 강력한 베이스라인보다 6배 적은 메모리를 사용했습니다.

Insights

Auto-Dreamer: 언어 에이전트를 위한 오프라인 메모리 공고화 학습

요약

핵심 포인트

댓글

자기 진화 AI 에이전트에 대한 종합 조사: 파운데이션 모델과 평생 에이전트 시스템을 연결하는 새로운 패러다임

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.