본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:58

Auto-Dreamer: 언어 에이전트를 위한 오프라인 메모리 공고화 학습

요약

Auto-Dreamer는 언어 에이전트가 세션별 경험을 재사용 가능한 지식으로 변환할 수 있도록 돕는 오프라인 메모리 공고화 학습 프레임워크입니다. 상보적 학습 시스템 이론을 바탕으로 빠른 온라인 습득과 느린 오프라인 공고화를 분리하여, 에이전트가 반복되는 패턴을 발견하고 추상화된 지식을 생성하도록 설계되었습니다. GRPO를 통해 훈련된 이 방식은 기존 베이스라인 대비 훨씬 적은 메모리를 사용하면서도 ScienceWorld, ALFWorld, WebArena 등 다양한 환경에서 뛰어난 성능을 입증했습니다.

핵심 포인트

  • 온라인 습득(Acquisition)과 오프라인 공고화(Consolidation) 프로세스를 분리하여 메모리 효율성 극대화
  • 상보적 학습 시스템 이론을 적용하여 세션 간 전역적 관점에서의 지식 추상화 및 중복 제거 수행
  • GRPO(Group Relative Policy Optimization)를 사용하여 에이전트의 엔드 투 엔드 성능을 보상 신호로 활용한 훈련
  • 기존 베이스라인 대비 메모리 사용량을 대폭 줄이면서도(최대 12배) 높은 성능 유지 및 제로샷 전이 능력 확인

언어 에이전트 (Language agents)는 점점 더 연관된 작업들의 스트림 위에서 작동하고 있지만, 기존의 메모리 시스템은 축적된 경험을 재사용 가능한 지식으로 변환하는 데 어려움을 겪고 있습니다. 검색 증강 (Retrieval-augmented) 및 구조화된 메모리 방식은 세션별 관찰 내용을 효과적으로 기록하지만, 종종 습득 (acquisition)과 공고화 (consolidation)를 단일한 온라인 프로세스로 결합하여, 에이전트가 반복되는 패턴을 발견하거나, 추상화된 공유 절차를 도출하거나, 중복된 항목을 제거할 수 있는 세션 간의 전역적 관점 (global view)을 갖지 못하게 만듭니다. 상보적 학습 시스템 이론 (complementary learning systems theory)에서 영감을 받아, 우리는 언어 에이전트 메모리를 위한 학습된 오프라인 공고화 도구인 Auto-Dreamer를 제안합니다. Auto-Dreamer는 빠른 세션별 메모리 습득과 느린 세션 간 공고화를 분리합니다. 타입화된 메모리 뱅크 (memory bank)의 선택된 작업 영역이 주어지면, 공고화 도구는 해당 영역을 읽기 전용 증거로 취급하고, 항목 및 출처가 연결된 소스 궤적 (source trajectories)을 조사하기 위해 제한된 도구 사용 (tool-use)을 수행하며, 세션 전반에 걸쳐 추상화되고 기존 영역을 대체하는 새로운 압축된 교체 세트를 합성합니다. 우리는 빠른 온라인 경험을 통해 습득된 메모리를 어떻게 공고화할지 학습하기 위해, 엔드 투 엔드 (end-to-end) 에이전트 성능을 보상 신호로 사용하는 GRPO를 통해 Auto-Dreamer를 훈련합니다. ScienceWorld 궤적만으로 학습된 Auto-Dreamer는 ScienceWorld에서 가장 강력한 베이스라인보다 12배 더 작은 활성 메모리 뱅크를 사용하면서도 고정형, RL 훈련형 및 프롬프트 기반 메모리 베이스라인보다 7포인트 높은 성능을 기록했으며, 재학습 없이도 별도의 ALFWorld 및 WebArena에서 계속해서 우위를 점했습니다. ALFWorld에서는 가장 강력한 베이스라인보다 6배 적은 메모리를 사용했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0