필요할 때만 검색: 경험 기반의 능동적 지식 검색 프레임워크
요약
기존의 온라인 평생 학습(Online lifelong learning) 에이전트들은 과거 경험을 수동적으로 활용하여, 특정 시점(예: 태스크 초기화 또는 스텝 완료 후)에만 지식을 검색하는 한계가 있었습니다. 본 논문은 이러한 문제를 해결하기 위해 'ProactAgent'라는 새로운 프레임워크를 제안합니다. ProactAgent는 구조화된 경험 기반에서 능동적으로 정보를 검색하며, 특히 'Proactive Reinforcement Learning-based Retrieval (ProactRL)'을 도입하여 검색 자체를 명시적인 정책
핵심 포인트
- ProactAgent는 경험 기반의 온라인 평생 학습 프레임워크로, 과거 지식 활용의 수동적 한계를 극복합니다.
- Experience-Enhanced Online Evolution (ExpOnEvo)를 통해 정책 업데이트와 메모리 정제(memory refinement)를 동시에 수행하며 지속적인 개선을 가능하게 합니다.
- ProactRL은 검색 과정을 명시적인 정책 액션으로 모델링하고, 쌍방향 보상(paired-branch process rewards)을 사용하여 필요한 순간에만 검색하도록 학습합니다.
- SciWorld와 AlfWorld 실험에서 ProactAgent는 각각 73.50% 및 71.28%의 성공률을 달성하며, 기존 방식 대비 높은 성능과 효율성을 입증했습니다.
Online lifelong learning enables agents to accumulate experience across interactions and continually improve on long-horizon tasks. However, existing methods typically treat retrieval from past experience as a passive operation, triggering it only at task initialization or after completing a step. Consequently, agents often fail to identify knowledge gaps during interaction and proactively retrieve the most useful experience for the current decision. To address this limitation, we present ProactAgent, an experience-driven lifelong learning framework for proactive retrieval over a structured experience base. We first introduce Experience-Enhanced Online Evolution (ExpOnEvo), which enables continual improvement through both policy updates and memory refinement. The experience base organizes historical interactions into typed repositories, including factual memory, episodic memory, and behavioral skills, so that retrieval can provide both relevant evidence and actionable guidance. On top of this, we propose Proactive Reinforcement Learning-based Retrieval (ProactRL), which models retrieval as an explicit policy action and learns when and what to retrieve via paired-branch process rewards. By comparing continuations from identical interaction prefixes with and without retrieval, ProactRL provides step-level supervision for retrieval decisions, encouraging retrieval only when it leads to better task outcomes or higher efficiency. Experiments on SciWorld, AlfWorld, and StuLife show that ProactAgent consistently improves lifelong agent performance, achieving success rates of 73.50% on SciWorld and 71.28% on AlfWorld while substantially reducing retrieval overhead, and attains performance competitive with proprietary models on StuLife.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기