본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 02. 12:22

AGENTCL: 언어 에이전트의 지속 학습 (Continual Learning)에 대한 엄격한 평가를 향하여

요약

언어 에이전트의 지속 학습(Continual Learning) 능력을 엄격하게 평가하기 위한 새로운 프레임워크 AgentCL을 제안합니다. 기존 벤치마크의 한계를 극복하기 위해 구성적 작업 스트림을 구축하고, 메모리 설계의 효과를 진단하는 MemProbe 기법을 통해 에이전트의 학습 및 재사용 능력을 분석합니다.

핵심 포인트

  • 에이전트의 지속 학습 평가를 위한 AgentCL 프레임워크 제안
  • 단순 스트림과 대비되는 통제된 구성적 작업 스트림 구축
  • 메모리 설계 진단을 위한 프로빙 방법론 MemProbe 개발
  • 가소성과 안정적 재사용 사이의 균형을 위한 메모리 설계 필요성 강조

언어 에이전트 (Language agents)는 개별 작업을 해결하는 데 상당한 추론 시간 (inference time)을 소비하지만, 한 에피소드에서 얻은 경험은 향후 에피소드에서 제대로 활용되지 못하는 경우가 많습니다. 지속 학습 (Continual learning)은 에이전트가 일련의 작업 스트림 (stream of tasks)을 통해 재사용 가능한 경험을 축적하고, 시간이 지남에 따라 성능을 개선하며, 관련 없는 경험으로부터 발생하는 간섭 (interference)을 피할 것을 기대합니다. 불행히도, 기존의 벤치마크 (benchmarks)들은 언어 에이전트의 지속 학습을 엄격하게 평가하는 데 어려움을 겪고 있습니다. 대부분의 노력은 긴 문맥 대화 (long-context conversations)나 문서에 대한 검색 (retrieval) 및 추론 (reasoning)에 집중되어 있으며, 최근의 평생 적응 (lifelong-adaptation) 벤치마크들은 작업 간 관계에 대한 분석이 제한적인 단순한 작업 스트림 (naive task streams)에 의존하는 경우가 많아, 에이전트가 시간이 지남에 따라 무엇을 학습하고 재사용하는지 이해하기 어렵게 만듭니다.

본 논문은 통제된 작업 스트림 (controlled task streams)과 전이 이득 (transfer gains)을 위한 지표를 중심으로, 에이전트의 지속 학습을 위한 평가 프레임워크인 AgentCL을 제시합니다. AGENTCL은 이전의 하위 솔루션 (sub-solutions), 증거 (evidence), 또는 워크플로 (workflows)가 이후의 작업에서 의도적으로 재사용될 수 있는 구성적 스트림 (compositional streams)을 구축하며, 이를 그러한 재사용성이 보장되지 않는 단순한 스트림 (naive streams)과 대조합니다. 우리는 이 벤치마크를 사용하여 지속 학습을 위한 비매개변수적 메모리 설계 (non-parametric memory designs)를 평가합니다. 메모리 설계 선택이 지속 학습에 어떤 영향을 미치는지 진단하기 위해, 우리는 상호작용 (interactions), 통찰 (insights), 그리고 기술 (skills)을 저장하는 동시에 통합 (consolidation) 과정에서 신뢰할 수 없는 경험을 필터링하는 프로빙 방법 (probing method)인 MemProbe를 개발합니다.

코딩 (coding), 심층 연구 (deep research), 그리고 언어 이해/추론 (language understanding/reasoning) 작업에 걸친 실증적 분석 결과, 단순한 스트림은 메모리 설계를 구별하는 능력이 제한적인 반면, 통제된 스트림은 메모리의 가소성 (plasticity)을 더 명확하게 구별해낸다는 것을 보여줍니다. 한편, 단순한 설정 (naive settings)과 홀드아웃 설정 (held-out settings)은 종종 제한적인 이득만을 제공하며, 메모리로 인한 성능 저하 (memory-induced degradation)를 노출할 수 있습니다. 이러한 결과는 가소성 (plasticity)과 안정적인 재사용 (stable reuse) 사이의 균형을 맞추는 더 강력한 메모리 설계의 필요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0