본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 11:04

AEL: 에이전트 경험 학습을 통한 개방형 환경 문제 해결

요약

본 논문은 장기간의 개방형 환경(Open-Ended Environments)에서 작동하는 LLM 에이전트가 과거 경험을 효과적으로 활용하지 못하는 '상태 비저장성(stateless)' 문제를 해결하기 위해 Agent Evolving Learning (AEL) 프레임워크를 제안합니다. AEL은 두 가지 시간 척도(two-timescale)로 작동합니다. 빠른 시간 척도에서는 Thompson Sampling bandit가 최적의 메모리 검색 정책을 결정하고, 느린 시간 척도에서는 LLM 기반 반성(reflection) 메커니즘이 실패패

핵심 포인트

  • AEL은 두 가지 시간 척도를 활용하여 에이전트의 학습 능력을 향상시킵니다.
  • 빠른 시간 척도에서 Thompson Sampling bandit가 각 에피소드별 최적 메모리 검색 정책을 결정합니다.
  • 느린 시간 척도에서는 LLM 기반 반성이 실패 패턴을 진단하고 인과적 통찰(causal insights)을 프롬프트에 주입하여 에이전트의 의사결정 능력을 개선합니다.

최근 LLM (Large Language Model) 에이전트는 수백 개의 연속적인 에피소드를 포함하는 개방형 환경에서 활발하게 작동하고 있지만, 대부분 여전히 '상태 비저장성(stateless)'이라는 근본적인 한계를 안고 있습니다. 즉, 매번의 작업마다 과거 경험을 활용하여 미래 행동을 개선하기보다는 모든 것을 처음부터 다시 해결하려는 경향이 강합니다.

핵심 문제는 단순히 무엇을 기억할지(what to remember)가 아니라, **기억한 정보를 어떻게 사용할지(how to use what has been remembered)**에 있습니다. 여기에는 어떤 검색 정책(retrieval policy)을 적용해야 하는지, 이전 결과(prior outcomes)를 어떻게 해석해야 하는지, 그리고 현재의 전략 자체가 언제 바뀌어야 하는지를 결정하는 복잡성이 포함됩니다.

이러한 문제를 해결하기 위해 저희는 **Agent Evolving Learning (AEL)**이라는 두 가지 시간 척도(two-timescale) 프레임워크를 제안합니다. AEL은 다음과 같이 작동합니다:

  1. 빠른 시간 척도 (Fast Timescale): 매 에피소드마다 Thompson Sampling bandit가 어떤 메모리 검색 정책을 적용할지 실시간으로 학습하고 결정합니다.
  2. 느린 시간 척도 (Slow Timescale): LLM 기반의 반성(reflection) 메커니즘이 작동합니다. 이 모듈은 에이전트의 실패 패턴을 진단하고, 그 과정에서 얻은 인과적 통찰(causal insights)을 에이전트의 의사결정 프롬프트에 주입합니다. 이를 통해 에이전트는 검색된 증거(evidence)를 해석할 수 있는 '해석적 틀(interpretive frame)'을 갖게 됩니다.

실제 포트폴리오 벤치마크 테스트 (10개 섹터의 다양한 티커, 총 208 에피소드, 5개의 무작위 시드)에서 AEL은 샤프 비율(Sharpe ratio) 2.13$ ext{±}$0.47을 달성하며 뛰어난 성능을 보였습니다. 이는 기존에 발표된 다섯 가지의 자체 개선(self-improving) 방법론과 모든 비-LLM 기반 베이스라인을 능가하는 수치입니다. 특히, LLM 기반 접근 방식 중 가장 낮은 분산(lowest variance)을 유지했다는 점이 주목할 만합니다.

또한, 9가지 변형 제거 실험(nine-variant ablation)을 통해 '적을수록 좋다(less is more)'는 패턴을 발견했습니다. 메모리 검색과 반성 메커니즘의 조합만으로도 상태 비저장성 베이스라인 대비 누적 성능이 58% 개선되었지만, 이후 추가된 플래너 진화(planner evolution), 도구별 선택(per-tool selection), 콜드 스타트 초기화(cold-start initialization), 스킬 추출(skill extraction) 등 다른 복잡한 메커니즘들은 오히려 성능을 저하시켰습니다. 이는 에이전트의 자체 개선 병목 현상이 아키텍처적 복잡성을 추가하는 것이 아니라, 경험을 어떻게 사용할지 스스로 진단하는 능력에 있음을 강력하게 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0