본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 08. 10:33

Tree-of-Experience: 저반복 및 암시적 보상 환경에서 자가 진화하는 에이전트를 위한 구조화된 경험 관리 솔루션

요약

저반복 작업과 암시적 보상 환경에서 자가 진화하는 에이전트를 위한 새로운 방법론인 Tree-of-Experience(ToE)를 제안합니다. 금융 감성 예측 벤치마크인 FinEvolveBench를 통해 ToE가 구조화된 경험 관리의 중요성을 입증했음을 보여줍니다.

핵심 포인트

  • 저반복 및 암시적 보상 환경에서의 에이전트 자가 진화 연구
  • 금융 감성 예측을 위한 시간 제어형 벤치마크 FinEvolveBench 소개
  • 경험을 조직, 검색, 검증, 업데이트하는 ToE 방법론 제안
  • 구조화된 경험 관리가 에이전트 성능 향상에 필수적임을 입증

경험 기반의 자가 진화 (Self-evolution)는 LLM 에이전트에게 매우 중요하지만, 기존의 벤치마크 (Benchmarks)들은 종종 명시적인 목표, 안정적인 작업 패턴, 그리고 명확한 피드백을 가정합니다. 우리는 더 도전적인 설정인 저반복 작업 (Low-repetition tasks)과 암시적 보상 (Implicit rewards) 환경을 연구합니다. 이 환경에서는 과거의 경험을 재사용하기 어렵고, 피드백이 지연되거나 노이즈가 섞여 있으며 결과 수준 (Outcome-level)에서만 제공됩니다. 우리는 일일 뉴스 기반 예측을 미래의 초과 수익 (Excess returns)과 연결하는 금융 감성 예측을 위한 시간 제어형 벤치마크인 extsc{FinEvolveBench}를 소개합니다. 나아가 우리는 에이전트의 경험을 조직, 검색, 검증 및 업데이트하는 구조화된 경험 관리 방법론인 Tree-of-Experience (ToE)를 제안합니다. 실험 결과, 범용적인 경험 메커니즘 (Experience mechanisms)은 경험이 없는 베이스라인 (Baselines)보다 일관되게 뛰어난 성능을 보이지 못했지만, ToE는 더 강력한 전반적 성능을 달성했습니다. 이러한 결과는 암시적 보상 환경에서 자가 진화하는 에이전트를 위한 구조화된 경험 관리의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0