arXiv논문2026. 06. 08. 10:33

Tree-of-Experience: 저반복 및 암시적 보상 환경에서 자가 진화하는 에이전트를 위한 구조화된 경험 관리 솔루션

요약

저반복 작업과 암시적 보상 환경에서 자가 진화하는 에이전트를 위한 새로운 방법론인 Tree-of-Experience(ToE)를 제안합니다. 금융 감성 예측 벤치마크인 FinEvolveBench를 통해 ToE가 구조화된 경험 관리의 중요성을 입증했음을 보여줍니다.

핵심 포인트

저반복 및 암시적 보상 환경에서의 에이전트 자가 진화 연구
금융 감성 예측을 위한 시간 제어형 벤치마크 FinEvolveBench 소개
경험을 조직, 검색, 검증, 업데이트하는 ToE 방법론 제안
구조화된 경험 관리가 에이전트 성능 향상에 필수적임을 입증

경험 기반의 자가 진화 (Self-evolution)는 LLM 에이전트에게 매우 중요하지만, 기존의 벤치마크 (Benchmarks)들은 종종 명시적인 목표, 안정적인 작업 패턴, 그리고 명확한 피드백을 가정합니다. 우리는 더 도전적인 설정인 저반복 작업 (Low-repetition tasks)과 암시적 보상 (Implicit rewards) 환경을 연구합니다. 이 환경에서는 과거의 경험을 재사용하기 어렵고, 피드백이 지연되거나 노이즈가 섞여 있으며 결과 수준 (Outcome-level)에서만 제공됩니다. 우리는 일일 뉴스 기반 예측을 미래의 초과 수익 (Excess returns)과 연결하는 금융 감성 예측을 위한 시간 제어형 벤치마크인 extsc{FinEvolveBench}를 소개합니다. 나아가 우리는 에이전트의 경험을 조직, 검색, 검증 및 업데이트하는 구조화된 경험 관리 방법론인 Tree-of-Experience (ToE)를 제안합니다. 실험 결과, 범용적인 경험 메커니즘 (Experience mechanisms)은 경험이 없는 베이스라인 (Baselines)보다 일관되게 뛰어난 성능을 보이지 못했지만, ToE는 더 강력한 전반적 성능을 달성했습니다. 이러한 결과는 암시적 보상 환경에서 자가 진화하는 에이전트를 위한 구조화된 경험 관리의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Tree-of-Experience: 저반복 및 암시적 보상 환경에서 자가 진화하는 에이전트를 위한 구조화된 경험 관리 솔루션

요약

핵심 포인트

댓글