LLM 에이전트를 위한 통합 컨텍스트 진화 (Unified Context Evolution)
요약
LLM 에이전트의 경험을 유형화된 컨텍스트 단위(ECU)로 관리하는 UCE 프레임워크를 소개합니다. 경험을 Memory, Strategy, Workflow, Skill로 분류하여 효율적으로 저장, 검색, 최적화함으로써 에이전트의 성능을 극대화합니다.
핵심 포인트
- 경험을 4가지 유형(Memory, Strategy, Workflow, Skill)으로 체계화
- 사용 결과에 따른 점수 부여 및 불필요한 데이터 가지치기 수행
- 취약한 지식 유형에 생성 예산을 우선 할당하는 스케줄링 모듈 도입
- ALFWorld 및 WebShop 벤치마크에서 성능 대폭 향상 입증
- 재학습 없이 다른 모델 백본으로 지식 전이 가능
LLM (Large Language Model) 기반 에이전트는 추론 (Reasoning)과 환경 피드백 (Environment Feedback)을 결합하여 다단계 상호작용 작업 (Multi-step Interactive Tasks)을 해결할 수 있지만, 각 에피소드 (Episode)는 동일한 고정된 컨텍스트 (Context)에서 시작되며 과정 중에 발견된 유용한 전략은 작업이 종료되면 소실됩니다. 기존 방식들은 학습을 현재 작업으로 제한하거나, 지식 유형을 구분하지 않고, 사용을 통한 품질 추적을 수행하지 않으며, 라이브러리에 여전히 부족한 부분이 무엇인지 균형을 맞추지 않은 채 모든 경험을 단일한 비정형 저장소 (Untyped Store)에 모으는 방식을 취합니다. 우리는 에이전트의 경험을 유형화된 진화 가능한 컨텍스트 단위 (Evolvable Context Units, ECUs)의 진화하는 라이브러리로 외부화하는 그래디언트 프리 (Gradient-free) 프레임워크인 통합 컨텍스트 진화 (Unified Context Evolution, UCE)를 소개합니다. UCE는 경험을 네 가지 상호 보완적인 유형 (Memory, Strategy, Workflow, Skill)으로 분해하며, 각 유형은 유형별 조건 하의 궤적 (Trajectories)으로부터 생성되고, 의사 결정 시점에 검색되며, 반복적인 사용 결과에 따라 점수가 매겨지고, 더 이상 가치가 없으면 가지치기 (Pruning) 됩니다. 스케줄링 모듈 (Scheduling Module)은 각 사이클의 생성 예산을 라이브러리가 가장 취약한 유형에 할당합니다. 두 가지 상호작용 벤치마크 (Benchmarks)를 통해, UCE는 ALFWorld의 성공률을 75.4%에서 96.3%로, WebShop 작업 점수를 45.1%에서 61.3%로 높였으며, 축적된 라이브러리는 재학습 없이 다른 액터 백본 (Actor Backbones)으로 전이됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기