Shepherd: 정형화된 실행 추적(Execution Trace)을 통해 메타 에이전트(Meta-Agents)의 역량을 강화하는 런타임
요약
Shepherd는 메타 에이전트의 동작을 함수형 프로그래밍 모델로 정형화하여 에이전트-환경 상호작용을 Git 방식의 실행 추적으로 기록하는 런타임 시스템입니다. Docker보다 5배 빠른 포크 성능과 95% 이상의 프롬프트 캐시 재사용률을 통해 실시간 감독, 반사실적 최적화, Tree-RL 학습 등에서 에이전트의 성능을 크게 향상시킵니다.
핵심 포인트
- 에이전트 상호작용을 타입화된 이벤트로 기록하여 상태 포크 및 재생이 가능한 함수형 모델 제공
- Docker 대비 5배 빠른 프로세스/파일 시스템 포크 및 높은 프롬프트 캐시 재사용률 달성
- 실시간 감독을 통해 페어 코딩 통과율을 28.8%에서 54.7%로 개선
- 분기 탐색을 통한 반사실적 최적화로 성능 향상 및 실제 소요 시간 최대 58% 단축
- Tree-RL 학습 시 롤아웃 포크를 통해 TerminalBench-2 성능 향상 기여
우리는 타겟 에이전트(target agents)에 대한 메타 에이전트(meta-agent)의 동작을 함수로 정형화하는 함수형 프로그래밍 모델인 Shepherd를 소개하며, 핵심 동작은 Lean에서 기계화(mechanized)되었습니다. Shepherd는 모든 에이전트-환경 상호작용을 Git과 유사한 실행 추적(execution trace) 내의 타입화된 이벤트(typed event)로 기록하여, 과거의 어떤 상태든 포크(fork)하고 다시 재생(replay)할 수 있도록 합니다. 이 시스템은 에이전트 프로세스와 파일 시스템을 Docker보다 5배 빠르게 포크하며, 재생 시 95% 이상의 프롬프트 캐시(prompt-cache) 재사용률을 달성합니다. 우리는 세 가지 애플리케이션을 통해 이 모델을 입증합니다. 첫째, 런타임 개입(runtime intervention)에서 실시간 감독자(live supervisor)는 CooperBench의 페어 코딩(pair coding) 통과율을 28.8%에서 54.7%로 높였습니다. 둘째, 반사실적 메타 최적화(counterfactual meta-optimization)에서 분기 탐색(branching exploration)은 4개의 벤치마크에서 베이스라인 대비 최대 11포인트 높은 성능을 보이면서도 실제 소요 시간(wall-clock time)을 최대 58%까지 단축했습니다. 셋째, Tree-RL 학습에서 선택된 턴(turn)에서 롤아웃(rollouts)을 포크함으로써 TerminalBench-2의 성능을 34.2%에서 39.4%로 향상시켰습니다. 이러한 결과는 Shepherd가 메타 에이전트 프로그래밍을 위한 효율적인 인프라임을 입증합니다. 우리는 향후 연구를 지원하기 위해 이 시스템을 오픈 소스로 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.PL (Programming Languages)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기