Shepherd: 정형화된 실행 추적(Execution Trace)을 통해 메타 에이전트(Meta-Agents)의 역량을 강화하는 런타임

우리는 타겟 에이전트(target agents)에 대한 메타 에이전트(meta-agent)의 동작을 함수로 정형화하는 함수형 프로그래밍 모델인 Shepherd를 소개하며, 핵심 동작은 Lean에서 기계화(mechanized)되었습니다. Shepherd는 모든 에이전트-환경 상호작용을 Git과 유사한 실행 추적(execution trace) 내의 타입화된 이벤트(typed event)로 기록하여, 과거의 어떤 상태든 포크(fork)하고 다시 재생(replay)할 수 있도록 합니다. 이 시스템은 에이전트 프로세스와 파일 시스템을 Docker보다 5배 빠르게 포크하며, 재생 시 95% 이상의 프롬프트 캐시(prompt-cache) 재사용률을 달성합니다. 우리는 세 가지 애플리케이션을 통해 이 모델을 입증합니다. 첫째, 런타임 개입(runtime intervention)에서 실시간 감독자(live supervisor)는 CooperBench의 페어 코딩(pair coding) 통과율을 28.8%에서 54.7%로 높였습니다. 둘째, 반사실적 메타 최적화(counterfactual meta-optimization)에서 분기 탐색(branching exploration)은 4개의 벤치마크에서 베이스라인 대비 최대 11포인트 높은 성능을 보이면서도 실제 소요 시간(wall-clock time)을 최대 58%까지 단축했습니다. 셋째, Tree-RL 학습에서 선택된 턴(turn)에서 롤아웃(rollouts)을 포크함으로써 TerminalBench-2의 성능을 34.2%에서 39.4%로 향상시켰습니다. 이러한 결과는 Shepherd가 메타 에이전트 프로그래밍을 위한 효율적인 인프라임을 입증합니다. 우리는 향후 연구를 지원하기 위해 이 시스템을 오픈 소스로 공개합니다.

Insights

Shepherd: 정형화된 실행 추적(Execution Trace)을 통해 메타 에이전트(Meta-Agents)의 역량을 강화하는 런타임

요약

핵심 포인트

댓글

Knowledge-and-Memory-Management: v0.0.2 — 지식 수집 및 메모리 관리

Corsair 2800X RS-R ARGB Micro-ATX PC 케이스 체험기 – 더 작은 점유 면적, 넓은 내부 공간, 팬 3개 포함

Google Cloud가 진정으로 성장을 이끌고 있는가?

Arista Networks 주식: AI의 가장 뜨거운 성장 스토리가 공급 한계에 부딪히고 있는가?

Corsair 2800X RS-R ARGB Micro-ATX PC 케이스 체험기 – 더 작은 점유 면적, 넓은 내부 공간, 팬 3개 포함

Google Cloud가 진정으로 성장을 이끌고 있는가?

Arista Networks 주식: AI의 가장 뜨거운 성장 스토리가 공급 한계에 부딪히고 있는가?