Orchard: 오픈 소스 에이전트 모델링 (Agentic Modeling) 프레임워크

에이전트 모델링 (Agentic modeling)은 LLM을 계획 (planning), 추론 (reasoning), 도구 사용 (tool use), 그리고 환경과의 다회차 상호작용 (multi-turn interaction)을 통해 복잡한 과제를 해결할 수 있는 자율 에이전트 (autonomous agents)로 변환하는 것을 목표로 합니다. 막대한 투자에도 불구하고, 오픈 연구 (open research)는 인프라와 학습 격차로 인해 여전히 제약을 받고 있습니다. 많은 고성능 시스템이 독점적인 코드베이스 (proprietary codebases), 모델 또는 서비스에 의존하는 반면, 대부분의 오픈 소스 프레임워크는 확장 가능한 에이전트 학습 (agent training)보다는 오케스트레이션 (orchestration)과 평가 (evaluation)에 집중하고 있습니다.

우리는 확장 가능한 에이전트 모델링을 위한 오픈 소스 프레임워크인 Orchard를 제시합니다. 그 핵심은 Orchard Env로, 이는 작업 도메인 (task domains), 에이전트 하네스 (agent harnesses), 그리고 파이프라인 단계 (pipeline stages) 전반에 걸쳐 샌드박스 생명주기 관리 (sandbox lifecycle management)를 위한 재사용 가능한 프리미티브 (reusable primitives)를 제공하는 경량 환경 서비스입니다. Orchard Env를 기반으로, 우리는 세 가지 에이전트 모델링 레시피 (agentic modeling recipes)를 구축했습니다.

Orchard-SWE는 코딩 에이전트 (coding agents)를 대상으로 합니다. 우리는 MiniMax-M2.5와 Qwen3.5-397B로부터 107K의 궤적 (trajectories)을 증류 (distill)하고, 해결되지 않은 궤적의 생산적인 구간으로부터 학습하기 위해 신용 할당 SFT (credit-assignment SFT)를 도입하며, RL을 위해 균형 잡힌 적응형 롤아웃 (Balanced Adaptive Rollout)을 적용합니다. Qwen3-30B-A3B-Thinking에서 시작하여, Orchard-SWE는 SFT 이후 SWE-bench Verified에서 64.3%, SFT+RL 이후 67.5%를 달성하며, 유사한 규모의 오픈 소스 모델 중에서 새로운 SOTA (state of the art)를 기록했습니다.

Orchard-GUI는 단 0.4K의 증류된 궤적과 2.2K의 개방형 과제 (open-ended tasks)만을 사용하여 4B 비전-언어 컴퓨터 사용 에이전트 (vision-language computer-use agent)를 학습시킵니다. 이 모델은 WebVoyager, Online-Mind2Web, DeepShop에서 각각 74.1%, 67.0%, 64.0%의 성공률을 달성하여, 독점 시스템과 경쟁 가능한 수준을 유지하면서도 가장 강력한 오픈 소스 모델이 되었습니다.

Orchard-Claw는 개인 비서 에이전트 (personal assistant agents)를 대상으로 합니다. 단 0.2K의 합성 과제 (synthetic tasks)로 학습되어, Claw-Eval에서 59.6%의 pass@3를 달성하였고, 더 강력한 ZeroClaw 하네스 (harness)와 결합했을 때는 73.9%를 달성했습니다.

종합적으로, 이러한 결과는 경량화되고 개방적이며 하네스에 구애받지 않는 (harness-agnostic) 환경 계층이 도메인을 가로질러 재사용 가능한 에이전트 데이터, 학습 레시피, 그리고 평가를 가능하게 함을 보여줍니다.

Insights

Orchard: 오픈 소스 에이전트 모델링 (Agentic Modeling) 프레임워크

요약

핵심 포인트

댓글

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유

AI 엔지니어를 위한 10가지 에이전트 평가(Evals) 방법

Truss: 새로운 단일 사용자 로컬 하네스 (local harness)

Nike, 내년 1월부터 중국 내 온라인 도매 판매 제한 예정 – 보고서

오늘 Supermicro 주가가 급등하는 이유