Orchard: 오픈 소스 에이전트 모델링 (Agentic Modeling) 프레임워크
요약
Orchard는 확장 가능한 오픈 소스 에이전트 모델링 프레임워크입니다. 이 프레임워크는 Orchard Env라는 경량 환경 서비스를 통해 작업 도메인 전반에 걸쳐 재사용 가능한 프리미티브를 제공합니다. 이를 기반으로 개발된 세 가지 레시피(Orchard-SWE, Orchard-GUI, Orchard-Claw)는 각각 코딩, 비전-언어 컴퓨터 사용, 개인 비서 에이전트를 성공적으로 학습시켜, 독점 시스템과 경쟁할 수 있는 강력한 오픈 소스 성능을 입증했습니다.
핵심 포인트
- Orchard는 재사용 가능한 프리미티브를 제공하는 경량 환경 서비스(Orchard Env) 기반의 오픈 소스 에이전트 모델링 프레임워크이다.
- Orchard-SWE는 SFT와 RL 기법을 적용하여 코딩 에이전트 분야에서 새로운 SOTA 성능을 달성했다.
- Orchard-GUI는 적은 양의 데이터로 비전-언어 컴퓨터 사용 에이전트를 학습시켜 독점 시스템에 근접한 성공률을 기록했다.
- Orchard-Claw는 합성 과제를 통해 개인 비서 에이전트의 성능을 입증했으며, 하네스 독립적인(harness-agnostic) 접근 방식을 강조한다.
에이전트 모델링 (Agentic modeling)은 LLM을 계획 (planning), 추론 (reasoning), 도구 사용 (tool use), 그리고 환경과의 다회차 상호작용 (multi-turn interaction)을 통해 복잡한 과제를 해결할 수 있는 자율 에이전트 (autonomous agents)로 변환하는 것을 목표로 합니다. 막대한 투자에도 불구하고, 오픈 연구 (open research)는 인프라와 학습 격차로 인해 여전히 제약을 받고 있습니다. 많은 고성능 시스템이 독점적인 코드베이스 (proprietary codebases), 모델 또는 서비스에 의존하는 반면, 대부분의 오픈 소스 프레임워크는 확장 가능한 에이전트 학습 (agent training)보다는 오케스트레이션 (orchestration)과 평가 (evaluation)에 집중하고 있습니다.
우리는 확장 가능한 에이전트 모델링을 위한 오픈 소스 프레임워크인 Orchard를 제시합니다. 그 핵심은 Orchard Env로, 이는 작업 도메인 (task domains), 에이전트 하네스 (agent harnesses), 그리고 파이프라인 단계 (pipeline stages) 전반에 걸쳐 샌드박스 생명주기 관리 (sandbox lifecycle management)를 위한 재사용 가능한 프리미티브 (reusable primitives)를 제공하는 경량 환경 서비스입니다. Orchard Env를 기반으로, 우리는 세 가지 에이전트 모델링 레시피 (agentic modeling recipes)를 구축했습니다.
Orchard-SWE는 코딩 에이전트 (coding agents)를 대상으로 합니다. 우리는 MiniMax-M2.5와 Qwen3.5-397B로부터 107K의 궤적 (trajectories)을 증류 (distill)하고, 해결되지 않은 궤적의 생산적인 구간으로부터 학습하기 위해 신용 할당 SFT (credit-assignment SFT)를 도입하며, RL을 위해 균형 잡힌 적응형 롤아웃 (Balanced Adaptive Rollout)을 적용합니다. Qwen3-30B-A3B-Thinking에서 시작하여, Orchard-SWE는 SFT 이후 SWE-bench Verified에서 64.3%, SFT+RL 이후 67.5%를 달성하며, 유사한 규모의 오픈 소스 모델 중에서 새로운 SOTA (state of the art)를 기록했습니다.
Orchard-GUI는 단 0.4K의 증류된 궤적과 2.2K의 개방형 과제 (open-ended tasks)만을 사용하여 4B 비전-언어 컴퓨터 사용 에이전트 (vision-language computer-use agent)를 학습시킵니다. 이 모델은 WebVoyager, Online-Mind2Web, DeepShop에서 각각 74.1%, 67.0%, 64.0%의 성공률을 달성하여, 독점 시스템과 경쟁 가능한 수준을 유지하면서도 가장 강력한 오픈 소스 모델이 되었습니다.
Orchard-Claw는 개인 비서 에이전트 (personal assistant agents)를 대상으로 합니다. 단 0.2K의 합성 과제 (synthetic tasks)로 학습되어, Claw-Eval에서 59.6%의 pass@3를 달성하였고, 더 강력한 ZeroClaw 하네스 (harness)와 결합했을 때는 73.9%를 달성했습니다.
종합적으로, 이러한 결과는 경량화되고 개방적이며 하네스에 구애받지 않는 (harness-agnostic) 환경 계층이 도메인을 가로질러 재사용 가능한 에이전트 데이터, 학습 레시피, 그리고 평가를 가능하게 함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기