ClawGym: Claw 에이전트 구축을 위한 확장 가능한 프레임워크
요약
본 기술 기사는 복잡하고 다단계적인 워크플로우를 처리하는 'Claw 스타일' 에이전트 개발의 한계를 극복하기 위해 확장 가능한 프레임워크인 ClawGym을 소개합니다. ClawGym은 페르소나 기반 의도와 스킬 기반 작업을 활용하여 13,500개 이상의 필터링된 작업 데이터셋(ClawGym-SynData)을 구축했으며, 이를 통해 에이전트의 지도 학습 미세 조정 및 강화학습 탐색을 지원합니다. 또한 신뢰성 있는 평가를 위한 벤치마크인 ClawGym-Bench도 함께 제공하여, 연구자들이 체계적으로 개인 에이전트를 개발하고 검증할 수 있도록 합니다.
핵심 포인트
- ClawGym은 복잡한 다단계 워크플로우가 필요한 'Claw 스타일' 에이전트의 전체 라이프사이클을 지원하는 확장 가능한 프레임워크입니다.
- 13,500개 이상의 필터링된 작업을 포함하는 합성 데이터셋 ClawGym-SynData를 구축하여 현실적인 훈련 환경을 제공합니다.
- 에이전트는 지도 학습(SFT)과 강화학습(RL) 파이프라인을 통해 훈련되며, 특히 작업별 샌드박스에서 병렬화가 가능합니다.
- 신뢰성 있는 평가를 위해 자동 필터링 및 인간-LLM 검토를 거친 200개 인스턴스의 벤치마크 ClawGym-Bench를 제공합니다.
Claw 스타일의 환경은 로컬 파일, 도구 및 영속적인 워크스페이스 상태에 대한 다단계 워크플로우를 지원합니다. 그러나 이러한 환경 주변의 확장 가능한 개발은 검증 가능한 훈련 데이터를 합성하고 이를 에이전트 훈련 및 진단 평가와 통합하는 체계적인 프레임워크의 부재로 인해 여전히 제한받고 있습니다. 이 과제를 해결하기 위해 우리는 Claw 스타일의 개인 에이전트 개발의 전체 라이프사이클을 지원하는 확장 가능한 프레임워크인 ClawGym 을 제시합니다. 구체적으로, 페르소나 기반 의도 (persona-driven intents) 와 스킬 기반 작업 (skill-grounded operations) 에서 합성된 13,500 개 이상의 필터링된 작업을 포함하는 다양한 데이터셋인 ClawGym-SynData 를 구축했습니다. 이 데이터셋은 현실적인 모의 워크스페이스와 하이브리드 검증 메커니즘과 쌍을 이루고 있습니다. 이어 우리는 블랙박스 롤아웃 궤적 (black-box rollout trajectories) 에 대한 지도 학습 미세 조정 (supervised fine-tuning) 을 통해 유능한 Claw 스타일 모델 계열인 ClawGym-Agents 를 훈련하고, 각 작업별 샌드박스 (per-task sandboxes) 로 롤아웃을 병렬화하는 경량 파이프라인을 통해 강화학습 (RL) 을 추가로 탐구합니다. 신뢰할 수 있는 평가를 지원하기 위해 우리는 자동 필터링과 인간-LLM 검토를 통해 보정된 200 개의 인스턴스를 포함한 벤치마크인 ClawGym-Bench 를 추가로 구축했습니다. 관련 리소스는 곧 https://github.com/ClawGym 에서 공개될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기