X요약2026. 06. 01. 19:31

새로운 오픈 에이전트 모델 출시, 다른 모델들을 압도하는 벤치마크 성능

요약

새로운 오픈 에이전트 모델인 SkyClaw-v1.0이 출시되었습니다. 이 모델은 Qwen, DeepSeek 등 기존 모델들을 압도하는 벤치마크 성능을 보여주며, 에이전트 워크플로우 최적화를 위해 설계되었습니다.

핵심 포인트

Qwen, DeepSeek 등 주요 모델 대비 우수한 에이전트 작업 성능
도구 오케스트레이션 및 다단계 추론에 최적화된 설계
기존 모델 대비 약 절반 수준의 저렴한 운영 비용
미드 트레이닝 및 에이전트 강화학습을 통한 성능 고도화
효율적인 작업을 위한 SkyClaw-v1.0-lite 버전 제공

누군가 방금 새로운 오픈 에이전트 모델을 출시했으며, 이 모델의 벤치마크 결과는 다른 모든 모델들에게 매우 가혹합니다.

SkyClaw-v1.0은 에이전트 작업(agentic tasks)에서 Qwen 3.6 35B, DeepSeek V4 Flash, 그리고 Minimax 2.7을 능가했습니다. 심지어 가격은 절반 수준입니다.

이 모델이 왜 놀라운지 그 이유를 설명해 드립니다:

SkyClaw-v1.0은 에이전트 워크플로우(agent workflows)를 위해 구축되었습니다:

• OpenClaw 환경
• 도구 오케스트레이션 (tool orchestration)
• 장기적 과제 (long-horizon tasks)
• 다단계 추론 (multi-step reasoning)
• 안정적인 다회차 실행 (stable multi-turn execution)
http://skywork.ai/p/m1R2j9
시뮬레이션된 OpenClaw 환경, 실제 도구 그래프(real-world tool graphs), 합성 데이터(synthetic)로 학습되었습니다.

수치는 솔직히 조금 터무니없을 정도입니다.

SkyClaw-v1.0은 Minimax 2.7, DeepSeek V4 Flash, Qwen 3.6 35B A3B, 그리고 Qwen 3.6 27B보다 뛰어난 성능을 보입니다.

또한 PinchBench, Claw-Eval, 그리고 Skywork-Claw-Bench에서도 강력한 결과를 기록했습니다.

OpenClaw 작업에서는 DeepSeek V4 Pro를 바짝 추격하기 시작했습니다.

대안 모델들에 비용을 지불하고 있는 분들에게 뼈아픈 부분은 다음과 같습니다:

SkyClaw는 Minimax 2.7 및 Qwen 3.6 시리즈 가격의 약 절반 수준으로 구동됩니다.

중급(mid-tier) 비용을 지불하면서 최첨단(frontier)에 근접한 성능을 얻을 수 있습니다. 에이전트를 실제 규모로 운영한다면 그 비용 격차는 빠르게 벌어집니다.

이것은 단순히 시스템 프롬프트(system prompt)를 얹은 베이스 모델(base model)이 아닙니다.

파이프라인은 대규모 미드 트레이닝(mid-training), 그 다음 합성 작업 SFT(synthetic-task SFT), 그리고 실제 도구 관계 그래프 상에서의 엔드 투 엔드 에이전트 강화학습(end-to-end agentic reinforcement learning)을 거쳤습니다.

또한 전체 OpenClaw 시뮬레이션 내부에서 스트레스 테스트를 진행했습니다.

비용에 민감한 작업을 위해 SkyClaw-v1.0-lite 버전도 출시했습니다.

동일한 에이전트 DNA를 가졌지만, 더 빠른 추론(inference)과 호출당 더 저렴한 비용을 제공합니다.

무거운 다중 도구 체인에는 v1.0을 사용하고, 그 사이의 더 단순한 단계에는 lite 버전을 사용하세요. 실제 작업이 무엇을 필요로 하는지에 따라 선택하면 됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

새로운 오픈 에이전트 모델 출시, 다른 모델들을 압도하는 벤치마크 성능

요약

핵심 포인트

댓글