본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 01. 19:31

새로운 오픈 에이전트 모델 출시, 다른 모델들을 압도하는 벤치마크 성능

요약

새로운 오픈 에이전트 모델인 SkyClaw-v1.0이 출시되었습니다. 이 모델은 Qwen, DeepSeek 등 기존 모델들을 압도하는 벤치마크 성능을 보여주며, 에이전트 워크플로우 최적화를 위해 설계되었습니다.

핵심 포인트

  • Qwen, DeepSeek 등 주요 모델 대비 우수한 에이전트 작업 성능
  • 도구 오케스트레이션 및 다단계 추론에 최적화된 설계
  • 기존 모델 대비 약 절반 수준의 저렴한 운영 비용
  • 미드 트레이닝 및 에이전트 강화학습을 통한 성능 고도화
  • 효율적인 작업을 위한 SkyClaw-v1.0-lite 버전 제공

누군가 방금 새로운 오픈 에이전트 모델을 출시했으며, 이 모델의 벤치마크 결과는 다른 모든 모델들에게 매우 가혹합니다.

SkyClaw-v1.0은 에이전트 작업(agentic tasks)에서 Qwen 3.6 35B, DeepSeek V4 Flash, 그리고 Minimax 2.7을 능가했습니다. 심지어 가격은 절반 수준입니다.

이 모델이 왜 놀라운지 그 이유를 설명해 드립니다:

SkyClaw-v1.0은 에이전트 워크플로우(agent workflows)를 위해 구축되었습니다:

• OpenClaw 환경
• 도구 오케스트레이션 (tool orchestration)
• 장기적 과제 (long-horizon tasks)
• 다단계 추론 (multi-step reasoning)
• 안정적인 다회차 실행 (stable multi-turn execution)
http://skywork.ai/p/m1R2j9
시뮬레이션된 OpenClaw 환경, 실제 도구 그래프(real-world tool graphs), 합성 데이터(synthetic)로 학습되었습니다.

수치는 솔직히 조금 터무니없을 정도입니다.

SkyClaw-v1.0은 Minimax 2.7, DeepSeek V4 Flash, Qwen 3.6 35B A3B, 그리고 Qwen 3.6 27B보다 뛰어난 성능을 보입니다.

또한 PinchBench, Claw-Eval, 그리고 Skywork-Claw-Bench에서도 강력한 결과를 기록했습니다.

OpenClaw 작업에서는 DeepSeek V4 Pro를 바짝 추격하기 시작했습니다.

대안 모델들에 비용을 지불하고 있는 분들에게 뼈아픈 부분은 다음과 같습니다:

SkyClaw는 Minimax 2.7 및 Qwen 3.6 시리즈 가격의 약 절반 수준으로 구동됩니다.

중급(mid-tier) 비용을 지불하면서 최첨단(frontier)에 근접한 성능을 얻을 수 있습니다. 에이전트를 실제 규모로 운영한다면 그 비용 격차는 빠르게 벌어집니다.

이것은 단순히 시스템 프롬프트(system prompt)를 얹은 베이스 모델(base model)이 아닙니다.

파이프라인은 대규모 미드 트레이닝(mid-training), 그 다음 합성 작업 SFT(synthetic-task SFT), 그리고 실제 도구 관계 그래프 상에서의 엔드 투 엔드 에이전트 강화학습(end-to-end agentic reinforcement learning)을 거쳤습니다.

또한 전체 OpenClaw 시뮬레이션 내부에서 스트레스 테스트를 진행했습니다.

비용에 민감한 작업을 위해 SkyClaw-v1.0-lite 버전도 출시했습니다.

동일한 에이전트 DNA를 가졌지만, 더 빠른 추론(inference)과 호출당 더 저렴한 비용을 제공합니다.

무거운 다중 도구 체인에는 v1.0을 사용하고, 그 사이의 더 단순한 단계에는 lite 버전을 사용하세요. 실제 작업이 무엇을 필요로 하는지에 따라 선택하면 됩니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @nrqa__ (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0