Qwen3.6-35B-A3B 및 9B가 공식적으로 public Terminal-Bench 2.0 리더보드에 진입했습니다!
요약
Qwen3.6-35B-A3B와 9B 모델이 공식 Terminal-Bench 2.0 리더보드에 진입하며 주목받고 있습니다. 특히 little-coder × Qwen3.6-35B-A3B 조합은 Gemini CLI 및 Terminus 2 등 경쟁 모델보다 높은 순위를 기록했습니다. 이 성과는 로컬 모델들이 어려운 에이전틱 벤치마크에서도 측정 가능한 수준임을 입증하며, 오픈 소스 커뮤니티의 기여를 강조합니다.
핵심 포인트
- little-coder × Qwen3.6-35B-A3B 조합이 Gemini 2.5 Pro 및 Qwen3-Coder-480B 등 경쟁 모델을 능가하는 성과를 보였습니다.
- Qwen3.5-9B의 참여는 10B 미만의 로컬 모델들이 어려운 에이전틱 벤치마크에서 유효한 성능을 가짐을 입증했습니다.
- 이번 성과는 더 적은 연산량(less compute)으로 혁신을 이끌고 있으며, 오픈 소스 커뮤니티의 기여가 중요함을 시사합니다.
Qwen3.6-35B-A3B 및 9B가 공식적으로 public Terminal-Bench 2.0 리더보드에 진입했습니다!
little-coder × Qwen3.6-35B-A3B는 24.6% (±3.2)를 기록하며, 이제 Gemini CLI (19.6%)에서의 Gemini 2.5 Pro 및 Terminus 2 (23.9%)에서의 Qwen3-Coder-480B보다 높은 순위에 올랐습니다. Polyglot에서 발생했던 scaffold-model (scaffold-모델) 간의 격차가 이토록 어려운 벤치마크에서도 유지될 것이라고는 예상하지 못했지만, 실제로 나타났습니다!
little-coder × Qwen3.5-9B는 9.2%를 기록하며 다소 겸손한 성적을 거두었습니다. 하지만 이는 또한 10B 미만의 로컬 모델 (local models)들이 이제 어려운 에이전틱 벤치마크 (agentic benchmark)에서 측정 가능한 수준이며, 더 이상 순위에 오를 가치가 없다고 간주되지 않는다는 점을 다시 한번 보여줍니다.
여러분이 요청하신 대로 이곳에서 후속 소식을 전하는 것이 옳다고 느꼈으며, 이 커뮤니티에 진심으로 감사를 표합니다. 이곳은 현재 더 적은 연산량 (less compute)을 향한 혁신을 이끄는 곳이며, 이번 성과는 여러분이 밀어붙였기에 가능했습니다.
이제 리더보드의 정상을 향해 나아갈 시간입니다 👀 오픈 소스 (open source) 가자!
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기