Qwen3.6-35B-A3B 및 9B가 공식적으로 public Terminal-Bench 2.0 리더보드에 진입했습니다!

little-coder × Qwen3.6-35B-A3B는 24.6% (±3.2)를 기록하며, 이제 Gemini CLI (19.6%)에서의 Gemini 2.5 Pro 및 Terminus 2 (23.9%)에서의 Qwen3-Coder-480B보다 높은 순위에 올랐습니다. Polyglot에서 발생했던 scaffold-model (scaffold-모델) 간의 격차가 이토록 어려운 벤치마크에서도 유지될 것이라고는 예상하지 못했지만, 실제로 나타났습니다!

little-coder × Qwen3.5-9B는 9.2%를 기록하며 다소 겸손한 성적을 거두었습니다. 하지만 이는 또한 10B 미만의 로컬 모델 (local models)들이 이제 어려운 에이전틱 벤치마크 (agentic benchmark)에서 측정 가능한 수준이며, 더 이상 순위에 오를 가치가 없다고 간주되지 않는다는 점을 다시 한번 보여줍니다.

여러분이 요청하신 대로 이곳에서 후속 소식을 전하는 것이 옳다고 느꼈으며, 이 커뮤니티에 진심으로 감사를 표합니다. 이곳은 현재 더 적은 연산량 (less compute)을 향한 혁신을 이끄는 곳이며, 이번 성과는 여러분이 밀어붙였기에 가능했습니다.

이제 리더보드의 정상을 향해 나아갈 시간입니다 👀 오픈 소스 (open source) 가자!

리더보드: https://www.tbench.ai/leaderboard/terminal-bench/2.0

https://github.com/itayinbarr/little-coder

Insights

Qwen3.6-35B-A3B 및 9B가 공식적으로 public Terminal-Bench 2.0 리더보드에 진입했습니다!

요약

핵심 포인트

댓글

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터