PrismML의 1-bit Bonsai-8B와 IBM의 Granite를 대상으로 CPU 도구 호출 (tool calling) 성능을

모두가 1-bit 모델이 실제로 에이전트 (agents) 용도로 사용 가능한지 계속 묻고 있어서, 제가 직접 수치를 확인해 보았습니다. Bonsai-8B에 대한 독립적인 도구 호출 (tool-calling) 평가를 어디에서도 찾을 수 없었습니다. BFCL 리더보드에도 없었고, BenchLM에도 아무것도 없었습니다. 따라서 제가 알기로는 이것이 첫 번째 사례입니다.

설정: 30개의 결정론적 (deterministic) 도구 호출 케이스 (단일, 병렬, 순차, 기권, 형식), 온도 (temp) 0, CPU 상의 mainline llama.cpp. 각 모델은 두 번 실행됩니다: 한 번은 원시 (raw) 상태로, 한 번은 출력을 유효한 도구 호출 JSON으로 제한하는 GBNF 문법 (grammar)을 적용하여 실행합니다.

결과 (통과율 (PASS rate), 원시 / 문법 적용 시):

Bonsai-8B Q1_0 (1.16 GB): 0% / 92%
Granite-4.1-3B Q4_K_M (2.0 GB): 72% / 88%
Qwen2.5-Coder-3B: 0% / 84%
Qwen2.5-Coder-7B: 68% / 84%
Qwen3-8B: 0% / 84%
BitNet-b1.58-2B: 0% / 44%

Bonsai의 결과는 저를 놀라게 했습니다. 원시 상태에서는 도구 호출에 쓸모가 없습니다. 유효한 출력이 0%였습니다. 하지만 문법을 활성화했을 때 제가 테스트한 것 중 가장 높은 점수를 기록했습니다. 이는 3B Q4 모델 크기의 절반 수준인 파일 크기임에도 불구하고 말이죠. 형식 (format), 병렬 (parallel), 순차 (sequential) 및 기권 (abstention) 카테고리에서 완벽했습니다.

Granite는 정반대의 이야기입니다. 72%로 압도적으로 가장 뛰어난 원시 (raw) 모델입니다. 문법을 실행할 수 없거나 원하지 않는다면, 그것이 당신의 선택이 될 것입니다.

저의 결론: "1-bit 모델은 에이전트를 수행할 수 없다"는 주장은 각주가 필요합니다. 제약 조건이 없는 상태에서는 에이전트를 수행할 수 없습니다. 하지만 문법을 앞에 두면, 적어도 이 작은 벤치마크 상에서는 의미론적 능력 (semantic capability)이 분명히 존재합니다.

누군가 너무 흥분하기 전에 주의사항: 30개의 케이스, 온도 0, 단일 실행, 제가 직접 만든 하네스 (harness)입니다. 이것은 하나의 신호이지, 리더보드가 아닙니다. 케이스 세트는 모두 리포지토리 (repo)에 있으며 기꺼이 공유하겠습니다.
submitted by /u/EiwazDeath
[link] [comments]

Insights

PrismML의 1-bit Bonsai-8B와 IBM의 Granite를 대상으로 CPU 도구 호출 (tool calling) 성능을

요약

핵심 포인트

댓글

AI 시즌은 여전히 가장 거대한 내러티브입니다

업데이트: MoonPay가 Model Context Protocol을 통해 Perplexity AI에 암호화폐 온램핑 (Onramping)

FutureX · Physical AI Daily — Issue 46 (07/03)

AI 시즌은 여전히 가장 거대한 내러티브입니다

업데이트: MoonPay가 Model Context Protocol을 통해 Perplexity AI에 암호화폐 온램핑 (Onramping)

FutureX · Physical AI Daily — Issue 46 (07/03)