PrismML의 1-bit Bonsai-8B와 IBM의 Granite를 대상으로 CPU 도구 호출 (tool calling) 성능을
요약
1-bit 모델인 Bonsai-8B와 IBM Granite의 CPU 도구 호출(tool calling) 성능을 비교 분석한 연구입니다. 1-bit 모델은 원시 상태에서는 성능이 낮지만, GBNF 문법을 적용할 경우 매우 높은 도구 호출 정확도를 보임을 확인했습니다.
핵심 포인트
- Bonsai-8B는 문법 적용 시 92%의 높은 도구 호출 통과율 기록
- 1-bit 모델은 제약 조건(Grammar) 유무에 따라 성능 차이가 극명함
- Granite-4.1-3B는 문법 미적용 시 가장 뛰어난 원시 성능을 보임
- 작은 모델 크기에서도 문법 제어를 통해 에이전트 활용 가능성 확인
모두가 1-bit 모델이 실제로 에이전트 (agents) 용도로 사용 가능한지 계속 묻고 있어서, 제가 직접 수치를 확인해 보았습니다. Bonsai-8B에 대한 독립적인 도구 호출 (tool-calling) 평가를 어디에서도 찾을 수 없었습니다. BFCL 리더보드에도 없었고, BenchLM에도 아무것도 없었습니다. 따라서 제가 알기로는 이것이 첫 번째 사례입니다.
설정: 30개의 결정론적 (deterministic) 도구 호출 케이스 (단일, 병렬, 순차, 기권, 형식), 온도 (temp) 0, CPU 상의 mainline llama.cpp. 각 모델은 두 번 실행됩니다: 한 번은 원시 (raw) 상태로, 한 번은 출력을 유효한 도구 호출 JSON으로 제한하는 GBNF 문법 (grammar)을 적용하여 실행합니다.
결과 (통과율 (PASS rate), 원시 / 문법 적용 시):
Bonsai-8B Q1_0 (1.16 GB): 0% / 92%
Granite-4.1-3B Q4_K_M (2.0 GB): 72% / 88%
Qwen2.5-Coder-3B: 0% / 84%
Qwen2.5-Coder-7B: 68% / 84%
Qwen3-8B: 0% / 84%
BitNet-b1.58-2B: 0% / 44%
Bonsai의 결과는 저를 놀라게 했습니다. 원시 상태에서는 도구 호출에 쓸모가 없습니다. 유효한 출력이 0%였습니다. 하지만 문법을 활성화했을 때 제가 테스트한 것 중 가장 높은 점수를 기록했습니다. 이는 3B Q4 모델 크기의 절반 수준인 파일 크기임에도 불구하고 말이죠. 형식 (format), 병렬 (parallel), 순차 (sequential) 및 기권 (abstention) 카테고리에서 완벽했습니다.
Granite는 정반대의 이야기입니다. 72%로 압도적으로 가장 뛰어난 원시 (raw) 모델입니다. 문법을 실행할 수 없거나 원하지 않는다면, 그것이 당신의 선택이 될 것입니다.
저의 결론: "1-bit 모델은 에이전트를 수행할 수 없다"는 주장은 각주가 필요합니다. 제약 조건이 없는 상태에서는 에이전트를 수행할 수 없습니다. 하지만 문법을 앞에 두면, 적어도 이 작은 벤치마크 상에서는 의미론적 능력 (semantic capability)이 분명히 존재합니다.
누군가 너무 흥분하기 전에 주의사항: 30개의 케이스, 온도 0, 단일 실행, 제가 직접 만든 하네스 (harness)입니다. 이것은 하나의 신호이지, 리더보드가 아닙니다. 케이스 세트는 모두 리포지토리 (repo)에 있으며 기꺼이 공유하겠습니다.
submitted by /u/EiwazDeath
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기