Jetson Orin Nano Super에서의 Bonsai LM (1-bit 및 1.58-bit LLM) 벤치마킹

원문 발행 2026. 06. 10. 22:02원문 언어 영어AI 한국어 번역r/LocalLLaMA 원문 보기

요약

Jetson Orin Nano Super에서 1-bit 및 1.58-bit Bonsai LM 모델의 성능을 벤치마킹한 결과입니다. 다양한 전력 모드에서 토큰 생성 속도, 에너지 효율성(tok/J), 지연 시간 및 발열 상태를 심층 분석했습니다.

핵심 포인트

4B 미만 모델은 25W 모드에서 에너지 효율이 가장 최적화됨
Bonsai-1.7B 모델은 매우 낮은 메모리 점유율과 높은 에너지 효율을 보여줌
Ternary 모델은 지연 시간에 민감한 앱에, 표준 모델은 에너지 효율 중심 앱에 적합
테스트된 모든 전력 모드에서 서멀 스로틀링 현상은 발생하지 않음

Jetson Orin Nano Super에서의 Bonsai LM (1-bit 및 1.58-bit LLM) 벤치마킹

llama.cpp CUDA를 사용하여 $250 가격의 Jetson Orin Nano Super 8GB에서 5개의 Bonsai LM 모델(1.7B → ~8B)에 대한 심층 벤치마크를 방금 출시했습니다. 7W, 15W, 25W, 그리고 MAXN의 4가지 모든 전력 모드에 걸쳐 테스트를 진행했습니다!

Bonsai LM 모델은 최근 출시된 새로운 라인업의 1-bit LLM(Large Language Models)이며, 8B 모델조차 믿기지 않을 정도로 낮은 메모리 점유율을 유지하면서 TTFT(Time To First Token), tok/s(초당 토큰 수), tok/J(줄당 토큰 효율), 그리고 전반적인 요청 지연 시간(latency) 측면에서 어떤 성능을 보여줄지 궁금했습니다! 이에 따라 출시된 5개 모델(1-bit 및 1.58-bit)에 대해 몇 가지 테스트를 실행했으며, 그 결과를 공유합니다.

주요 발견 사항:

4B(40억) 파라미터 이하의 모든 모델에게 25W는 에너지 효율의 최적 지점(sweet spot)입니다.
Bonsai-8B의 경우, 15W와 25W가 거의 동일한 출력 tok/J(~1% 차이)를 제공하므로, 15W가 더 전력을 절약할 수 있는 선택입니다.
MAXN 모드는 테스트된 모든 모델에서 25W보다 토큰당 에너지를 10~11% 더 소모합니다.
25W는 4B 미만 모델(ctx=2048, gen=512)에서 출력 tok/J를 유지하거나 개선하면서 15W보다 47~48% 더 많은 출력 tok/s를 제공합니다.
어떤 전력 모드에서도 서멀 스로틀링(thermal throttling)은 관찰되지 않았습니다. MAXN(Bonsai-8B)에서의 최고 접합 온도(TJ)는 75.3 °C에 도달했으나, 이는 하드웨어 스로틀링 임계값인 95 °C보다 훨씬 낮습니다.
다른 모든 모델은 MAXN에서도 최고 온도가 72 °C 미만입니다.

우리의 결론:

이 수치들이 엣지 추론(Edge Inference)에 의미하는 바:

Ternary-Bonsai-1.7B Q2_0의 경우:

25W에서 최대 38.4 tok/s (ctx=256): 실시간의 유창한 생성
ctx=256 (25W)에서 0.24 s TTFT
디스크 용량 300 MB: 매우 간편한 휴대성
부하 시 6.83 W: USB-C 보조 배터리로 구동 가능
5.74 출력 tok/J (ctx=256, gen=256): 25W에서 Ternary-1.7B의 최적 출력 tok/J

Bonsai-1.7B Q1_0의 경우:

성능을 더욱 밀어붙임: 부하 시 평균 4.51 W에서 단 237 MB만 사용하여 5.84 출력 tok/J 달성 (ctx=256, gen=256)
26.0 tok/s 및 0.21 s TTFT (25W, ctx=256)
총 tok/J는 62.5에서 정점을 찍음 (ctx=2048, gen=128, 전체 세트 중 최고치). 이 지점에서는 긴 프롬프트가 분자에 지배적인 영향을 미칩니다.
표준 Q1_0 모델은 디스크 및 메모리 대역폭(Memory Bandwidth) 사용량이 더 적습니다. Ternary Q2_0 변체는 초당 출력 토큰(Output Tokens per Second) 생성 속도가 더 빠르므로, Ternary 모델은 지연 시간(Latency)에 민감한 애플리케이션에 더 적합한 반면, Bonsai 모델은 주로 출력 토큰당 에너지 효율성이 높습니다.

벤치마크 방법론 (Benchmark Methodology)

각 모델 × 프롬프트 × 생성(gen) 조합에 대해, aiperf는 정확한 목표 토큰 수에 맞춰 합성 프롬프트(Synthetic Prompts)를 사용하여 20개의 단일 동시성(Single-concurrency) 요청을 보냅니다.
전력(Power)은 tegrastats의 VDD_CPU_GPU_CV (mW → W)를 500ms 간격으로 샘플링합니다. Tegrastats 샘플은 profile_export.jsonl (aiperf의 통계)에서 제공하는 요청별 나노초 타임스탬프를 사용하여 정확한 프리필(Prefill)/디코드(Decode) 단계 윈도우에 할당됩니다.
모든 모드에서 jetson_clocks를 사용하여 클록(Clocks)을 고정했습니다. 각 실행의 전력 및 클록 속도는 nvpmodel을 통해 x W로 제한되었으며, 열 안정성(지속적인 스로틀링 없음; 접합 온도(Junction Temp) ≤ 75 °C)을 모니터링했습니다.
사용된 지연 시간 백분위수(Latency Percentile): 차트, 표 및 에너지 계산에 보고된 모든 TTFT, ITL 및 요청 지연 시간(RL) 값은 조합당 20개 요청에 대한 p50(중앙값)을 사용합니다.

제 블로그에서 더 자세히 보기: link

수정: NVIDIA Jet Jetson Orin Nano Super의 대역폭은 첨부된 이미지의 204가 아닌 102 GB/s입니다. 혼란을 드려 죄송합니다.

submitted by /u/East-Muffin-6472 [link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

Jetson Orin Nano Super에서의 Bonsai LM (1-bit 및 1.58-bit LLM) 벤치마킹

요약

핵심 포인트

댓글

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터