
Jetson Orin Nano Super에서의 Bonsai LM (1-bit 및 1.58-bit LLM) 벤치마킹
요약
Jetson Orin Nano Super에서 1-bit 및 1.58-bit Bonsai LM 모델의 성능을 벤치마킹한 결과입니다. 다양한 전력 모드에서 토큰 생성 속도, 에너지 효율성(tok/J), 지연 시간 및 발열 상태를 심층 분석했습니다.
핵심 포인트
- 4B 미만 모델은 25W 모드에서 에너지 효율이 가장 최적화됨
- Bonsai-1.7B 모델은 매우 낮은 메모리 점유율과 높은 에너지 효율을 보여줌
- Ternary 모델은 지연 시간에 민감한 앱에, 표준 모델은 에너지 효율 중심 앱에 적합
- 테스트된 모든 전력 모드에서 서멀 스로틀링 현상은 발생하지 않음
Jetson Orin Nano Super에서의 Bonsai LM (1-bit 및 1.58-bit LLM) 벤치마킹
llama.cpp CUDA를 사용하여 $250 가격의 Jetson Orin Nano Super 8GB에서 5개의 Bonsai LM 모델(1.7B → ~8B)에 대한 심층 벤치마크를 방금 출시했습니다. 7W, 15W, 25W, 그리고 MAXN의 4가지 모든 전력 모드에 걸쳐 테스트를 진행했습니다!
Bonsai LM 모델은 최근 출시된 새로운 라인업의 1-bit LLM(Large Language Models)이며, 8B 모델조차 믿기지 않을 정도로 낮은 메모리 점유율을 유지하면서 TTFT(Time To First Token), tok/s(초당 토큰 수), tok/J(줄당 토큰 효율), 그리고 전반적인 요청 지연 시간(latency) 측면에서 어떤 성능을 보여줄지 궁금했습니다! 이에 따라 출시된 5개 모델(1-bit 및 1.58-bit)에 대해 몇 가지 테스트를 실행했으며, 그 결과를 공유합니다.
주요 발견 사항:
- 4B(40억) 파라미터 이하의 모든 모델에게 25W는 에너지 효율의 최적 지점(sweet spot)입니다.
- Bonsai-8B의 경우, 15W와 25W가 거의 동일한 출력 tok/J(~1% 차이)를 제공하므로, 15W가 더 전력을 절약할 수 있는 선택입니다.
- MAXN 모드는 테스트된 모든 모델에서 25W보다 토큰당 에너지를 10~11% 더 소모합니다.
- 25W는 4B 미만 모델(ctx=2048, gen=512)에서 출력 tok/J를 유지하거나 개선하면서 15W보다 47~48% 더 많은 출력 tok/s를 제공합니다.
- 어떤 전력 모드에서도 서멀 스로틀링(thermal throttling)은 관찰되지 않았습니다. MAXN(Bonsai-8B)에서의 최고 접합 온도(TJ)는 75.3 °C에 도달했으나, 이는 하드웨어 스로틀링 임계값인 95 °C보다 훨씬 낮습니다.
- 다른 모든 모델은 MAXN에서도 최고 온도가 72 °C 미만입니다.
우리의 결론:
- 이 수치들이 엣지 추론(Edge Inference)에 의미하는 바:
Ternary-Bonsai-1.7B Q2_0의 경우:
- 25W에서 최대 38.4 tok/s (ctx=256): 실시간의 유창한 생성
- ctx=256 (25W)에서 0.24 s TTFT
- 디스크 용량 300 MB: 매우 간편한 휴대성
- 부하 시 6.83 W: USB-C 보조 배터리로 구동 가능
- 5.74 출력 tok/J (ctx=256, gen=256): 25W에서 Ternary-1.7B의 최적 출력 tok/J
Bonsai-1.7B Q1_0의 경우:
-
성능을 더욱 밀어붙임: 부하 시 평균 4.51 W에서 단 237 MB만 사용하여 5.84 출력 tok/J 달성 (ctx=256, gen=256)
-
26.0 tok/s 및 0.21 s TTFT (25W, ctx=256)
-
총 tok/J는 62.5에서 정점을 찍음 (ctx=2048, gen=128, 전체 세트 중 최고치). 이 지점에서는 긴 프롬프트가 분자에 지배적인 영향을 미칩니다.
-
표준 Q1_0 모델은 디스크 및 메모리 대역폭(Memory Bandwidth) 사용량이 더 적습니다. Ternary Q2_0 변체는 초당 출력 토큰(Output Tokens per Second) 생성 속도가 더 빠르므로, Ternary 모델은 지연 시간(Latency)에 민감한 애플리케이션에 더 적합한 반면, Bonsai 모델은 주로 출력 토큰당 에너지 효율성이 높습니다.
벤치마크 방법론 (Benchmark Methodology)
- 각 모델 × 프롬프트 × 생성(gen) 조합에 대해, aiperf는 정확한 목표 토큰 수에 맞춰 합성 프롬프트(Synthetic Prompts)를 사용하여 20개의 단일 동시성(Single-concurrency) 요청을 보냅니다.
- 전력(Power)은 tegrastats의 VDD_CPU_GPU_CV (mW → W)를 500ms 간격으로 샘플링합니다. Tegrastats 샘플은 profile_export.jsonl (aiperf의 통계)에서 제공하는 요청별 나노초 타임스탬프를 사용하여 정확한 프리필(Prefill)/디코드(Decode) 단계 윈도우에 할당됩니다.
- 모든 모드에서 jetson_clocks를 사용하여 클록(Clocks)을 고정했습니다. 각 실행의 전력 및 클록 속도는 nvpmodel을 통해 x W로 제한되었으며, 열 안정성(지속적인 스로틀링 없음; 접합 온도(Junction Temp) ≤ 75 °C)을 모니터링했습니다.
- 사용된 지연 시간 백분위수(Latency Percentile): 차트, 표 및 에너지 계산에 보고된 모든 TTFT, ITL 및 요청 지연 시간(RL) 값은 조합당 20개 요청에 대한 p50(중앙값)을 사용합니다.
제 블로그에서 더 자세히 보기: link
수정: NVIDIA Jet Jetson Orin Nano Super의 대역폭은 첨부된 이미지의 204가 아닌 102 GB/s입니다. 혼란을 드려 죄송합니다.
submitted by /u/East-Muffin-6472 [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기