
Hermes Agent 벤치마킹을 위한 Jetson Orin NX 빌드
요약
Jetson Orin NX를 활용하여 Hermes Agent 벤치마킹을 위한 소형 서버를 구축한 사례입니다. Gemma 4 26B 모델과 MTP(Multi-Token Prediction) 기술을 적용하여 긴 컨텍스트 환경에서의 성능과 속도를 최적화했습니다.
핵심 포인트
- Jetson Orin NX 기반의 저전력 소형 LLM 서버 구축
- Gemma 4 26B 모델과 MTP 적용을 통한 긴 컨텍스트 성능 향상
- 65K 컨텍스트 환경에서 목표 속도에 근접한 벤치마크 달성
- 하드웨어 제약 조건에 따른 히트싱크 개조 및 케이스 제작
1110.67 long TG @ 65K short TGI는 거대한 LLM 서버를 가지고 있었지만, 이제 저는 아주 작은 서버를 갖게 되었습니다! Llama-7B 시절, 오래전에 끝난 로보틱스 프로젝트 때문에 먼지만 쌓여가던 Jetson Orin NX가 있었습니다. 이제 MoE (Mixture of Experts)와 더 작은 모델들이 잘 작동하고 있으니, 다시 한번 만져볼 때가 되었다고 생각했습니다.
목표:
- 가능한 한 조용하게 (전력이 25W에서 40W로 상향된 점을 고려했을 때)
- Hermes Agent를 위해 최소 65K 컨텍스트에서 20 tok/s 이상의 TG(Time to First Token)와 300 tok/s 이상의 PP(Perplexity/Processing) 달성
- 엄청나게 멋져 보일 것 👌🏻
이러한 제약 조건 때문에, 기본 히트싱크(Heatsink)를 톱으로 잘라내고 새로운 케이스를 만들어야 했습니다. 그 후 너무나 많은 모델(예상했던 Gemma-4 및 Qwen 3.6 등)을 테스트했지만, 양자화(Quantization) 변형이 너무 많았습니다. 모든 내용은 블로그에 작성되어 있습니다!
요약(TL;DR): Gemma 4 26B A4B UD Q2_K_XL 사용 시:
- 66K 컨텍스트 윈도우(Context Window) 제공
- 긴 프롬프트에서도 여러 도구 호출(Tool Calls)을 꽤 잘 수행함
도움이 되길 바랍니다!
수정(EDIT): MTP (Multi-Token Prediction)를 적용한 Gemma-4 26B A3로 벤치마크를 실행해 보니 긴 컨텍스트에서 결과가 매우 좋습니다. 대략적인 속도 업데이트를 진행했으며, 오늘 중으로 전체 업데이트를 완료할 예정입니다. 목표로 했던 속도와 컨텍스트 길이에 상당히 근접했습니다!
MPT와 함께 사용한 Q2_K_XL, MTP 길이에 따른 속도 향상:
| depth | short TG | long TG @ 65K | 이전 베이스 대비 Δ |
|---|---|---|---|
| 1 | 19.29 | 10.67 | — |
| 2 | 21.36 | 13.96 | +3.29 |
| 3 | 21.90 | 16.48 | +2.52 |
| 4 | 23.18 | 17.85 | +1.37 |
다음 테스트는 양자화된 KV 캐시(KV Cache)와 함께 사용할 수 있는 IQ3_S를 대상으로 할 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기