Hermes Agent 벤치마킹을 위한 Jetson Orin NX 빌드

1110.67 long TG @ 65K short TGI는 거대한 LLM 서버를 가지고 있었지만, 이제 저는 아주 작은 서버를 갖게 되었습니다! Llama-7B 시절, 오래전에 끝난 로보틱스 프로젝트 때문에 먼지만 쌓여가던 Jetson Orin NX가 있었습니다. 이제 MoE (Mixture of Experts)와 더 작은 모델들이 잘 작동하고 있으니, 다시 한번 만져볼 때가 되었다고 생각했습니다.

목표:

가능한 한 조용하게 (전력이 25W에서 40W로 상향된 점을 고려했을 때)
Hermes Agent를 위해 최소 65K 컨텍스트에서 20 tok/s 이상의 TG(Time to First Token)와 300 tok/s 이상의 PP(Perplexity/Processing) 달성
엄청나게 멋져 보일 것 👌🏻

이러한 제약 조건 때문에, 기본 히트싱크(Heatsink)를 톱으로 잘라내고 새로운 케이스를 만들어야 했습니다. 그 후 너무나 많은 모델(예상했던 Gemma-4 및 Qwen 3.6 등)을 테스트했지만, 양자화(Quantization) 변형이 너무 많았습니다. 모든 내용은 블로그에 작성되어 있습니다!

요약(TL;DR): Gemma 4 26B A4B UD Q2_K_XL 사용 시:

66K 컨텍스트 윈도우(Context Window) 제공
긴 프롬프트에서도 여러 도구 호출(Tool Calls)을 꽤 잘 수행함

도움이 되길 바랍니다!

수정(EDIT): MTP (Multi-Token Prediction)를 적용한 Gemma-4 26B A3로 벤치마크를 실행해 보니 긴 컨텍스트에서 결과가 매우 좋습니다. 대략적인 속도 업데이트를 진행했으며, 오늘 중으로 전체 업데이트를 완료할 예정입니다. 목표로 했던 속도와 컨텍스트 길이에 상당히 근접했습니다!

MPT와 함께 사용한 Q2_K_XL, MTP 길이에 따른 속도 향상:

depth	short TG	long TG @ 65K	이전 베이스 대비 Δ
1	19.29	10.67	—
2	21.36	13.96	+3.29
3	21.90	16.48	+2.52
4	23.18	17.85	+1.37

다음 테스트는 양자화된 KV 캐시(KV Cache)와 함께 사용할 수 있는 IQ3_S를 대상으로 할 예정입니다.

Insights

Hermes Agent 벤치마킹을 위한 Jetson Orin NX 빌드

요약

핵심 포인트

댓글

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터