Hermes Agent 벤치마킹을 위한 Jetson Orin NX 빌드

1110.67 long TG @ 65K short TGI는 거대한 LLM 서버를 가지고 있었지만, 이제 저는 아주 작은 서버를 갖게 되었습니다! Llama-7B 시절, 오래전에 끝난 로보틱스 프로젝트 때문에 먼지만 쌓여가던 Jetson Orin NX가 있었습니다. 이제 MoE (Mixture of Experts)와 더 작은 모델들이 잘 작동하고 있으니, 다시 한번 만져볼 때가 되었다고 생각했습니다.

목표:

가능한 한 조용하게 (전력이 25W에서 40W로 상향된 점을 고려했을 때)
Hermes Agent를 위해 최소 65K 컨텍스트에서 20 tok/s 이상의 TG(Time to First Token)와 300 tok/s 이상의 PP(Perplexity/Processing) 달성
엄청나게 멋져 보일 것 👌🏻

이러한 제약 조건 때문에, 기본 히트싱크(Heatsink)를 톱으로 잘라내고 새로운 케이스를 만들어야 했습니다. 그 후 너무나 많은 모델(예상했던 Gemma-4 및 Qwen 3.6 등)을 테스트했지만, 양자화(Quantization) 변형이 너무 많았습니다. 모든 내용은 블로그에 작성되어 있습니다!

요약(TL;DR): Gemma 4 26B A4B UD Q2_K_XL 사용 시:

66K 컨텍스트 윈도우(Context Window) 제공
긴 프롬프트에서도 여러 도구 호출(Tool Calls)을 꽤 잘 수행함

도움이 되길 바랍니다!

수정(EDIT): MTP (Multi-Token Prediction)를 적용한 Gemma-4 26B A3로 벤치마크를 실행해 보니 긴 컨텍스트에서 결과가 매우 좋습니다. 대략적인 속도 업데이트를 진행했으며, 오늘 중으로 전체 업데이트를 완료할 예정입니다. 목표로 했던 속도와 컨텍스트 길이에 상당히 근접했습니다!

MPT와 함께 사용한 Q2_K_XL, MTP 길이에 따른 속도 향상:

depth	short TG	long TG @ 65K	이전 베이스 대비 Δ
1	19.29	10.67	—
2	21.36	13.96	+3.29
3	21.90	16.48	+2.52
4	23.18	17.85	+1.37

다음 테스트는 양자화된 KV 캐시(KV Cache)와 함께 사용할 수 있는 IQ3_S를 대상으로 할 예정입니다.

Insights

Hermes Agent 벤치마킹을 위한 Jetson Orin NX 빌드

요약

핵심 포인트

댓글

AI에게 얼마나 위임할 수 있을지는 직접 광범위하게 사용해 보기 전까지는 알 수 없습니다

Codex GPT-5.4 은퇴: Terra 또는 Luna로의 로그인 워크플로 마이그레이션 체크리스트

7월 19일 이후 Claude 구독 변화 — Max 플랜의 Fable은 전체 풀의 최대 50%를 소모하며, Pro 플랜은 첫 요청부터

64비트 어셈블리의 기술

Codex GPT-5.4 은퇴: Terra 또는 Luna로의 로그인 워크플로 마이그레이션 체크리스트

7월 19일 이후 Claude 구독 변화 — Max 플랜의 Fable은 전체 풀의 최대 50%를 소모하며, Pro 플랜은 첫 요청부터

64비트 어셈블리의 기술