본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 09:00

Hermes Agent 벤치마킹을 위한 Jetson Orin NX 빌드

요약

Jetson Orin NX를 활용하여 Hermes Agent 벤치마킹을 위한 소형 서버를 구축한 사례입니다. Gemma 4 26B 모델과 MTP(Multi-Token Prediction) 기술을 적용하여 긴 컨텍스트 환경에서의 성능과 속도를 최적화했습니다.

핵심 포인트

  • Jetson Orin NX 기반의 저전력 소형 LLM 서버 구축
  • Gemma 4 26B 모델과 MTP 적용을 통한 긴 컨텍스트 성능 향상
  • 65K 컨텍스트 환경에서 목표 속도에 근접한 벤치마크 달성
  • 하드웨어 제약 조건에 따른 히트싱크 개조 및 케이스 제작

1110.67 long TG @ 65K short TGI는 거대한 LLM 서버를 가지고 있었지만, 이제 저는 아주 작은 서버를 갖게 되었습니다! Llama-7B 시절, 오래전에 끝난 로보틱스 프로젝트 때문에 먼지만 쌓여가던 Jetson Orin NX가 있었습니다. 이제 MoE (Mixture of Experts)와 더 작은 모델들이 잘 작동하고 있으니, 다시 한번 만져볼 때가 되었다고 생각했습니다.

목표:

  • 가능한 한 조용하게 (전력이 25W에서 40W로 상향된 점을 고려했을 때)
  • Hermes Agent를 위해 최소 65K 컨텍스트에서 20 tok/s 이상의 TG(Time to First Token)와 300 tok/s 이상의 PP(Perplexity/Processing) 달성
  • 엄청나게 멋져 보일 것 👌🏻

이러한 제약 조건 때문에, 기본 히트싱크(Heatsink)를 톱으로 잘라내고 새로운 케이스를 만들어야 했습니다. 그 후 너무나 많은 모델(예상했던 Gemma-4 및 Qwen 3.6 등)을 테스트했지만, 양자화(Quantization) 변형이 너무 많았습니다. 모든 내용은 블로그에 작성되어 있습니다!

요약(TL;DR): Gemma 4 26B A4B UD Q2_K_XL 사용 시:

  • 66K 컨텍스트 윈도우(Context Window) 제공
  • 긴 프롬프트에서도 여러 도구 호출(Tool Calls)을 꽤 잘 수행함

도움이 되길 바랍니다!

수정(EDIT): MTP (Multi-Token Prediction)를 적용한 Gemma-4 26B A3로 벤치마크를 실행해 보니 긴 컨텍스트에서 결과가 매우 좋습니다. 대략적인 속도 업데이트를 진행했으며, 오늘 중으로 전체 업데이트를 완료할 예정입니다. 목표로 했던 속도와 컨텍스트 길이에 상당히 근접했습니다!

MPT와 함께 사용한 Q2_K_XL, MTP 길이에 따른 속도 향상:

depthshort TGlong TG @ 65K이전 베이스 대비 Δ
119.2910.67
221.3613.96+3.29
321.9016.48+2.52
423.1817.85+1.37

다음 테스트는 양자화된 KV 캐시(KV Cache)와 함께 사용할 수 있는 IQ3_S를 대상으로 할 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0