본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 16. 03:42

Jetson Orin NX SUPER 16GB를 기반으로 구축한 완전 오프라인 캐리어 로봇. Gemma 4 E4B, ~200ms 캐시된

요약

Jetson Orin NX SUPER 16GB 기반의 로봇 'Sparky'는 완전히 오프라인 환경에서 구동됩니다. 이 로봇은 llama.cpp와 Q4_K_M 방식의 Gemma 4 E4B 모델을 사용하여, 캐시된 TTFT 약 200ms 및 지속 속도 14-15 tok/s를 달성했습니다. STT(SenseVoiceSmall)와 TTS(Piper), 그리고 PixiJS 얼굴 구현 등 다양한 온디바이스 컴포넌트를 통합했으며, 특히 프롬프트 구조 최적화를 통해 캐시 안정성을 높여 성능을 크게 개선한 것이 핵심 성과입니다.

핵심 포인트

  • Jetson Orin NX SUPER 16GB를 활용하여 완전 오프라인 로봇 시스템 구축
  • Gemma 4 E4B 모델을 llama.cpp와 Q4_K_M 방식으로 구동하며, 캐시된 TTFT 약 200ms 달성
  • STT(SenseVoiceSmall), TTS(Piper) 등 다양한 온디바이스 컴포넌트를 통합하여 기능 구현
  • 프롬프트 구조를 Persona/Tools - History - Dynamic Context 순으로 최적화하여 캐시 안정성을 확보함
  • 네트워크 연결 없이 버튼, 조이스틱 등으로 모든 설정이 가능한 완전 독립형 시스템

Sparky는 완전히 Jetson에서 구동됩니다. llama.cpp를 통해 q8_0 KV cache 및 flash attention을 적용한 Q4_K_M 방식의 Gemma 4 E4B를 사용합니다. 12K 컨텍스트(context), 네이티브 시스템 역할(system role), 모델 카드(model card)의 기본 샘플러(sampler) 설정을 따릅니다. 캐시된 TTFT(Time To First Token)는 약 200ms이며, 지속적인 속도는 14-15 tok/s입니다. STT(Speech-to-Text)를 위해 SenseVoiceSmall을, 43Hz 입 모양 동기화를 갖춘 TTS(Text-to-Speech)를 위해 Piper를 사용하며, 덮개 디스플레이에는 PixiJS 얼굴을 구현했습니다. Vision 및 OCR은 이제 Gemma 4에 네이티브로 포함되어 있어 BLIP 서브프로세스는 제거되었습니다. 30개 이상의 센서 데이터는 매 턴마다 자연어 형태로 프롬프트(prompt)에 포함됩니다.

가장 큰 성과 중 하나는 캐시 안정성을 위한 프롬프트 구조였습니다. 페르소나(Persona)와 도구(tools)를 상단에, 히스토리(history)를 중간에, 변동성이 큰 센서 및 비전(vision) 데이터를 최신 사용자 턴의 마지막에 배치했습니다. 동적 컨텍스트(dynamic context)를 시스템 블록(system block)에서 분리함으로써 캐시된 TTFT를 수 초에서 약 200ms로 단축했습니다.

버튼 행, 조이스틱, 아날로그 인코더 노브를 통해 완전히 온디바이스(on-device)에서 설정 가능합니다. 네트워크 인터페이스는 전혀 없습니다.

다른 분들도 Orin급 하드웨어에서 E4B를 실행하고 계신지 궁금합니다. tok/s를 비교해 보고 싶고, 프리픽스 캐시(prefix cache)를 망가뜨리지 않으면서 센서나 도구 컨텍스트를 어떻게 처리하고 계신지 공유해 주시면 감사하겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0