Jetson Orin NX SUPER 16GB를 기반으로 구축한 완전 오프라인 캐리어 로봇. Gemma 4 E4B, ~200ms 캐시된

Sparky는 완전히 Jetson에서 구동됩니다. llama.cpp를 통해 q8_0 KV cache 및 flash attention을 적용한 Q4_K_M 방식의 Gemma 4 E4B를 사용합니다. 12K 컨텍스트(context), 네이티브 시스템 역할(system role), 모델 카드(model card)의 기본 샘플러(sampler) 설정을 따릅니다. 캐시된 TTFT(Time To First Token)는 약 200ms이며, 지속적인 속도는 14-15 tok/s입니다. STT(Speech-to-Text)를 위해 SenseVoiceSmall을, 43Hz 입 모양 동기화를 갖춘 TTS(Text-to-Speech)를 위해 Piper를 사용하며, 덮개 디스플레이에는 PixiJS 얼굴을 구현했습니다. Vision 및 OCR은 이제 Gemma 4에 네이티브로 포함되어 있어 BLIP 서브프로세스는 제거되었습니다. 30개 이상의 센서 데이터는 매 턴마다 자연어 형태로 프롬프트(prompt)에 포함됩니다.

가장 큰 성과 중 하나는 캐시 안정성을 위한 프롬프트 구조였습니다. 페르소나(Persona)와 도구(tools)를 상단에, 히스토리(history)를 중간에, 변동성이 큰 센서 및 비전(vision) 데이터를 최신 사용자 턴의 마지막에 배치했습니다. 동적 컨텍스트(dynamic context)를 시스템 블록(system block)에서 분리함으로써 캐시된 TTFT를 수 초에서 약 200ms로 단축했습니다.

버튼 행, 조이스틱, 아날로그 인코더 노브를 통해 완전히 온디바이스(on-device)에서 설정 가능합니다. 네트워크 인터페이스는 전혀 없습니다.

다른 분들도 Orin급 하드웨어에서 E4B를 실행하고 계신지 궁금합니다. tok/s를 비교해 보고 싶고, 프리픽스 캐시(prefix cache)를 망가뜨리지 않으면서 센서나 도구 컨텍스트를 어떻게 처리하고 계신지 공유해 주시면 감사하겠습니다.

Insights

Jetson Orin NX SUPER 16GB를 기반으로 구축한 완전 오프라인 캐리어 로봇. Gemma 4 E4B, ~200ms 캐시된

요약

핵심 포인트

댓글

나의 개인적인 AI 벤치마크: “합스부르크 턱을 가진 개구리의 SVG를 생성하라”

Version 1.1에서 늘린 것은 기능이 아니라 가시성이었다

아무도 이야기하지 않는 AI 포지셔닝 위기

Vercel AI Gateway에서 Qwen 3.8 Max를 이제 사용할 수 있습니다

Version 1.1에서 늘린 것은 기능이 아니라 가시성이었다

아무도 이야기하지 않는 AI 포지셔닝 위기

Vercel AI Gateway에서 Qwen 3.8 Max를 이제 사용할 수 있습니다