Tom's HW헤드라인2026. 05. 17. 19:15

메이커가 Nvidia Jetson 기반의 이동식 캐리어에 주관이 뚜렷하고 눈이 커다란 AI 챗봇을 담았습니다 — Gemma 4 E4B를

요약

레딧 사용자 CreativelyBankrupt가 Nvidia Jetson Orin NX Super 16GB를 기반으로 Gemma 4 E4B 모델을 구동하는 'Sparky'라는 완전 오프라인 캐리어 로봇 동반자를 제작했습니다. 이 로봇은 Wi-Fi나 셀룰러 연결 없이도 작동하며, 30개 이상의 센서 배열과 최적화된 LLM 실행 환경 덕분에 뛰어난 현장 인지 능력과 빠른 응답 속도를 자랑합니다. Sparky는 llama.cpp를 통해 Gemma 4 E4B 모델을 Q4_K_M 방식으로 구동하고, STT(SenseVoiceSmall)와 TTS(Piper)를 사용하여 자연스러운 음성 상호작용이 가능하며, Vision 및 OCR 기능까지 네이티브로 탑재하여 높은 완성도를 보여줍니다.

핵심 포인트

Nvidia Jetson Orin NX Super 16GB 기반의 'Sparky'라는 오프라인 캐리어 로봇 제작 사례입니다.
LLM으로 Gemma 4 E4B를 사용하며, llama.cpp와 Q4_K_M 양자화 방식을 적용하여 효율성을 극대화했습니다.
30개 이상의 센서 배열을 통해 외부 환경에 대한 높은 상황 인지(context awareness) 능력을 갖추었습니다.
TTFT 약 200ms, 초당 14-15 토큰 속도로 빠른 응답 속도를 구현했으며, STT/TTS를 활용한 자연스러운 음성 상호작용이 가능합니다.

셀룰러나 Wi-Fi 연결 없이도 어디서나 대화할 수 있는 빠르고 유능하며 주관이 뚜렷한 로봇 동반자를 원한다면, 레딧(Redditor) 사용자 CreativelyBankrupt가 보여줄 것이 있습니다. 이 LLM(대규모 언어 모델) 열성가는 "Jetson Orin NX Super 16GB"를 기반으로 한 "완전 오프라인 캐리어 로봇"인 Sparky를 설계했습니다. 이 로봇은 Gemma 4 E4B를 로컬에서 실행하며, 상황 인지(context awareness)를 위해 30개 이상의 센서를 포함하고 있고, "그는 주관이 있습니다." 아래에 삽입된 영상에서 그것이 무엇을 의미하는지 확인하고, 캐리어 안팎에서 Sparky의 커다란 눈을 목격할 수 있습니다.

Jetson Orin NX SUPER 16GB를 기반으로 완전 오프라인 캐리어 로봇을 제작했습니다. Gemma 4 E4B, 약 200ms의 캐시된 TTFT(첫 토큰 생성 시간), 30개 이상의 센서, WiFi/BT/셀룰러 없음. 그는 주관이 있습니다. r/LocalLLaMA 출처

따라서 Sparky는 단순히 휴대 가능한 것뿐만 아니라, 처리 능력과 상당한 규모의 센서 배열 덕분에 오프그리드(off-grid) 상태에서도 외부에서 활동할 때 무시할 수 없는 존재감을 보여줍니다. 하지만 영상 속 대화들을 들어본 후라면, 저는 Sparky를 집에 두고 대신 Marvin the Paranoid Android를 데리고 나가고 싶어질 것 같습니다.

r/LocalLLaMA 서브레딧에서 CreativelyBankrupt는 이 개성 넘치는 디지털 동반자를 위한 '레시피'를 설명합니다. CreativelyBankrupt는 "Sparky는 전적으로 Jetson에서 실행됩니다. llama.cpp를 통해 Q4_K_M 방식의 Gemma 4 E4B를 사용하며, q8_0 KV 캐시(KV cache)와 플래시 어텐션(flash attention)을 적용했습니다. 12K 컨텍스트(context, 대화 메모리), 네이티브 시스템 역할(native system role)을 갖추고 있습니다"라고 설명합니다. 또한, 30개 이상의 광범위한 센서 배열은 당신이 Sparky를 데려가는 곳 어디에서든 그에게 현실 세계를 바라볼 수 있는 창을 제공합니다.

이 캐리어 형태의 로봇은 성능 또한 준수합니다. 이 LLM 애호가(enthusiast)에 따르면, 약 200ms의 첫 토큰 생성 시간 (TTFT, Time To First Token) 덕분에 Sparky는 매우 빠르게 응답 구성을 시작할 수 있으며, 이후 초당 약 14-15개의 토큰 속도로 실행됩니다. 더욱이, 음성-텍스트 변환 (STT, Speech-to-Text)에는 SenseVoiceSmall을, 텍스트-음성 변환 (TTS, Text-to-Speech)에는 Piper를 사용하여 (로봇치고는) 자연스러운 응답을 제공합니다. Piper는 PixiJS 얼굴과 동기화되어 있으며, 입 애니메이션은 43Hz로 업데이트됩니다. CreativelyBankrupt는 "이제 Vision과 OCR이 Gemma 4에 네이티브로 탑재되었습니다"라고 언급했습니다. 또한 버튼 행, 조이스틱, 아날로그 인코더 노브를 사용하여 Sparky를 설정하고 상호작용할 수 있습니다.

CreativelyBankrupt는 Reddit에 Sparky의 탄생 과정을 공유했는데, 이는 부분적으로 __Orin급 하드웨어__에서 Gemma 4 E4B를 최적화하기 위한 힌트와 팁을 구하기 위함이었습니다. 하지만 응답자들은 대부분 이 "멋지고... 사랑스럽고... 귀엽고... 키치한..." 프로젝트에 경탄하고 있습니다.

최신 뉴스, 분석 및 리뷰를 피드에서 받아보려면 Google 뉴스에서 Tom's Hardware를 팔로우하거나, 저희를 선호하는 소스로 추가하세요.

Tom's Hardware의 최고의 뉴스 및 심층 리뷰를 편지함으로 직접 받아보세요.

Mark Tyson은 Tom's Hardware의 뉴스 에디터입니다. 그는 비즈니스와 반도체 설계부터 이성의 한계에 다다르는 제품에 이르기까지 PC 기술의 모든 범위를 다루는 것을 즐깁니다.

AI 자동 생성 콘텐츠

원문 바로가기

메이커가 Nvidia Jetson 기반의 이동식 캐리어에 주관이 뚜렷하고 눈이 커다란 AI 챗봇을 담았습니다 — Gemma 4 E4B를

요약

핵심 포인트

댓글