메이커가 Nvidia Jetson 기반의 이동식 캐리어에 주관이 뚜렷하고 눈이 커다란 AI 챗봇을 담았습니다 — Gemma 4 E4B를
요약
레딧 사용자 CreativelyBankrupt가 Nvidia Jetson Orin NX Super 16GB를 기반으로 Gemma 4 E4B 모델을 구동하는 'Sparky'라는 완전 오프라인 캐리어 로봇 동반자를 제작했습니다. 이 로봇은 Wi-Fi나 셀룰러 연결 없이도 작동하며, 30개 이상의 센서 배열과 최적화된 LLM 실행 환경 덕분에 뛰어난 현장 인지 능력과 빠른 응답 속도를 자랑합니다. Sparky는 llama.cpp를 통해 Gemma 4 E4B 모델을 Q4_K_M 방식으로 구동하고, STT(SenseVoiceSmall)와 TTS(Piper)를 사용하여 자연스러운 음성 상호작용이 가능하며, Vision 및 OCR 기능까지 네이티브로 탑재하여 높은 완성도를 보여줍니다.
핵심 포인트
- Nvidia Jetson Orin NX Super 16GB 기반의 'Sparky'라는 오프라인 캐리어 로봇 제작 사례입니다.
- LLM으로 Gemma 4 E4B를 사용하며, llama.cpp와 Q4_K_M 양자화 방식을 적용하여 효율성을 극대화했습니다.
- 30개 이상의 센서 배열을 통해 외부 환경에 대한 높은 상황 인지(context awareness) 능력을 갖추었습니다.
- TTFT 약 200ms, 초당 14-15 토큰 속도로 빠른 응답 속도를 구현했으며, STT/TTS를 활용한 자연스러운 음성 상호작용이 가능합니다.
셀룰러나 Wi-Fi 연결 없이도 어디서나 대화할 수 있는 빠르고 유능하며 주관이 뚜렷한 로봇 동반자를 원한다면, 레딧(Redditor) 사용자 CreativelyBankrupt가 보여줄 것이 있습니다. 이 LLM(대규모 언어 모델) 열성가는 "Jetson Orin NX Super 16GB"를 기반으로 한 "완전 오프라인 캐리어 로봇"인 Sparky를 설계했습니다. 이 로봇은 Gemma 4 E4B를 로컬에서 실행하며, 상황 인지(context awareness)를 위해 30개 이상의 센서를 포함하고 있고, "그는 주관이 있습니다." 아래에 삽입된 영상에서 그것이 무엇을 의미하는지 확인하고, 캐리어 안팎에서 Sparky의 커다란 눈을 목격할 수 있습니다.
Jetson Orin NX SUPER 16GB를 기반으로 완전 오프라인 캐리어 로봇을 제작했습니다. Gemma 4 E4B, 약 200ms의 캐시된 TTFT(첫 토큰 생성 시간), 30개 이상의 센서, WiFi/BT/셀룰러 없음. 그는 주관이 있습니다. r/LocalLLaMA 출처
따라서 Sparky는 단순히 휴대 가능한 것뿐만 아니라, 처리 능력과 상당한 규모의 센서 배열 덕분에 오프그리드(off-grid) 상태에서도 외부에서 활동할 때 무시할 수 없는 존재감을 보여줍니다. 하지만 영상 속 대화들을 들어본 후라면, 저는 Sparky를 집에 두고 대신 Marvin the Paranoid Android를 데리고 나가고 싶어질 것 같습니다.
r/LocalLLaMA 서브레딧에서 CreativelyBankrupt는 이 개성 넘치는 디지털 동반자를 위한 '레시피'를 설명합니다. CreativelyBankrupt는 "Sparky는 전적으로 Jetson에서 실행됩니다. llama.cpp를 통해 Q4_K_M 방식의 Gemma 4 E4B를 사용하며, q8_0 KV 캐시(KV cache)와 플래시 어텐션(flash attention)을 적용했습니다. 12K 컨텍스트(context, 대화 메모리), 네이티브 시스템 역할(native system role)을 갖추고 있습니다"라고 설명합니다. 또한, 30개 이상의 광범위한 센서 배열은 당신이 Sparky를 데려가는 곳 어디에서든 그에게 현실 세계를 바라볼 수 있는 창을 제공합니다.
이 캐리어 형태의 로봇은 성능 또한 준수합니다. 이 LLM 애호가(enthusiast)에 따르면, 약 200ms의 첫 토큰 생성 시간 (TTFT, Time To First Token) 덕분에 Sparky는 매우 빠르게 응답 구성을 시작할 수 있으며, 이후 초당 약 14-15개의 토큰 속도로 실행됩니다. 더욱이, 음성-텍스트 변환 (STT, Speech-to-Text)에는 SenseVoiceSmall을, 텍스트-음성 변환 (TTS, Text-to-Speech)에는 Piper를 사용하여 (로봇치고는) 자연스러운 응답을 제공합니다. Piper는 PixiJS 얼굴과 동기화되어 있으며, 입 애니메이션은 43Hz로 업데이트됩니다. CreativelyBankrupt는 "이제 Vision과 OCR이 Gemma 4에 네이티브로 탑재되었습니다"라고 언급했습니다. 또한 버튼 행, 조이스틱, 아날로그 인코더 노브를 사용하여 Sparky를 설정하고 상호작용할 수 있습니다.
CreativelyBankrupt는 Reddit에 Sparky의 탄생 과정을 공유했는데, 이는 부분적으로 __Orin급 하드웨어__에서 Gemma 4 E4B를 최적화하기 위한 힌트와 팁을 구하기 위함이었습니다. 하지만 응답자들은 대부분 이 "멋지고... 사랑스럽고... 귀엽고... 키치한..." 프로젝트에 경탄하고 있습니다.
최신 뉴스, 분석 및 리뷰를 피드에서 받아보려면 Google 뉴스에서 Tom's Hardware를 팔로우하거나, 저희를 선호하는 소스로 추가하세요.
Tom's Hardware의 최고의 뉴스 및 심층 리뷰를 편지함으로 직접 받아보세요.
Mark Tyson은 Tom's Hardware의 뉴스 에디터입니다. 그는 비즈니스와 반도체 설계부터 이성의 한계에 다다르는 제품에 이르기까지 PC 기술의 모든 범위를 다루는 것을 즐깁니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Tom's Hardware의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기