Jetson에서 5개의 소형 멀티모달 모델을 실행해 보았습니다. 가장 빠른 모델이 최고의 베이스라인은 아니었습니다.

요약

산업용 엣지 AI 런타임 구축을 위해 Jetson 환경에서 5종의 소형 멀티모달 모델(SLM) 성능을 비교 테스트했습니다. 속도보다 산업 현장의 작업 지침과 정확한 구조화된 데이터 생성이 중요함을 확인했습니다.

핵심 포인트

Gemma 4 E2B가 산업용 에이전트 베이스라인으로 가장 적합함
Qwen2.5-VL은 OCR 및 시각 검사 작업에서 뛰어난 성능을 보임
SmolVLM2는 속도는 빠르나 답변의 구체성이 부족함
엣지 환경에서는 단순 지연 시간보다 작업 완료의 정확도가 핵심임

저는 웨어러블 산업용 엣지 AI 런타임(runtime)인 WearEdge Pro를 구축해 왔습니다. 스마트 글래스 장치를 착용한 최전선 작업자가 기계의 1인칭 이미지를 캡처하면, 로컬 Jetson 박스로부터 구조화된 액션 카드(structured action card)를 받는 상황을 상상해 보세요.

핵심 문구는 "구조화된 액션 카드"입니다. 이것은 단순한 채팅 데모가 아닙니다. 공장 환경에서 답변은 감사 추적(audit trail), 모드 경계(mode boundary), 인간 확인 게이트(human-confirmation gate), 그리고 유지보수, 품질, EHS(환경·보건·안전) 또는 작업 지침 워크플로로 전달할 수 있는 방법이 필요합니다.

최근 저는 동일한 Jetson 경로에서 5개의 소형 멀티모달 모델(multimodal models)을 테스트했습니다:

Gemma 4 E2B
Qwen2.5-VL-3B
SmolVLM2-2.2B
InternVL3-2B
Qwen2.5-Omni-3B

목표는 보편적인 벤치마크 챔피언을 가리는 것이 아니었습니다. 산업용 엣지 에이전트(Agent) 런타임에 가장 적합한 현재의 베이스라인(baseline)이 무엇인지 알고 싶었습니다.

테스트 환경 (The Harness)

모든 모델은 Jetson 상의 로컬 OpenAI 호환 llama.cpp 엔드포인트(endpoint)를 통해 노출되었습니다. 각 모델은 동일한 5개의 프롬프트(prompts)와 이미지를 받았습니다:

유지보수 (maintenance)
품질 검사 (quality inspection)
교체 (changeover)
작업 지침 (work instruction)
위험 검토 (hazard review)

주요 실행에는 560개의 이미지 토큰(image tokens)을 사용했으며, 이는 현재 WearEdge 게이트웨이 예산과 일치합니다. Qwen2.5-VL은 그라운딩(grounding)이 더 많은 시각적 토큰을 통해 개선될 수 있으므로 1024개의 이미지 토큰을 사용하는 테스트도 진행했습니다.

결과

모델	완료 (Completion)	평균 지연 시간 (Avg latency)	시사점 (Takeaway)
Gemma 4 E2B	5/5	37.51s raw	최고의 제품 베이스라인
...

SmolVLM2는 속도 면에서 뛰어났습니다. 하지만 답변이 실제 작업자 가이드로 쓰기에는 너무 일반적인 경우가 많았습니다. 교체(changeover) 및 작업 지침(work-instruction) 작업에서, 이 모델은 근거 있는 산업 가이드라기보다는 자리 표시자(placeholder)에 가까운 필드들을 반환했습니다.

Qwen2.5-VL은 가장 인상적인 도전자였습니다. Gemma가 기계 라벨 오타를 냈던 LABELER-FL1 및 SKU-C500 관련 교체 OCR 작업을 완벽하게 수행했습니다. 또한 유용한 IQC 결함 점수도 생성했습니다. 만약 제가 순수 OCR 또는 시각 검사 어시스턴트를 구축한다면, Qwen을 매우 진지하게 고려할 것입니다.

InternVL3는 토큰 속도(token speed)가 전부가 아니라는 점을 상기시켜 주었습니다. 2048 컨텍스트(context)에서는 5개 작업 중 3개에서 컨텍스트 오류(context errors)로 실패했습니다. 4096 컨텍스트에서는 작업을 완료했지만, 지연 시간(latency)이 높았고 하나의 원시 IQC 답변에는 안전하지 않은 릴리스 스타일(release-style)의 문구가 포함되어 있었습니다.

Qwen2.5-Omni는 깔끔하게 실행되었지만, 이 모델의 가장 강력한 가치는 현재의 이미지+텍스트 산업용 베이스라인(baseline)보다는 향후의 오디오/비디오 워크플로우(workflow)에 있을 것입니다.

왜 여전히 Gemma가 승리했는가

Gemma 4 E2B가 모든 마이크로 테스트(micro-test)에서 승리한 것은 아닙니다. 이 모델이 베이스라인으로 유지된 이유는 제품의 런타임(runtime)에 부합했기 때문입니다:

로컬 Jetson 배포
구조화된 멀티모달 프롬프트 (structured multimodal prompts)
긴 컨텍스트 워크플로우 설계 (long-context workflow design)
함수 호출 지향 아키텍처 (function-calling-oriented architecture)
결정론적 가드 (deterministic guards)
인간의 확인 (human confirmation)
액션 카드 (action cards)
감사 로그 (audit logs)

산업 현장에서는 "빠르고 유창함"만으로는 충분하지 않습니다. 모델은 "이것은 이 이미지에서 왔고, 이 경로를 거쳤으며, 이 필수 필드가 필요했고, 이 액션 경계 내에 있으며, 이 감사 기록에 해당한다"라고 말할 수 있는 시스템 내부에서 동작해야 합니다.

이것이 바로 Gemma가 WearEdge의 베이스라인으로 남은 이유이며, 반면 Qwen2.5-VL은 OCR 비중이 높은 분기(branches)를 위한 진지한 A/B 테스트 도전자가 된 이유입니다.

얻은 교훈

엣지 AI(Edge AI) 모델 선택은 단순히 리더보드(leaderboard)를 확인하는 작업이 아닙니다. 올바른 질문은 다음과 같습니다:

"이 모델이 로컬에서 실행될 수 있는가? 증거를 이해할 수 있는가? 워크플로우 경계를 준수할 수 있는가? 그리고 시스템이 감사할 수 있는 액션을 생성할 수 있는가?"

오늘날 WearEdge Pro의 경우, 답변은 Gemma 4 E2B를 베이스라인으로, Qwen2.5-VL을 차기 도전자로 설정하는 것이며, 모든 벤치마크 셀(benchmark cell)이 동일한 의미를 갖는 것처럼 가장하지 않고 지속적으로 테스트를 이어갈 수 있는 명확한 경로를 확보하는 것입니다.

공개 아티팩트 링크: 벤치마크 결과 및 공개 토론: https://www.hackster.io/ryanon2008/wearedge-pro-jetson-edge-ai-agent-50ec35

AI 자동 생성 콘텐츠

원문 바로가기

Jetson에서 5개의 소형 멀티모달 모델을 실행해 보았습니다. 가장 빠른 모델이 최고의 베이스라인은 아니었습니다.

요약

핵심 포인트

테스트 환경 (The Harness)

결과

왜 여전히 Gemma가 승리했는가

얻은 교훈

댓글