Show HN: Pip install inference, 오픈 소스 컴퓨터 비전 배포
요약
Roboflow의 'Inference'는 로컬 또는 엣지 디바이스를 강력한 컴퓨터 비전(CV) 명령 센터로 변모시키는 오픈 소스 도구입니다. 이 서버를 통해 사용자는 자체 파인튜닝 모델을 호스팅하고, Florence-2, CLIP 같은 최신 Foundation Model에 접근할 수 있습니다. 핵심은 '워크플로우(Workflows)' 기능으로, 객체 탐지, 분류, 분할부터 OCR, 바코드 인식 등 다양한 CV 기능을 조합하여 복잡한 마이크로 서비스나 자율 에이전트를 구축할 수 있게 합니다. Python SDK와 REST API를 거
핵심 포인트
- Inference 서버는 자체 파인튜닝 모델 호스팅을 지원하며, Florence-2, CLIP, SAM2 같은 최신 Foundation Model에 접근 가능합니다.
- 핵심 기능인 Workflows를 통해 객체 탐지/분류/분할부터 OCR, 바코드 인식까지 다양한 CV 기능을 조합하여 복잡한 비전 에이전트를 구축할 수 있습니다.
- Python SDK와 REST API를 제공하여 로컬 서버(localhost:9001)에서 모델 및 워크플로우 실행을 제어하며, 외부 시스템 연동도 용이합니다.
- RTSP 스트림이나 웹캠 장치 등 다양한 비디오 소스를 처리할 수 있으며, 하드웨어 가속, 멀티프로세싱 등을 자동으로 관리합니다.
Inference를 사용하면 모든 컴퓨터나 엣지 디바이스가 컴퓨터 비전 프로젝트의 명령 센터로 변신합니다.
- 🛠️ 직접 파인튜닝(fine-tuned)한 모델을 자체 호스팅(Self-host)할 수 있습니다.
- 🧠 최신 및 최고의 파운데이션 모델(foundation models) (예: Florence-2, CLIP, SAM2)에 접근할 수 있습니다.
- 🤝 워크플로우(Workflows)를 사용하여 추적(track), 계산(count), 시간 측정(time), 측정(measure), 시각화(visualize)가 가능합니다.
- 👁️ ML과 전통적인 CV 방법(예: OCR, 바코드 판독(Barcode Reading), QR 코드, 템플릿 매칭(template matching))을 결합할 수 있습니다.
- 📈 예측을 모니터링하고 기록하며 분석할 수 있습니다.
- 🎥 카메라 및 비디오 스트림을 관리합니다.
- 📬 이벤트 발생 시 알림을 보낼 수 있습니다.
- 🛜 외부 시스템 및 API와 연결할 수 있습니다.
- 🔗 자체 코드 및 모델로 확장(Extend)할 수 있습니다.
- 🚀 대규모로 프로덕션 시스템을 배포(Deploy)할 수 있습니다.
SAHI를 사용한 작은 객체 감지, 다중 모델 합의(multi-model consensus), 능동 학습(active learning), 차량 번호판 판독(reading license plates), 얼굴 흐림 처리(blurring faces), 배경 제거(background removal) 등 일반적인 사용 사례에 대한 예제 워크플로우를 확인해 보세요.
time-in-zone.mp4
Docker를 설치하고 (CUDA 지원 GPU가 있는 경우 NVIDIA Container Toolkit도 설치합니다). 그런 다음 다음 명령을 실행하세요:
pip install inference-cli && inference server start --dev
이렇게 하면 장치에 맞는 적절한 이미지를 가져와 개발 모드(development mode)로 시작됩니다.
개발 모드에서는 http://localhost:9001/notebook/start에서 빠른 시작 가이드가 포함된 Jupyter 노트북 서버가 실행됩니다. 이곳에서 새로운 Inference Server의 기능을 한눈에 살펴보세요!
이제 카메라 스트림을 연결하고 UI에서 워크플로우를 구축 및 배포하거나 API를 통해 새 서버와 상호 작용할 준비가 되었습니다.
Inference의 핵심 구성 요소는 **워크플로우(Workflows)**입니다. 이는 일반적인 기능 블록으로, 모델들이 체이닝(chaining)과 실험을 쉽게 할 수 있도록 공통 인터페이스를 제공합니다.
워크플로우를 사용하면 다음 작업을 수행할 수 있습니다:
- 최첨단 모델을 사용하여 이미지에서 객체를 감지(Detect), 분류(classify), 분할(segment)할 수 있습니다.
- 대규모 멀티모달 모델(Large Multimodal Models, LMMs)을 사용하여 워크플로우의 어느 단계에서든 판단을 내릴 수 있습니다.
- 주어진 작업에 대해 모델을 원활하게 교체(Seamlessly swap out models)할 수 있습니다.
- 여러 모델을 연결(Chain models together)할 수 있습니다.
- 객체를 추적, 계산, 시간 측정, 측정 및 시각화할 수 있습니다.
- 비즈니스 로직을 추가하고 외부 시스템과 연동하여 기능을 확장할 수 있습니다.
워크플로우는 간단한 모델 예측을 확장하여 더 큰 애플리케이션에 맞는 컴퓨터 비전 마이크로 서비스(computer vision micro-services)를 구축하거나, 비디오 스트림에서 실행되는 완전히 독립적인 시각 에이전트(visual agents)를 만들 수 있도록 합니다. 자세히 알아보기 위해 워크플로우 문서를 읽거나 지금 바로 구축을 시작해 보세요.
튜토리얼
- Tutorial: Build an AI-Powered Self-Serve Checkout (작성일: 2 Feb 2025) - 다양한 하드웨어 부품을 식별하고, 총 비용을 계산하며, 기록하는 컴퓨터 비전 앱을 만듭니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN Chip/GPU의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기