NVIDIA-AI-Blueprints/video-search-and-summarization
요약
NVIDIA의 Video Search and Summarization (VSS) 블루프린트는 비전 에이전트와 AI 기반 비디오 분석 애플리케이션 구축을 위한 참조 아키텍처를 제공합니다. 이는 가속화된 비전 마이크로서비스, Vision Language Models (VLMs), 그리고 Large Language Models (LLMs)을 결합하여 작동하며, 실시간 스트림 이해, 다운스트림 메타데이터 분석, 에이전트 오케스트레이션을 통해 대규모 비디오 데이터에서 검색, 요약, Q&A 기능을 수행합니다. 이 아키텍처는 스마트 공간 모니터링이나 창고 자동화 등 다양한 산업 분야의 비전 AI 에이전트 배포를 목표로 합니다.
핵심 포인트
- VSS 블루프린트는 비전 에이전트를 구축하기 위한 참조 아키텍처 세트를 제공합니다.
- 아키텍처는 실시간 스트림 이해, 다운스트림 분석, 에이전트 오케스트레이션의 3단계 처리 영역으로 구성됩니다.
- 핵심 기술 스택으로는 VLMs, LLMs와 NVIDIA NIM 마이크로서비스가 활용됩니다.
- 사용자는 Model Context Protocol (MCP)을 통해 비디오 데이터에 접근하고 검색, 요약, Q&A 등의 기능을 수행할 수 있습니다.
- 이 솔루션은 스마트 공간 모니터링, 창고 자동화 등 다양한 산업 분야의 운영 효율성 향상에 기여합니다.
- 개요 (Overview)
- 사용 사례 / 문제 설명 (Use Case / Problem Description)
- 에이전트 워크플로우 (Agent Workflows)
- 소프트웨어 구성 요소 (Software Components)
- 대상 독자 (Target Audience)
- 리포지토리 구조 개요 (Repository Structure Overview)
- 문서 (Documentation)
- 전제 조건 (Prerequisites)
- 하드웨어 요구 사항 (Hardware Requirements)
- 퀵스타트 가이드 (Quickstart Guide)
- 라이선스 (License)
NVIDIA의 비디오 검색 및 요약 (Video Search and Summarization, VSS) 블루프린트는 비전 에이전트 (vision agents) 및 AI 기반 비디오 분석 애플리케이션을 구축하기 위한 참조 아키텍처 세트를 제공합니다. 이러한 아키텍처는 가속화된 비전 마이크로서비스 (vision microservices), 비전 언어 모델 (Vision Language Models, VLMs), 그리고 대규모 언어 모델 (Large Language Models, LLMs)을 결합하여, 기존 애플리케이션에서 사용하거나 독립형 마이크로서비스 또는 더 큰 비전 에이전트의 일부로 사용할 수 있도록 합니다.
VSS는 처리 및 분석의 세 가지 영역으로 구성됩니다: 실시간 비디오 인텔리전스 (real-time video intelligence) (특징 추출 (feature extraction), 임베딩 (embeddings), 그리고 메시지 브로커 (message broker)에 결과를 게시하는 스트림 이해 (stream understanding)), 다운스트림 분석 (downstream analytics) (메타데이터를 궤적 (trajectories), 사건 (incidents), 검증된 알림 (verified alerts)으로 풍부화), 그리고 에이전트 및 오프라인 처리 (agentic and offline processing) (Model Context Protocol을 포함하여 검색, 질의응답 (Q&A), 요약 및 클립 검색을 위해 오케스트레이션된 도구들).
이 리포지토리는 블루프린트를 구현하며, 생성형 AI (generative AI), VLMs, LLMs, 그리고 아래 스택에 구성된 NVIDIA NIM 마이크로서비스를 기반으로 하는 자연어 비디오 에이전트(검색, 요약, 시각적 Q&A 및 관련 워크플로우)를 위한 NVIDIA 빌드 경험을 지원합니다.
NVIDIA의 비디오 검색 및 요약 (Video Search and Summarization) AI 블루프린트는 저장되거나 스트리밍되는 대량의 비디오 데이터와 상호작용할 수 있는 비전 에이전트를 배포하는 과제를 해결합니다. 이는 스마트 공간 모니터링, 창고 자동화, SOP 검증과 같은 수많은 사용 사례에 적용될 수 있는 비전 AI 에이전트를 생성하는 데 사용될 수 있습니다. 이는 빠르고 정확한 비디오 분석이 더 나은 의사 결정과 향상된 운영 효율성으로 이어질 수 있는 분야에서 중요합니다.
우리는 개별 구성 요소가 에이전트에 의해 어떻게 활용될 수 있는지를 보여주는 여러 참조 에이전트 워크플로우 (Agent Workflows)를 제공합니다:
| 워크플로우 (Workflow) | 설명 (Description) |
|---|---|
| Q&A 및 보고서 생성 (Quickstart) | 짧은 비디오 클립에 대한 비디오 검색 (Video retrieval), VLM 기반 Q&A 및 보고서 생성 |
| ... |
NIM 마이크로서비스 (NIM microservices): 이 블루프린트에서 사용되는 모델은 다음과 같습니다: -
실시간 비디오 인텔리전스 (Real-time video intelligence): Real-Time Video Intelligence 레이어는 비디오 데이터로부터 풍부한 시각적 특징 (Visual features), 의미론적 임베딩 (Semantic embeddings), 그리고 문맥적 이해 (Contextual understanding)를 실시간으로 추출하며, 하위 분석 (Downstream analytics) 및 에이전트 워크플로우 (Agentic workflows)를 위해 메시지 브로커 (Message broker)로 결과를 게시합니다. 비디오 스트림 처리를 위해 세 가지 핵심 마이크로서비스를 제공합니다. -
하위 분석 (Downstream analytics): Downstream Analytics 레이어는 실시간 비디오 인텔리전스 마이크로서비스에서 생성된 메타데이터 스트림을 처리하고 풍부하게 하여, 가공되지 않은 탐지 (Raw detections) 데이터를 실행 가능한 인사이트 (Actionable insights) 및 검증된 알림 (Verified alerts)으로 변환합니다. -
에이전트 및 오프라인 처리 (Agent and offline processing): 최상위 에이전트는 모델 컨텍스트 프로토콜 (Model Context Protocol, MCP)을 활용하여 통합 도구 인터페이스를 통해 비디오 분석 데이터, 사고 기록, 그리고 비전 처리 기능에 접근합니다. 이는 Vision Language Models (VLMs)를 이용한 비디오 이해, 임베딩을 사용한 의미론적 비디오 검색 (Semantic video search), 긴 영상 분석을 위한 긴 비디오 요약 (Long video summarization), 그리고 비디오 스냅샷/클립 검색을 포함한 여러 비전 기반 도구들을 통합합니다.
이 블루프린트는 광범위한 설정 옵션을 제공하여 설정이 용이하도록 설계되었으나, 기술적 전문 지식이 필요합니다. 다음을 대상으로 합니다:
- 비디오 분석가 및 IT 엔지니어 (Video Analysts and IT Engineers): 비디오 데이터 분석과 효율적인 처리 및 요약(summarization)을 보장하는 데 집중하는 전문가입니다. 이 블루프린트는 1클릭 배포 단계, 관리하기 쉬운 설정, 플러그 앤 플레이 (plug-and-play) 모델을 제공하여 초기 개발자들도 쉽게 접근할 수 있습니다.
- 생성형 AI 개발자 / 머신러닝 엔지니어 (GenAI Developers / Machine Learning Engineers): 특정 사용 사례에 맞춰 블루프린트를 커스터마이징해야 하는 전문가입니다. 여기에는 고유한 데이터셋을 위한 파이프라인 (pipelines) 수정 및 필요에 따른 LLM (Large Language Models) 미세 조정 (fine-tuning) 등이 포함됩니다. 고급 사용자를 위해 이 블루프린트는 상세한 설정 옵션과 사용자 정의 배포 가능성을 제공하여 광범위한 커스터마이징과 최적화를 가능하게 합니다.
| 디렉토리 (Directory) | 설명 (Description) |
|---|---|
agent/ | 비디오 검색 및 요약 에이전트 (Video search and summarization agent) (Python). src/vss_agents/ (도구, 에이전트, API, 임베딩, 평가기, 비디오 분석), tests/, stubs/, docker/, 3rdparty/를 포함합니다. agent/README.md를 참조하세요. |
deployments/ | 배포 설정 및 Docker Compose: NIM 모델 설정 (nim/), 개발자 워크플로우 (developer-workflow/ — dev-profile-base, dev-profile-search, dev-profile-alerts, dev-profile-lvs), 기초 서비스, LVS, RTVI, VLM-as-verifier, VST, 그리고 루트 compose.yml을 포함합니다. |
scripts/ | Brev 실행 가능 노트북 (deploy_vss_launchable.ipynb) 및 dev-profile / 패치 스크립트를 포함한 배포 및 패치 스크립트. |
skills/ | VSS를 위한 agentskills.io 호환 에이전트 기술 (agent skills): SKILL.md 프런트매터 (frontmatter)를 포함하여 기술당 하나의 독립된 하위 디렉토리로 구성됩니다. 검색, 요약, 알림, VIOS, RT-VLM, LVS 및 기타 관련 워크플로우의 배포 및 사용법을 다룹니다. skills/README.md의 카탈로그 및 설치 노트를 참조하세요. |
ui/ | 프런트엔드 모노레포 (Frontend monorepo) (Next.js, Turbo): apps/ (nemo-agent-toolkit-ui, nv-metropolis-bp-vss-ui) 및 공유 packages/를 포함합니다. ui/README.md를 참조하세요. |
이 블루프린트에 대한 자세한 지침과 추가 정보는 공식 문서를 참조하십시오.
- NVIDIA NIM을 로컬 호스트에 실행하려면 NVIDIA AI Enterprise 개발자 라이선스 (developer licence)가 필요합니다.
- API 카탈로그 키 (API catalog keys):
- NVIDIA API 카탈로그 또는 NGC (키 생성 단계 참조)
플랫폼 요구 사항은 VSS 및 VLM, LLM 등과 같은 종속성(dependencies)을 위해 사용되는 구성 및 배포 토폴로지 (deployment topology)에 따라 달라질 수 있습니다. 검증된 GPU 토폴로지 목록과 사용할 구성에 대해서는 GPU 요구 사항을 참조하십시오.
적합한 용도: 하드웨어 및 소프트웨어 요구 사항에 대해 걱정할 필요 없이 자신의 비디오로 빠르게 시작하고 싶은 경우.
모든 사전 요구 사항을 완료하고 2xRTX PRO 6000 SE AWS 인스턴스에서 Brev Launchable을 사용하여 블루프린트를 배포하려면 문서와 scripts 디렉토리에 있는 노트북의 단계를 따르십시오.
- scripts/deploy_vss_launchable.ipynb: 이 노트북은 임시 스토리지 (Ephemeral storage)를 사용하는 AWS CSP에 특화되어 있습니다.
적합한 용도: 자신의 하드웨어 또는 베어 메탈 (bare metal) 클라우드 인스턴스에 VSS 에이전트를 배포하려는 경우.
-
OS:
-
x86 호스트: Ubuntu 22.04 또는 Ubuntu 24.04
-
DGX-SPARK: DGX OS 7.4.0
-
IGX-THOR: Jetson Linux BSP (Rel 38.5)
-
AGX-THOR: Jetson Linux BSP (Rel 38.4)
-
NVIDIA 드라이버 (NVIDIA Driver):
-
580.105.08 (Ubuntu 24.04를 사용하는 x86 호스트)
-
580.65.06 (Ubuntu 22.04를 사용하는 x86 호스트)
-
580.95.05 (DGX-SPARK)
-
580.00 (IGX-THOR 및 AGX-THOR)
-
NVIDIA 컨테이너 툴킷 (NVIDIA Container Toolkit): 1.17.8+
-
Docker: 27.2.0+
-
Docker Compose: v2.29.0+
-
NGC CLI: 4.10.0+
설치 세부 사항은 여기의 사전 요구 사항 (Prerequisites) 섹션을 참조하십시오.
LICENSE를 참조하십시오.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub Trending All (daily)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기