NVIDIA-AI-Blueprints/rag

검색 증강 생성 (Retrieval-Augmented Generation, RAG)은 대규모 언어 모델 (LLMs)의 추론 능력과 신뢰할 수 있는 데이터 소스로부터의 실시간 검색을 결합합니다. 이는 AI 응답을 기업 지식에 기반하게 하여, 환각 (hallucinations) 현상을 줄이고 정확성, 준수성 및 최신성을 보장합니다.

NVIDIA RAG Blueprint는 NVIDIA NIM 마이크로서비스를 사용하여 검색 증강 생성 (RAG) 파이프라인을 구축하기 위한 참조 솔루션이자 기초적인 시작점입니다. 이를 통해 기업은 거버넌스, 지연 시간 (latency) 및 확장성 요구 사항을 충족하면서 자체 데이터에 기반한 자연어 질의응답을 제공할 수 있습니다. 분해 및 구성이 가능하도록 설계된 이 블루프린트는 GPU 가속 컴포넌트를 NeMo Retriever 모델, 멀티모달 (Multimodal) 및 시각 언어 모델 (Vision Language Models), 그리고 가드레일 (guardrailing) 서비스와 통합하여 기업용 프레임워크를 제공합니다. 사전 구축된 참조 UI, 오픈 소스 코드, 그리고 로컬 Docker (NVIDIA Hosted 엔드포인트 포함 또는 미포함) 및 Kubernetes를 포함한 다양한 배포 옵션을 갖추고 있어, 개발자가 특정 요구 사항에 맞춰 조정하고 확장할 수 있는 유연한 시작점 역할을 합니다.

복잡하고, 다단계(multi-hop)이거나 모호한 질문의 경우, Agentic RAG는 표준적인 '검색 후 생성 (retrieve-then-generate)' 체인과 함께 LangGraph 계획 및 실행 (plan-and-execute) 파이프라인을 추가합니다. 여기에는 범위 탐색 (scope discovery), 병렬 하위 작업, 합성, 선택적 검증, 그리고 UI 및 API에서의 스트리밍 단계 이벤트가 포함됩니다.

Agentic RAG

다단계(multi-hop), 모호함 및 교차 문서 쿼리를 위한 LangGraph 계획 및 실행 (plan-and-execute) 파이프라인
범위 탐색 (scope discovery), 병렬 작업 실행, 합성 및 선택적 검증
요청별 (agentic: true를 /v1/generate에서 설정) 또는 배포 전체 (ENABLE_AGENTIC_RAG 설정) 활성화 가능; 참조 UI에서 Pipeline → Agentic 선택 - 스트리밍 단계 이벤트 및 추론 흔적(reasoning traces) — Agentic RAG 문서 참조

데이터 수집 (Data Ingestion)

멀티모달 콘텐츠 추출 (Multimodal content extraction) — 텍스트, 표, 차트, 인포그래픽 및 오디오가 포함된 문서. 지원되는 파일 유형의 전체 목록은 NeMo Retriever Extraction Overview를 참조하세요.
커스텀 메타데이터 지원 (Custom metadata support)

검색 및 검색 (Search and Retrieval)

에이전틱 RAG 파이프라인 (Agentic RAG pipeline) — 범위 탐색(scope discovery), 병렬 서브 태스크 검색, 재시도(retries), 그리고 멀티홉(multi-hop) 및 교차 문서(cross-document) 쿼리를 위한 선택적 검증을 포함한 계획 및 실행(plan-and-execute) 검색
멀티 컬렉션 검색 가능성 (Multi-collection searchability)
밀집(dense) 및 희소(sparse) 검색을 활용한 하이브리드 검색 (Hybrid search)
정확도를 더욱 향상시키기 위한 재순위화 (Reranking)
GPU 가속 인덱스(Index) 생성 및 검색
플러그형 벡터 데이터베이스 (Pluggable vector database)

쿼리 처리 (Query Processing)

쿼리 분해 (Query decomposition)
동적 필터 표현식 생성 (Dynamic filter expression creation)

생성 및 풍부화 (Generation and Enrichment)

답변 생성 파이프라인에서 멀티모달 및 시각 언어 모델(Vision Language Model) 지원 선택 가능.
다양한 전략을 통한 문서 요약(Document summarization), 유연한 페이지 필터링 및 실시간 진행 상황 추적
선택적 성찰(reflection)을 통한 정확도 향상
콘텐츠 안전을 위한 선택적 프로그래밍 가능 가드레일 (programmable guardrails)

평가 (Evaluation)

평가 스크립트 (RAGAS 프레임워크)

사용자 경험 (User Experience)

샘플 사용자 인터페이스
멀티턴 대화 (Multi-turn conversations)
멀티 세션 지원 (Multi-session support)

배포 및 운영 (Deployment and Operations)

텔레메트리(Telemetry) 및 관찰 가능성 (observability)
분해 및 커스텀 가능
NIM Operator 지원
Python 라이브러리 모드 지원
OpenAI 호환 API

RAG 블루프린트는 다음과 같은 상호 보완적인 소프트웨어 카테고리로 구축됩니다:

NVIDIA NIM 마이크로서비스 (NVIDIA NIM microservices) – 핵심 AI 기능을 제공합니다. 대규모 추론(예: 응답 생성을 위한 Nemotron LLM 모델), 검색 및 재순위화 모델, 그리고 텍스트, 표, 차트 및 그래픽을 위한 특화된 추출기(extractors)가 포함됩니다. 선택적인 NIM을 통해 OCR, 콘텐츠 안전, 주제 제어 및 멀티모달 임베딩(embeddings)으로 이러한 기능을 확장할 수 있습니다. -
통합 및 오케스트레이션 레이어 (The integration and orchestration layer) – 시스템을 완전한 솔루션으로 결합하는 접착제 역할을 합니다.

이러한 모듈형 설계는 효율적인 쿼리 처리 (query processing), 정확한 정보 검색 (retrieval), 그리고 용이한 커스터마이징 (customization)을 보장합니다.

응답 생성 (Response Generation (Inference))

검색기 및 추출 모델 (Retriever and Extraction Models)

선택적 NIMs

RAG 오케스트레이터 서버 (RAG Orchestrator Server) – 사용자, 검색기 (retrievers), 벡터 데이터베이스 (vector database), 그리고 추론 모델 (inference models) 간의 상호작용을 조정하여, 멀티턴 (multi-turn) 및 문맥 인식 (context-aware) 쿼리 처리를 보장합니다. 이는 LangChain 기반입니다.

벡터 데이터베이스 (Vector Database (NVIDIA cuVS로 가속화됨)) – GPU 가속 인덱싱 (indexing) 및 검색 (retrieval)을 통해 대규모 임베딩 (embeddings)을 저장하고 검색하며, 낮은 지연 시간 (low-latency) 성능을 제공합니다. 기본값은 Elasticsearch입니다. 또 다른 대안은 Milvus (GPU 가속화됨)입니다.

NeMo Retriever Extraction – 멀티모달 (multimodal) 콘텐츠를 파싱 (parsing)하기 위한 고성능 인제스션 (ingestion) 마이크로서비스입니다. 인제스션 파이프라인 (ingestion pipeline)에 대한 자세한 내용은 NeMo Retriever Extraction Overview를 참조하십시오.

RAG 사용자 인터페이스 (RAG User Interface (rag-frontend)) – 개발자와 최종 사용자를 위해 엔드 투 엔드 (end-to-end) 쿼리, 검색, 그리고 응답 워크플로 (workflows)를 보여주는 경량 사용자 인터페이스입니다. 자세한 내용은 RAG UI를 참조하십시오.

다음 이미지는 아키텍처 (architecture)와 워크플로 (workflow)를 나타냅니다.

다음은 최종 사용자 관점에서의 워크플로 (workflow)에 대한 단계별 설명입니다:

데이터 수집 및 추출 파이프라인 (Data Ingestion & Extraction Pipeline) – 멀티모달 (Multimodal) 기업 문서(텍스트, 이미지, 표, 차트, 인포그래픽 및 오디오)가 수집됩니다. -
사용자 질의 (User Query) – 사용자는 UI 또는 API를 통해 시스템과 상호작용하며 질문을 제출합니다. 선택 사항인 NeMo Guardrails 모듈은 질의가 검색 파이프라인 (retrieval pipeline)에 진입하기 전, 안전성과 규정 준수를 위해 질의를 필터링하거나 재구성할 수 있습니다. -
질의 처리 (Query Processing) – 질의는 질의 처리 (Query Processing) 서비스에 의해 처리되며, 이 과정에서 더 나은 검색 결과를 위해 질의 이해도를 높이거나 재구성하는 리플렉션 (reflection, 선택 사항인 LLM 단계)을 활용할 수 있습니다. -
기업 데이터로부터의 검색 (Retrieval from Enterprise Data) – 처리된 질의는 NeMo Retriever Embedding을 사용하여 임베딩 (embeddings)으로 변환되며, cuVS로 가속화된 벡터 데이터베이스 (Vector Database, CuVS) 및 관련 S3 호환 객체 스토어 (object store)에 저장된 기업 데이터와 매칭됩니다. 유사성을 기반으로 관련 결과가 식별됩니다. -
정밀도를 위한 재순위화 (Reranking for Precision) – 선택 사항인 NeMo Retriever Reranker가 검색된 구절의 순서를 재정렬하여, 응답의 근거 (grounding)가 될 가장 관련성 높은 청크 (chunks)가 선택되도록 보장합니다. -
응답 생성 (Response Generation) – 선택된 컨텍스트 (context)는 LLM 추론 (inference) 서비스(예: Llama Nemotron 모델)로 전달됩니다. 선택 사항인 리플렉션 (reflection) 단계를 통해 검색된 컨텍스트를 바탕으로 답변을 추가로 검증하거나 정교화할 수 있습니다. 또한 전달 전 안전성을 강제하기 위해 가드레일 (Guardrails)이 적용될 수 있습니다. -
사용자 응답 (User Response) – 생성된 근거 있는 (grounded) 응답은 사용자 인터페이스로 다시 전송되며, 투명성을 위해 검색된 문서에 대한 인용 (citations)이 포함되는 경우가 많습니다.

skills/ 디렉토리 내의 에이전트 기술 (Agent skills)

코딩 어시스턴트 (Claude Code, Cursor, Codex 등)가 자연어를 통해 이 블루프린트 (blueprint)를 작동할 수 있도록 합니다.

npx skills add .

이 명령은 skills/로부터 아래의 기술들을 설치합니다.

스킬 (Skill)	용도 (Use for)	예시 프롬프트 (Example prompts)
`rag-blueprint`	배포(Deploy), 구성(configure), 문제 해결(troubleshoot), 종료(shutdown); REST API 사용 (`/v1/generate`, ingestor upload)	"자체 호스팅 NIM을 이용한 RAG 배포", "가드레일 활성화", "내 컬렉션에 대한 광범위 검색 후 고정밀 검색"
`rag-eval`	`corpus/` + `train.json` 및 `scripts/eval/evaluate_rag.py`를 사용한 RAGAS 품질 벤치마크	"내 데이터셋에 대한 RAGAS 평가 실행", "리랭커(reranker) on vs off 비교"
`rag-perf`	`scripts/rag-perf`를 통한 지연 시간/처리량 벤치마크 (프로파일링 + aiperf)	"검색 병목 현상 프로파일링", "동시성 스윕 실행"

작업에 맞는 스킬을 선택하세요: 운영(operations) → rag-blueprint; 답변 품질 → rag-eval; 성능 → rag-perf.

참고: 라우팅이 불분명할 경우, 명시적으로 호출하세요:
/rag-blueprint, /rag-eval, 또는 /rag-perf와 함께 요청을 입력합니다.

스킬 아키텍처 세부 정보는 skills/README.md를 참조하세요. 스킬 콘텐츠는 리포지토리 루트의 skills/ 아래에 위치합니다 (agentskills.io 사양에 따른 표준 경로).

시작하는 권장 방법은 Docker Compose를 사용하여 단일 노드 배포로 NVIDIA RAG Blueprint를 배포하고, 자체 호스팅 온프레미스 모델을 사용하는 것입니다. 자세한 내용은 Get Started를 참조하세요.

다음 내용을 학습하려면 전체 문서를 참조하세요:

Agentic RAG — 계획 및 실행 파이프라인(plan-and-execute pipeline), API 및 UI 사용, 구성 및 제한 사항
최소 요구 사항 (Minimum Requirements)
배포 옵션 (Deployment Options)
구성 설정 (Configuration Settings)
일반적인 사용자 정의 (Common Customizations)
사용 가능한 노트북 (Available Notebooks)
문제 해결 (Troubleshooting)
추가 리소스 (Additional Resources)

RAG Blueprint는 Red Hat OpenShift에서 검증되었습니다. OpenShift 지원은 openshift.enabled 플래그 뒤에 숨겨진 Helm 차트에 내장되어 있습니다 — 라우트(Routes), SCC RoleBindings, 및 비밀 생성(secret creation)은 선언적으로 처리됩니다.

helm upgrade --install rag -n <namespace> deploy/helm/nvidia-blueprint-rag \
-f deploy/helm/nvidia-blueprint-rag/values-openshift.yaml \
--set imagePullSecret.password="$NGC_API_KEY" \
...

전체 배포 런북 (prerequisites, NIM Operator 설정, 문제 해결)은 docs/deploy-helm-openshift.md를 참조하세요.

NVIDIA NeMo Retriever, 15배 더 빠른 정확한 멀티모달 (Multimodal) PDF 데이터 추출 제공
정확한 AI 응답을 위한 최적의 청킹 (Chunking) 전략 찾기

저희는 NVIDIA LLM 커뮤니티를 지원하고 피드백을 용이하게 하기 위해 이러한 예시들을 GitHub에 게시하고 있습니다. 여러분의 기여를 환영합니다! GitHub 이슈(issue) 또는 풀 리퀘스트 (pull request)를 생성하려면 기여 가이드라인 (contributing guidelines)을 참조하세요.

이 NVIDIA AI BLUEPRINT는 Apache License, Version 2.0에 따라 라이선스가 부여됩니다. 이 프로젝트는 추가적인 제3자 오픈 소스 소프트웨어 프로젝트 및 컨테이너를 다운로드하고 설치합니다. 사용 전에 이러한 오픈 소스 프로젝트의 라이선스 약관을 검토하십시오.

이 블루프린트의 모델 사용은 NVIDIA AI Foundation Models Community License의 적용을 받습니다.

이 블루프린트는 NVIDIA Agreements | Enterprise Software | NVIDIA Software License Agreement 및 NVIDIA Agreements | Enterprise Software | Product Specific Terms for AI Product의 적용을 받습니다. 모델은 NVIDIA Agreements | Enterprise Software | NVIDIA Community Model License 및 NVIDIA Asset License Agreement의 적용을 받는 NVIDIA RAG 데이터셋의 적용을 받습니다. Llama로 구축된 다음 모델들은 Llama 3.2 Community License Agreement의 적용을 받습니다: nvidia/llama-nemotron-embed-1b-v2, nvidia/llama-nemotron-rerank-1b-v2, nvidia/llama-nemotron-embed-vl-1b-v2, 그리고 nvidia/llama-nemotron-rerank-vl-1b-v2.

llama-3.1-nemoguard-8b-content-safety 및 llama-3.1-nemoguard-8b-topic-control 모델에 대한 Llama 3.1 커뮤니티 라이선스 계약. nvidia/llama-nemotron-embed-1b-v2, nvidia/llama-nemotron-rerank-1b-v2, nvidia/llama-nemotron-embed-vl-1b-v2, 및 nvidia/llama-nemotron-rerank-vl-1b-v2 모델에 대한 Llama 3.2 커뮤니티 라이선스 계약. Llama으로 구축됨. NVIDIA Ingest와 nemotron-page-elements-v3, nemotron-table-structure-v1, nemotron-graphic-elements-v1, nemotron-parse, paddleocr 및 nemotron-ocr-v1 모델에 대해 Apache 2.0.