Hugging Face 에서 NVIDIA NIM 을 활용한 LLM 가속화

요약

NVIDIA NIM(NVIDIA Inference Microservice)을 활용하면 Hugging Face에 있는 10만 개 이상의 다양한 LLM을 빠르고 신뢰성 있게 배포할 수 있습니다. NIM은 단일 Docker 컨테이너 내에서 모델 분석, 아키텍처 및 양자화 감지, 최적의 추론 백엔드(TensorRT-LLM, vLLM, SGLang) 선택, 성능 설정을 자동화하여 복잡한 LLM 배포 과정을 단순화합니다. 사용자는 Hugging Face 체크포인트, GGUF, TensorRT-LLM 엔진 등 다양한 형식의 모델을 지원하며, 적절한 환경 설정과 Docker 명령어를 통해 쉽게 서비스를 구축할 수 있습니다.

핵심 포인트

NIM은 단일 컨테이너로 LLM 배포 과정을 자동화하여 복잡성을 크게 줄입니다.
모델 분석 단계에서 아키텍처(Llama, Mistral 등)와 양자화 형식(FP16, FP8, INT4)을 자동으로 감지합니다.
TensorRT-LLM, vLLM, SGLang 등 주요 추론 프레임워크를 백엔드로 선택하고 최적의 성능 설정을 적용합니다.
Hugging Face 체크포인트, GGUF, TensorRT-LLM 엔진 등 다양한 형식의 모델을 지원하여 호환성이 높습니다.
배포된 LLM은 `http://localhost:8000`에서 서비스되며, 환경 변수와 Docker 명령어를 통해 쉽게 접근하고 관리할 수 있습니다.

NVIDIA AI 고객 및 생태계 파트너들은 최신 AI 모델 (LLM, 멀티모달 및 도메인 특화 모델) 의 배포를 간소화하기 위해 NVIDIA NIM 추론 마이크로 서비스를 활용합니다. 이는 NVIDIA, Meta, Mistral AI, Google 등 수백 명의 혁신적인 모델 빌더의 모델을 포함합니다. 우리는 고객과 파트너들이 단순화되고 신뢰할 수 있는 모델 배포 방식으로 더 빠른 혁신을 이루고 있음을 목격했습니다. 오늘 우리는 Hugging Face 에서 NIM 을 통해 10 만 개 이상의 LLM 을 신속하고 신뢰할 수 있는 배포를 위해 열렸습니다.

NIM 은 이제 NVIDIA 와 커뮤니티의 주요 추론 프레임워크 (NVIDIA TensorRT-LLM, vLLM, SGLang) 를 지원하는 광범위한 LLM 을 배포하기 위한 단일 docker 컨테이너를 제공합니다. LLM 이 NIM 컨테이너에 제공되면, 수동 구성 없이 배포 및 성능 최적화를 위한 여러 단계를 수행합니다:

LLM 적응 단계	NIM 의 역할
모델 분석	Hugging Face 모델, TensorRT-LLM 체크포인트 또는 사전 구축된 TensorRT-LLM 엔진의 형식을 자동으로 식별하여 호환성을 보장합니다.
아키텍처 및 양자화 감지	Llama, Mistral 등의 모델 아키텍처 (예: FP16, FP8, INT4) 와 양자화 형식 (예: FP16, FP8, INT4) 를 식별합니다.
백엔드 선택	이 분석에 기반하여 NIM 은 추론 백엔드를 선택합니다 (NVIDIA TensorRT-LLM, vLLM 또는 SGLang).
성능 설정	NIM 은 선택된 모델과 백엔드에 대해 사전 구성 설정을 적용한 후 추론 서버를 시작하며 수동 튜닝 노력을 줄입니다.

표 1. NVIDIA NIM LLM 적응 단계 및 기능

단일 NIM 컨테이너는 일반적인 LLM 가중치 형식을 지원하며, 다음을 포함합니다:

Hugging Face Transformers 체크포인트: .safetensors 파일로 Hugging Face 저장소에서 직접 배포할 수 있습니다. 복잡한 변환이 필요 없습니다.
GGUF 체크포인트: 지원되는 모델 아키텍처를 위한 양자화된 GGUF 체크포인트는 HuggingFace 에서 또는 로컬로 다운로드한 파일에서 직접 배포할 수 있습니다.
TensorRT-LLM 체크포인트: trtllm_ckpt 디렉토리에 패키징된 TensorRT-LLM 모델은 TensorRT-LLM 을 최적화하여 배포할 수 있습니다.
TensorRT-LLM 엔진: trtllm_engine 디렉토리에서 제공하는 사전 구축된 TensorRT-LLM 엔진은 NVIDIA GPU 에서 최고 성능을 위해 사용할 수 있습니다.

NIM 을 사용하려면, 환경에 적합한 드라이버 (CUDA 12.1+) 가 있는 NVIDIA GPU, Docker 설치, NIM Docker 이미지를 위한 NVIDIA NGG 계정 및 API 키, 인증이 필요한 모델용 Hugging Face 계정 및 API 토큰이 필요합니다. 환경 요구사항에 대해 자세히 알아보려면 NIM 문서를 참조하세요.

환경 설정은 환경 변수 설정과 영구 캐시 디렉토리 생성을 포함합니다. nim_cache 디렉토리가 올바른 Unix 권한을 갖도록 보장하고, Docker 컨테이너를 실행하는 동일한 Unix 사용자에게 소유되도록 해야 합니다. 권한 문제를 방지하기 위해 명령어는 -u $(id -u) 를 사용하여 이를 관리합니다.

사용 편의성을 위해 자주 사용되는 정보를 환경 변수에 저장해 보겠습니다.

# NIM docker 이미지 스펙을 저장하는 변수
NIM_IMAGE=llm-nim
# Hugging Face API 토큰을 채우세요.
...

Hugging Face 에서 LLM 을 배포하는 예는 Codestral-22B 입니다:

docker run --rm --gpus all \
--shm-size=16GB \
--network=host \
...

로컬로 다운로드한 모델을 사용하는 경우, NIM_MODEL_NAME 을 경로에 지시하고 디렉토리를 마운트하세요:

docker run --rm --gpus all \
--shm-size=16GB \
--network=host \
...

모델 배포를 진행할 때는 NIM 이 모델 배포 과정에서 선택한 결정 사항을 파악하기 위해 출력 로그를 확인하는 것이 좋습니다. 배포된 모델은 http://localhost:8000 에서 제공되며, API 엔드포인트는 http://localhost:8000/docs 입니다.

기존 엔진에 의해 추가적인 인수 (arguments) 가 제공됩니다. 이러한 인수의 전체 목록을 확인하려면 아래와 같이 컨테이너에서 nim-run --help 를 실행합니다.

docker run --rm --gpus all \
--network=host \
-u $(id -u) \
...

호환 가능한 백엔드 (backend) 를 확인하거나 특정 백엔드를 선택하려면 list-model-profiles 를 사용하세요:

docker run --rm --gpus all \
--shm-size=16GB \
--network=host \
...

이 명령어는 LoRA 어댑터 포함하여 호환 가능한 프로파일을 표시합니다. vLLM 와 같은 특정 백엔드와 함께 배포하려면 list-model-profiles 에서 제공하는 출력을 사용하여 NIM_MODEL_PROFILE 환경 변수를 사용하세요:

docker run --rm --gpus all \
--shm-size=16GB \
--network=host \
...

NIM 은 양자화 (quantization) 모델 배포를 용이하게 합니다. 자동으로 양자화 형식 (예: GGUF, AWQ) 을 감지하고 표준 배포 명령어를 사용하여 적절한 백엔드를 선택합니다:

# 양자화 모델을 선택하고 MODEL 변수를 채워넣으세요, 예를 들어:
# MODEL="hf://modularai/Llama-3.1-8B-Instruct-GGUF"
# 또는
...

고급 사용자를 위해 NIM 은 NIM_MAX_MODEL_LEN 과 같은 환경 변수를 통해 커스터마이징을 제공합니다 (컨텍스트 길이). 대형 LLM 의 경우 NIM_TENSOR_PARALLEL_SIZE 는 다중 GPU 배포를 가능하게 합니다. 다중 GPU 통신을 위해 Docker 에 --shm-size=<공유 메모리 크기> 를 전달하는 것을 확인하세요.

NIM 컨테이너는 NVIDIA TensorRT-LLM, vLLM 과 SGLang 을 지원하는 다양한 LLM 을 지원하며, Hugging Face 의 인기 있는 LLM 과 전문화된 변형도 포함합니다. 지원되는 LLM 에 대한 자세한 내용은 문서를 참조하세요.

NIM 은 NVIDIA 가속 인프라에서 AI 모델 배포를 단순화하기 위해 설계되었으며, 고성능 AI 빌더와 기업 AI 팀의 혁신 및 가치 창출 시간을 단축시킵니다. Hugging Face 커뮤니티와의 소통과 피드백에 기대합니다.

NVIDIA 호스팅 컴퓨팅 환경에서 개발자 예제를 시작하려면 build.nvidia.com 에서 진행하세요.

AI 자동 생성 콘텐츠

원문 바로가기

Hugging Face 에서 NVIDIA NIM 을 활용한 LLM 가속화

요약

핵심 포인트

댓글