TrueNAS Scale에서 llama-server 실행하기
요약
TrueNAS Scale 환경에서 llama-server를 실행할 때 발생하는 NVIDIA 드라이버 설치 및 CUDA 버전 호환성 문제를 해결하는 방법을 다룹니다. GPU 인식 문제와 CUDA 순방향 호환성 오류를 해결하기 위한 구체적인 설정법을 제공합니다.
핵심 포인트
- TrueNAS Scale에서 NVIDIA 드라이버 수동 설치 필요
- llama-server와 호스트 드라이버 간 CUDA 버전 불일치 주의
- CUDA 순방향 호환성 오류 발생 시 환경 변수 설정으로 해결 가능
- Docker Compose를 활용한 GPU 리소스 할당 및 설정 방법
집에서 TrueNAS Scale 머신을 사용 중인데, 얼마 전에 3060 두 개를 추가했습니다. 전반적으로 비교적 매끄러웠지만, llama-server를 실행하기 전에 몇 가지 주의할 점(gotchas)이 있었습니다. 그래서 비슷한 상황에 처한 분들이 시간을 절약할 수 있도록 이 게시물을 작성합니다.
문제 1: Nvidia 드라이버가 설치되지 않음
Nvidia 드라이버가 기본적으로 설치되지 않는다는 사실을 몰랐습니다. Apps > Configuration > Settings > Install NVIDIA Drivers로 이동해야 했습니다. 그 후에 쉘(shell)에서 nvidia-smi를 실행하여 두 GPU가 예상대로 인식되는지 확인할 수 있었습니다.
문제 2: TrueNAS Scale 25.04에는 매우 오래된 드라이버가 포함되어 있음
llama-server는 CUDA 12.9를 포함하고 있는데, 이는 호스트 시스템의 오래된 드라이버와 호환되지 않습니다. 시스템을 훨씬 최신 드라이버가 포함된 25.10 버전으로 업그레이드해야 했습니다. 하지만 여전히 llama-server를 사용하기에는 버전이 몇 단계 낮았고, 이는 다음 문제로 이어졌습니다...
문제 3: CUDA 순방향 호환성(forward compatibility) 실패
llama-server가 ggml_cuda_init: failed to initialize CUDA: forward compatibility was attempted on non supported HW 오류와 함께 실패했습니다. 이는 CUDA 버전과 오래된 드라이버 간의 불일치 때문일 가능성이 높습니다. 저는 Docker 서비스 YAML 파일에 CUDNN_FORWARD_COMPAT_DISABLE=1을 추가하여 순방향 호환성(forward compat) 로직을 비활성화했습니다.
서비스 초기화에 사용된 최종 YAML 파일:
services:
llamacpp:
command:
- '-m'
- /models/Qwen3.6-35B-A3B-UD-IQ4_XS.gguf
- '--host'
- 0.0.0.0
- '--port'
- '7878'
- '--no-mmap'
- '--ctx-size'
- '120000'
- '--temp'
- '0.6'
- '--top-p'
- '0.95'
- '--top-k'
- '20'
- '--min-p'
- '0.00'
- '--repeat_penalty'
- '1.1'
- '--parallel'
- '1'
- '--fit-target'
- '256'
container_name: llamacpp
deploy:
resources:
reservations:
devices:
- capabilities:
- gpu
device_ids:
- '0'
- '1'
driver: nvidia
environment:
- CUDNN_FORWARD_COMPAT_DISABLE=1
- NVIDIA_VISIBLE_DEVICES=0,1
- NVIDIA_DRIVER_CAPABILITIES=compute,utility
healthcheck:
interval: 10s
retries: 3
start_period: 30s
test:
- CMD
- curl
- '-f'
- http://localhost:7878/health
timeout: 5s
image: ghcr.io/ggml-org/llama.cpp:server-cuda12
ports:
- '7878:7878'
restart: unless-stopped
volumes:
- /home/admin/models:/models:ro
작동이 아주 좋습니다. 필요에 따라 적응시키세요 (모델, 포트 등). submitted by /u/dero_name [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기