r/LocalLLaMA분석2026. 05. 03. 04:21

Windows 에서 네이티브 vLLM 을 사용하여 RTX 3090 에서 Qwen3.6-27B 실행 (WSL, Docker 없음)

요약

이 기술 기사는 WSL이나 Docker 없이 순수 네이티브 Windows 환경에서 vLLM을 사용하여 Qwen3.6-27B와 같은 대규모 언어 모델(LLM)을 RTX 3090과 같은 GPU에서 실행하는 방법을 소개합니다. 개발자는 패치된 vLLM 포크를 제공하여 설치 과정을 간소화하고, 사용자가 별도의 복잡한 환경 설정 없이도 OpenAI 호환 엔드포인트를 통해 LLM 추론 서비스를 이용할 수 있게 합니다. 제공된 벤치마크 결과는 특정 조건(예: 긴 컨텍스트 길이)에서 높은 토큰 생성 속도를 보여주며, 이는 기존 커뮤니티 기록과 비교하여 격차를 줄이는 데 초점을 맞추고 있습니다. 이 솔루션은 Ampere 또는 Ada 아키텍처의 NVIDIA GPU에 최적화되어 있으며, 사용 편의성을 극대화한 것이 특징입니다.

핵심 포인트

WSL이나 Docker 없이 네이티브 Windows 환경에서 LLM을 실행할 수 있게 함.
패치된 vLLM 포크와 휴대용 런처를 통해 복잡한 설치 과정(pip, Python 등)을 제거함.
OpenAI 호환 엔드포인트(`http://127.0.0.1:5001/v1`)를 제공하여 LLM 서비스 사용이 용이함.
RTX 3090 및 최신 Ada 아키텍처(4090, A6000)에서 높은 추론 속도를 달성했음을 보여줌.
Ampere 또는 Ada 아키텍처의 NVIDIA GPU에만 작동하며, Pascal/Turing 등 구형 카드나 AMD 카드는 지원하지 않음.

여기서의 핵심은 '네이티브 Windows' 환경입니다. WSL(Windows Subsystem for Linux) 를 사용하지 않습니다. 설치 과정이 간단하며 오픈 소스이고, 데이터 수집 (telemetry) 이 없습니다. 아무것도 판매하거나 홍보하는 것이 아닙니다:
https://github.com/devnen/qwen3.6-windows-server

숫자 (RTX 3090, Windows 10 기준):

짧은 프롬프트: 72 tok/s
긴 프롬프트 (~25k 토큰): 64.5 tok/s
컨텍스트 길이 127k (싱글 GPU): 53.4 tok/s
PP=2(Parallelism) 로 160k 컨텍스트 (2×3090 GPU):

솔직히 말해, 이 수치들은 r/LocalLLaMA 커뮤니티의 기록에는 미치지 못합니다. 커뮤니티는 TurboQuant 3-bit KV 를 사용하여 3090 에서 80–82 tok/s, Linux 환경에서는 5090 에서 160 tok/s 의 속도를 냈습니다. 제 런처와 패치된 vLLM 은 Windows 환경에서 이 격차를 줄여줍니다.

간단한 설치 방법:

릴리스 (Release) 에서 qwen3.6-windows-server-portable-x64.zip 을 다운로드합니다.
아무 곳에나 압축을 풉니다. 관리자 권한, pip, Python 이 필요 없습니다.
start.bat 파일을 더블 클릭하고 스냅샷 (snapshot) 을 선택한 뒤 Enter 키를 누릅니다.
OpenAI 호환 엔드포인트: http://127.0.0.1:5001/v1

Windows 에서 작동하도록 몇 가지 문제를 해결하고 이 작업을 가능하게 하기 위해 패치된 vLLM 포크를 직접 구축해야 했습니다. 여기에는 사전 컴파일된 휠 (prebuilt wheel) 을 포함하는 휴대용 런처를 제공합니다.

첫 실행 시에는 내장된 Python 에 번들된 vLLM 휠과 종속성 (~5–15 분, 한 번만) 을 설치하고, 이미 가지고 있지 않은 경우 HuggingFace 에서 Lorbus AutoRound INT4 양자화 (quant) 를 자동으로 다운로드할지 여부를 제안합니다. 이후 실행 시에는 바로 TUI(터미널 사용자 인터페이스) 로 넘어갑니다.

Lorbus AutoRound INT4 양자화를 사용하여 Windows 10 및 2× RTX 3090 에서 테스트했습니다. Ampere 또는 Ada 아키텍처의 모든 카드 (3090, 4090, A6000) 에서 작동할 것입니다. Pascal, Turing, Arc 또는 AMD 기반 카드는 작동하지 않습니다.

Linux 환경에서도 매우 경쟁력 있는 수치를 보이는 유사한 런처와 패치된 vLLM 이 있지만, 아직 개발 중입니다.

Windows 에서 3090, 4090, 또는 A6000 을 사용 중이라면 시도해 보시고 결과를 공유해 주세요.

상세 정보, 패치, 벤치마크 및 설정 스냅샷:
https://github.com/devnen/qwen3.6-windows-server

RTX 50 시리즈 (Blackwell) 업데이트: 번들된 휠에는 sm_120 커널이 포함되어 있지 않아 50 시리즈 카드는 현재 부팅 시 실패합니다. SystemPanic 이 CUDA 13 및 Blackwell 을 지원한 vllm-windows v0.20.0 을 출시했으므로 이는 해결 가능합니다. 50 시리즈 빌드를 출시하기 전에 제 패치를 해당 버전으로 리베이스 (rebase) 해야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Windows 에서 네이티브 vLLM 을 사용하여 RTX 3090 에서 Qwen3.6-27B 실행 (WSL, Docker 없음)

요약

핵심 포인트

댓글