본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 06. 12:30

llama.cpp를 사용하여 WSL2에서 Gemma-4 12B 실행하기

요약

WSL2 환경에서 llama.cpp를 사용하여 Gemma-4 12B 모델을 실행하는 방법을 설명합니다. 의존성 설치부터 빌드, CLI 및 서버 모드 실행까지의 전 과정을 단계별 가이드로 제공합니다.

핵심 포인트

  • WSL2 환경에서의 llama.cpp 빌드 및 설정 방법
  • NVIDIA CUDA 툴킷을 활용한 GPU 가속 지원
  • Gemma-4 12B GGUF 모델 실행 및 서버 구축
  • llama-cli와 llama-server를 이용한 인터페이스 활용

1. WSL 환경 업데이트

sudo apt update && sudo apt upgrade -y

2. 의존성 설치

-hf 옵션을 사용하지 않는다면, 이 단계에서 libssl-dev를 설치할 필요가 없습니다.

sudo apt install build-essential cmake git libssl-dev -y

만약 터미널에서 nvidia-smi를 실행했을 때 GPU/GPUs가 나타난다면, 툴킷(toolkit)을 설치해야 합니다. 이 작업은 시간이 다소 소요됩니다.

sudo apt install nvidia-cuda-toolkit -y

3. 리포지토리(repo) 클론

llama-clillama-server를 빌드합니다. 이 단계 역시 시간이 다소 소요됩니다.
-hf 옵션을 사용할 계획이 없다면, -DLLAMA_OPENSSL=ON을 사용할 필요가 없습니다.

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp
cmake -B build -DGGML_CUDA=ON -DLLAMA_OPENSSL=ON
...

4. 모델 실행

CLI와 서버를 통해 gemma-4-12b-it를 실행합니다.

unsloth/gemma-4-12b-it-GGUF · Hugging Face

우리는 오픈 소스와 오픈 과학을 통해 인공지능을 발전시키고 민주화하는 여정에 있습니다.

huggingface.co

./build/bin/llama-cli -hf unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL
> hello

[Start thinking]
...

또는 web-ui를 실행합니다.

./build/bin/llama-server -hf unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL --port 8080

선택 사항: Hugging Face에서 모델 다운로드

mkdir -p models
wget -O models/gemma-4-12b-it-UD-Q4_K_XL.gguf https://huggingface.co/unsloth/gemma-4-12b-it-GGUF/resolve/main/gemma-4-12b-it-UD-Q4_K_XL.gguf

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0