GPU 없이 로컬에서 AI 모델을 실행하는 방법: 완전한 단계별 가이드

단 몇 시간 만에 CPU 전용 머신에서 인기 있는 AI 모델을 설정, 최적화 및 실행하는 방법을 배워보세요.

시작하기 전에: 무엇을 얻게 될까요

이 가이드를 마칠 때쯤이면, 마치 셰프의 특제 그릴을 기다리지 않고 테이크아웃 음식을 주문하는 것처럼, CPU만 있는 노트북에서도 현대적인 AI 모델을 즉시 실행할 수 있게 될 것입니다.

먼저, CPU 전용 추론 (Inference)에 어떤 하드웨어 사양과 운영체제 (OS) 설정이 충분한지 정확히 알게 됩니다. 이는 비행기 탑승 전 수하물 무게를 확인하는 것과 같습니다. 게이트에서 갑작스러운 "무게 초과" 통보를 받는 일을 피할 수 있습니다.

다음으로, 적절한 Python 패키지와 모델 최적화 도구 (Model-optimizers)를 설치하고, 이들이 문제없이 서로 통신할 수 있도록 구성할 것입니다. 이는 GPS를 설정하는 것과 비슷합니다. 목적지를 입력하면 소프트웨어가 가장 빠른 경로를 찾아내는 것과 같습니다.

마지막으로, 실제 모델을 실행하고, 소요 시간을 측정하며, 가장 흔한 오류에 대한 체크리스트를 갖게 됩니다. 이는 케이크를 굽는 동안 타이머를 지켜보며 정확히 언제 꺼내야 할지 아는 것과 같습니다.

GPU 없이 로컬에서 AI 모델을 실행하기 위해 필요한 CPU 코어, RAM 및 OS 버전을 식별합니다.
torch, transformers, optimum (또는 유사한 도구)을 설치하고 CPU 실행을 위한 설정을 조정합니다.
샘플 모델을 로드하고, 추론 (Inference) 속도를 벤치마킹하며, 메모리 또는 속도 저하 문제에 대한 빠른 해결책을 적용합니다.
하드웨어 체크: 4개 이상의 CPU 코어, 8GB RAM, 최신 Linux/macOS/Windows 빌드.
Python 환경: 종속성 (Dependencies)을 깔끔하게 유지하기 위해 가상 환경 (Virtual environment)을 사용하세요.
최적화 팁: 코어 수에 맞게 torch.set_num_threads()를 활성화하세요.

시작할 준비가 되셨나요? 모델 테스트에 바로 뛰어들 수 있도록 환경 설정을 시작하겠습니다.

GPU 없이 로컬에서 AI 모델을 실행한다는 것이 실제로 무엇을 의미하는가 (전문 용어 제외)

GPU 없이 로컬에서 AI 모델을 실행한다는 것은 사전 학습된 신경망 (Pre-trained neural network)을 가져와 그래픽 카드 대신 컴퓨터의 CPU가 핵심적인 연산을 수행하도록 하는 것을 의미합니다. CPU는 GPU가 탁월한 능력을 보이는 대규모 병렬 연산 (Massive parallel math)에 최적화되어 있지 않으므로 응답 시간이 느려지는 것을 체감할 수 있습니다. 하지만 정밀도 낮추기 (Reducing precision)나 더 작은 입력값 배치 (Batching smaller inputs)와 같은 영리한 소프트웨어 설정을 통해 지연 시간이 견딜 수 없는 수준이 되지 않도록 유지할 수 있습니다.

이를 대부분의 차량이 레이싱 카인 고속도로에서 일반 세단을 운전하는 것에 비유할 수 있습니다. 세단(사용자의 CPU)도 목적지에 도달할 수는 있지만, 다른 차들처럼 빠르게 치고 나갈 수는 없습니다. 만약 엔진을 약간 조율한다면—즉, 더 부드러운 경로를 선택하고, 속도를 일정하게 유지하며, 갑작스러운 가속을 피한다면—레이싱 카들보다 몇 분 더 늦게 도착할 뿐, 고장 없이 목적지에 도착할 수 있습니다.

CPU로 AI 모델을 실행할 때 누구나 저지르는 3가지 실수

대부분의 CPU 전용 시도가 실패하는 이유는 세 가지 전형적인 함정을 무시하기 때문입니다.

기본 설치 버전이 충분히 빠를 것이라고 가정하는 것. 새로 수행한 pip install torch는 마치 경치 좋은 길로만 돌아가는 택시 기사처럼 CPU와 통신하는 버전을 제공합니다. 단 한 번의 추론 (Inference)을 위해서도 영원히 기다려야 할 수도 있습니다. 대신 최적화된 빌드(예: torch==2.0.0+cpu)를 가져오거나, 저수준 수학 라이브러리 (Low-level math libraries)와 직접 통신하는 tensorflow-cpu로 전환하십시오.
양자화 (Quantization)와 가지치기 (Pruning)를 건너뛰는 것. 모델을 옷이 가득 찬 여행 가방이라고 생각해보세요. 양자화는 천을 더 촘촘하게 접는 것이고, 가지치기는 평소에 입지 않는 부피 큰 옷들을 제거하는 것입니다. torch.quantization.quantize_dynamic 또는 TensorFlow의 tf.lite.experimental.optimize를 적용하면 추론 시간을 70~90%까지 단축하여, 느릿느릿한 산책을 빠른 질주로 바꿀 수 있습니다.
OS 레벨 설정을 소홀히 하는 것. CPU는 자동차와 같습니다. 적절한 연료(BLAS 라이브러리)가 없으면 덜컥거립니다. openblas나 intel-mkl을 설치한 다음, OMP_NUM_THREADS를 코어 수에 맞게 설정하면 처리량 (Throughput)을 두 배로 늘릴 수 있습니다. Linux의 경우, export MKL_DEBUG_CPU_TYPE=5를 통해 가장 효율적인 코드 경로를 강제할 수 있습니다.

이 세 가지를 해결하면 마침내 GPU 없이 로컬에서 AI 모델을 실행하는 (run AI models locally without GPU) 실용적인 경험을 얻을 수 있습니다.

GPU 없이 로컬에서 AI 모델을 실행하는 방법: 단계별 가이드

먼저, 귀하의 CPU가 실제로 과중한 작업(heavy lifting)을 처리할 수 있는지 확인하십시오.

AVX2/AVX-512 지원 여부를 확인하고 (Linux의 경우 lscpu), 프레임워크에 필요한 수학 라이브러리를 설치하십시오. 예: sudo apt-get install libopenblas-dev. 이는 요리를 시작하기 전에 주방에 가스레인지가 있는지 확인하는 것과 같습니다.

격리된 Python 환경을 생성하고 CPU 전용 딥러닝 스택 (deep-learning stack)을 가져오십시오:

python -m venv venv
source venv/bin/activate
pip install torch==2.2.0+cpu -f https://download.pytorch.org/whl/torch_stable.html
...

이렇게 하면 "재료"가 다른 프로젝트와 섞이지 않도록 유지할 수 있습니다.
CPU에서 원활하게 실행되는 모델을 선택하십시오. 예를 들어, Hugging Face에서 distilbert-base-uncased를 다운로드하십시오:

from transformers import AutoModelForSequenceClassification, AutoTokenizer
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased")
tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

사후 훈련 양자화 (post-training quantization)를 사용하여 모델을 압축하십시오. Optimum을 사용하는 방법은 다음과 같습니다:

from optimum.intel import INCQuantizer
quantizer = INCQuantizer.from_pretrained(model)
quantized_model = quantizer.quantize(save_dir="quantized")

이는 맛은 그대로 유지하면서 더 작은 사이즈의 피자를 주문하는 것과 같습니다.
CPU가 사용할 스레드 (thread) 수를 지정하십시오:

export OMP_NUM_THREADS=4
export MKL_NUM_THREADS=4

이는 최적의 흐름을 위해 식료품점 계산대의 수를 설정하는 것과 유사합니다.
빠른 추론 (inference) 테스트를 실행하고 지연 시간 (latency)을 기록하십시오:

import time, torch
inputs = tokenizer("The quick brown fox", return_tensors="pt")
start = time.time()
...

선택 사항: 모델을 ONNX로 변환하고 ONNX Runtime을 사용하여 최종적인 속도 향상을 꾀하십시오:

import torch.onnx
torch.onnx.export(model, (inputs["input_ids"],), "model.onnx")

pip install onnxruntime
python -c "import onnxruntime as ort; sess=ort.InferenceSession('model.onnx'); print(sess.run(None, {'input_ids': inputs['input_ids'].numpy()}))"

이제 일상적인 실험을 위해 반복 가능한 GPU 없는 워크플로우 (workflow)가 준비되었습니다.

실제 사례: 노트북에서 감성 분석기 (Sentiment Analyzer) 실행하기

Maya는 자신의 2022 MacBook Air에서 터미널을 열고 몇 분 만에 모델을 준비합니다.

필요한 라이브러리 설치:

pip install torch==2.0.1 transformers==4.35.0 bitsandbytes==0.41.0

감성 분석 모델을 다운로드하고 8비트 (8-bit)로 양자화 (quantize) 하기:

from transformers import AutoModelForSequenceClassification, AutoTokenizer
import bitsandbytes as bnb

...

스레드 수 (thread count)를 설정하고 빠른 테스트 문장 실행하기:

export OMP_NUM_THREADS=8

import torch, time

def predict(text):
...

Maya의 M1 CPU에서 스크립트는 Sentiment: positive, latency: 148.3 ms와 같은 결과를 출력하며, 이는 양자화 (quantization) 및 스레드 튜닝 (thread tuning)이 없을 때 볼 수 있는 약 1.2초에서 크게 단축된 수치입니다. 이제 그녀는 GPU 없이 로컬에서 AI 모델을 실행하여 점심시간 동안 실험할 수 있을 만큼 충분히 빠르게 구동할 수 있습니다.

팁: 노트북에서는 OMP_NUM_THREADS를 4~8 사이로 유지하세요. 값이 너무 높으면 메모리 스래싱 (thrashing)이 발생할 수 있습니다.
팁: 재다운로드를 방지하려면 양자화된 모델을 ~/.cache/huggingface/transformers에 저장하세요.

과정을 더 쉽게 만들어주는 도구들

먼저, CPU 전용 설정이 다른 프로젝트와 충돌하지 않도록 격리된 작업 공간을 만드세요.

Python 가상 환경 (virtual environments) – 각 실험을 위해 별도의 여행 가방을 싸는 것이라고 생각하면 됩니다. python -m venv env 또는 conda create -n cpu-env python=3.10을 사용하고, 무엇인가를 설치하기 전에 이를 활성화하세요.

PyTorch CPU 전용 휠 (wheels) – 라이브러리의 "GPU 미포함" 버전입니다. 메뉴에서 특정 요리를 주문하는 것처럼, 올바른 인덱스 (index)를 가리키는 단일 명령어로 설치하세요:

pip install torch --index-url https://download.pytorch.org/whl/cpu

Optimum (Hugging Face) – 양자화 (Quantization) 및 ONNX 내보내기를 위한 맥가이버 칼(Swiss-army knife) 같은 도구입니다. Google Maps가 사용자가 일일이 경로를 계획하지 않아도 최단 경로를 제안하는 것처럼, 수동으로 반복해야 할 단계들을 간소화해 줍니다.
ONNX Runtime (CPU execution provider) – 내보낸 모델을 실행하는 고성능 추론 엔진 (Inference engine)입니다. 마치 잘 조율된 엔진이 자동차(모델)를 CPU 전용 도로 위에서 효율적으로 주행하게 해주는 것과 같습니다.
Intel® Extension for PyTorch – 선택 사항이지만, CPU가 AVX-512를 지원한다면 매우 유용합니다. 표준 엔진에 성능 칩을 추가하는 것과 비교할 수 있는 터보 부스트 (Turbo boost) 역할을 합니다.

이 도구들을 함께 사용하면 매끄러운 파이프라인 (Pipeline)이 구축됩니다: venv를 설정하고, CPU 전용 PyTorch 휠 (Wheel)을 가져온 뒤, Optimum을 사용하여 양자화 및 ONNX로 내보내고, 마지막으로 ONNX Runtime으로 실행하는 방식입니다. Intel 확장을 추가하여 속도를 더욱 높일 수도 있습니다.

이 도구 상자만 있다면, _GPU 없이 로컬에서 AI 모델을 실행_할 수 있으며 워크플로 (Workflow)를 깔끔하게 유지할 수 있습니다.

빠른 참조: GPU 없이 로컬에서 AI 모델을 실행하기 위한 치트 시트 (Cheat Sheet)

CPU 전용 AI 작업 공간을 설정하는 동안 곁에 두고 볼 수 있는 포켓 사이즈의 체크리스트라고 생각하세요.

✔️ CPU 기능 확인 – lscpu (Linux)를 실행하거나 시스템 정보 (Windows)를 확인하여 AVX2 또는 AVX-512 지원 여부를 확인하세요. 이는 자동차를 운전하기 전에 수동 변속기가 있는지 확인하는 것과 같습니다.

✔️ 깨끗한 가상 환경 생성 –

python -m venv .venv && source .venv/bin/activate

그 다음 CPU 전용 빌드를 설치하세요:

pip install torch==2.2.0+cpu -f https://download.pytorch.org/whl/torch_stable.html

또는 pip install tensorflow-cpu를 사용하세요. 깨끗한 venv는 버전 충돌을 방지합니다.

✔️ 모델 확보 및 양자화 – transformers로 모델을 다운로드한 다음, optimum을 통해 8비트 양자화 (8-bit quantization)를 적용하세요:

from optimum.intel import INCModelForCausalLM
model = INCModelForCausalLM.from_pretrained("gpt2", quantization_config="bnb8")

양자화 (Quantization)를 같은 가방 (RAM) 안에 더 많은 옷 (파라미터, parameters)을 넣기 위해 여행 가방을 더 꽉꽉 눌러 담는 과정이라고 생각하세요.

✔️ 스레딩 환경 변수 설정 (Set threading environment variables) – 라이브러리에 사용할 코어 수를 알려줍니다:

export OMP_NUM_THREADS=4
export MKL_NUM_THREADS=4

이는 주방에 동시에 몇 명의 요리사가 일할 수 있는지 알려주는 것과 같습니다.

✔️ 간단한 무결성 검사 (Run a quick sanity check) 실행 – 순전파 (Forward pass)를 수행하고 지연 시간 (Latency)을 출력하는 짧은 스크립트를 실행합니다. 예시 페르소나: _Alice_가 time python test.py를 실행하고 토큰당 밀리초 (milliseconds per token)를 기록합니다.

✔️ 선택 사항: 속도 향상 (Optional speed boost) – ONNX로 내보내고 ONNX Runtime으로 서빙합니다:

torch.onnx.export(model, dummy_input, "model.onnx")

그 다음 pip install onnxruntime을 설치하고 실행하세요. ONNX를 경치 좋은 우회로를 건너뛰는 Google Maps의 지름길처럼 활용하세요.

✔️ 메모리 사용량 모니터링 (Watch memory usage) – RAM 제한을 넘지 않도록 주의하세요. CPU가 반정밀도 (Half-precision) 지원을 보고할 경우에만 torch.float16으로 전환하세요. 이는 수하물 칸이 좁을 때 더 작은 배낭을 사용하는 것과 같습니다.
💡 팁: 추가적인 이득을 위해 torch.backends.quantized를 활성화된 상태로 유지하세요.
💡 팁: 지터 (Jitter) 현상이 발생하면 taskset을 사용하여 프로세스를 특정 코어에 고정(Pin)하세요.
💡 팁: 메모리 누수 (Leaks)를 감지하기 위해 모델을 로드하기 전과 후에 psutil.virtual_memory()를 로그로 남기세요.

이 치트 시트 (Cheat sheet)와 함께라면, GPU 없이도 로컬에서 AI 모델을 자신 있게 실행하고 일반적인 장애물들을 피할 수 있습니다.

다음 단계 (What to Do Next)

작게 시작해서 점차 키워나가세요. 지금 바로 올라갈 수 있는 3단계 사다리는 다음과 같습니다.

자신의 텍스트로 감성 분석 (sentiment-analysis) 예제를 실행해 보세요. 최근 이메일이나 뉴스 기사에서 한 단락을 가져와 설정한 스크립트에 입력해 보세요. 마치 새로운 식당의 음식이 입에 맞는지 확인하기 위해 단품 요리를 하나 주문해 보는 것과 같습니다.
bert-base-uncased와 같은 더 큰 모델을 양자화 (Quantize)하고 지연 시간 (latency)을 측정해 보세요. torch.quantization.quantize_dynamic을 사용하여 모델의 크기를 줄인 다음, 몇 번의 추론 (inference) 호출 시간을 측정해 보세요. 이는 여행 가방을 더 빽빽하게 싸는 것과 비슷합니다. 같은 공간에 더 많은 것을 넣을 수 있지만, 모든 것이 여전히 편안하게 들어가는지 확인해야 합니다.
양자화된 모델을 로컬에서 제공하는 작은 Flask API를 구축해 보세요. 엔드포인트 (endpoint)를 생성하고, 시작 시 모델을 한 번 로드한 다음, 들어오는 JSON 페이로드 (payload)에 대한 예측값을 반환하도록 만드세요. 이는 개인용 Google Maps 서버를 설정하는 것과 유사합니다. 클라우드 없이도 작동하는 로컬 경로 계획기를 갖게 되는 것입니다.
팁: 다른 기기에서도 동일한 환경을 재설치할 수 있도록 requirements.txt를 준비해 두세요.
치트 시트 (Cheat sheet): python -m timeit -s "import torch; m=...; inp=..." "m(inp)"를 사용하면 속도 향상을 빠르게 확인할 수 있습니다.

💬 막히는 부분이 있거나 더 빠른 트릭을 발견하셨나요? 아래에 댓글을 남겨주세요. 여러분의 경험을 듣고 싶습니다!