Unsloth 2026을 이용한 Llama 3 미세 조정(Fine-Tuning): 데이터셋부터 GGUF까지

이 기사는 원래 aifoss.dev에 게시되었습니다.

title: 'Unsloth 2026을 이용한 Llama 3 미세 조정 (Fine-Tune Llama 3 with Unsloth 2026): 데이터셋부터 GGUF까지'
description: '소비자용 GPU에서 Unsloth를 사용하여 Llama 3.1 8B를 미세 조정하는 단계별 가이드: QLoRA 설정, 데이터셋 준비, SFTTrainer 구성, GGUF 내보내기 및 Ollama 가져오기.'
pubDate: '2026년 5월 28일'

tags: ["finetuning", "ai", "llm", "gpu", "python"]

요약 (TL;DR): Unsloth (v2026.5.8)를 사용하면 8GB 이상의 VRAM을 가진 소비자용 GPU에서 Llama 3.1 8B 미세 조정 (Fine-tuning) 시간을 2~4시간으로 단축할 수 있으며, 표준 QLoRA보다 메모리를 70% 적게 사용합니다. Ollama에 바로 넣을 수 있는 GGUF 파일을 얻을 수 있습니다. 주의할 점은 출력 품질이 전적으로 데이터셋의 품질에 달려 있다는 것입니다.

이 가이드를 마치면 실행할 수 있는 것들:

여러분의 데이터셋으로 학습된 도메인 적응형 (Domain-adapted) Llama 3.1 8B 모델
Ollama, LM Studio 또는 Jan.ai에서 바로 실행할 수 있는 Q4_K_M GGUF 파일
데이터가 변경될 때 다시 실행할 수 있는 반복 가능한 학습 파이프라인 (Training pipeline)

솔직한 의견: Unsloth는 2026년 단일 GPU 미세 조정 (Fine-tuning)을 위한 올바른 도구입니다. axolotl은 복잡한 파이프라인을 위한 더 많은 조절 기능 (Knobs)을 가지고 있지만, Unsloth는 작동시키기가 더 빠르고 VRAM 부담이 적습니다.

단순히 프롬프팅 (Prompting)을 하는 대신 왜 미세 조정 (Fine-tuning)을 해야 할까요?

일반 모델에 프롬프팅을 하는 것은 한계가 오는 시점이 있습니다. 만약 여러분의 사용 사례가 모델이 계속해서 벗어나는 특정 글쓰기 스타일, 모델이 지속적으로 망가뜨리는 도메인 어휘 (의료 코드, 법률 용어, 독자적인 전문 용어), 또는 대화 중간에 잊어버리는 구조화된 출력 형식 (Structured output format)을 포함한다면, 미세 조정 (Fine-tuning)은 매 호출마다 500토큰의 시스템 프롬프트 (System prompt)를 요구하는 대신 이러한 문제들을 영구적으로 해결해 줍니다.

다른 옵션은 RAG (Retrieval-Augmented Generation)이며, 이는 지식이 검색하고자 하는 문서에 들어있을 때 정답이 됩니다. 미세 조정 (Fine-tuning)은 모델이 '행동하는 방식' 즉, 어조 (Tone), 출력 구조 (Output structure), 특정 도메인에서의 유창함 (Fluency)을 바꾸고 싶을 때 더 적합합니다. 이것들은 서로 다른 해결책이 필요한 서로 다른 문제들입니다.

어떤 미세 조정 (Fine-tuning) 프레임워크를 사용할 것인가

단계별 절차로 들어가기에 앞서, 다른 대안들과 비교했을 때 Unsloth의 위치는 다음과 같습니다:

	Unsloth	axolotl	HF TRL (stock)
Single-GPU 속도	2–5배 더 빠름	1× 기준점	1× 기준점
...

단일 소비자용 GPU 환경에서는 Unsloth가 승리합니다. 만약 여러 장의 그래픽 카드로 분산 처리하거나 사용자 정의 학습 목적 함수 (DPO, PPO, GRPO)가 필요하다면, axolotl 또는 표준 TRL이 더 많은 제어 권한을 제공합니다. 이 가이드에서는 Unsloth를 이용한 단일 GPU 미세 조정 (Fine-tuning) 경로를 따릅니다.

하드웨어 요구 사항 (Hardware requirements)

QLoRA를 사용하면 대부분의 개발자가 이미 보유하고 있는 그래픽 카드에서 8B 파라미터 미세 조정이 가능합니다:

모델	방법	최소 VRAM	학습 시간 (1k 예시, 3 에포크)
Llama 3.2 3B	QLoRA	6 GB	~30분
...

RTX 3090 (24GB)은 8B 모델 실행을 여유 있게 처리할 수 있습니다. RTX 4090은 학습 시간을 대략 절반으로 단축합니다. 만약 8GB VRAM (RTX 4060 또는 유사 모델)을 사용 중이라면, max_seq_length를 1024로 낮추고 8B 대신 Llama 3.2 3B를 사용하세요.

적절한 로컬 GPU가 없다면, RunPod에서 RTX 4090 및 A100 인스턴스를 시간 단위로 대여할 수 있습니다. 전체 8B 미세 조정 실행 비용은 보통 3달러 미만입니다.

OS: Linux가 주요 대상입니다. WSL2를 통한 Windows 환경에서도 작동합니다. Apple Silicon 기반의 macOS는 Unsloth Studio (MLX 기반)를 통해 지원됩니다. 네이티브 Windows 학습도 가능하지만 테스트가 덜 되어 있습니다.

Python: 3.9–3.14. PyTorch 2.5+ 버전을 권장합니다.

1단계: Unsloth 설치

pip install unsloth

현재 버전: 2026.5.8 (2026년 5월 26일 출시). 버전 번호는 YYYY.MM.DD 형태의 날짜 기반 체계를 따릅니다.

확인 방법:

python -c "import unsloth; print(unsloth.__version__)"

또한 학습 스택을 설치하세요:

pip install trl transformers datasets accelerate

만약 CUDA 버전 불일치 문제가 발생한다면, unsloth.ai/docs에 있는 Unsloth 문서를 확인하세요. 가장 흔한 CUDA + PyTorch 조합에 대한 conda 환경 파일이 준비되어 있습니다. 시스템에 여러 버전의 CUDA가 설치되어 있는 경우 conda 경로를 사용하는 것이 더 안정적입니다.

Step 2: Llama 3.1 접근 권한 얻기

Llama 3.1은 Hugging Face에서 접근 권한 승인(gated)이 필요합니다. 한 번은 반드시 접근 권한을 요청해야 합니다:

huggingface.co에서 계정을 생성합니다.
meta-llama/Llama-3.1-8B-Instruct를 방문하여 라이선스에 동의합니다.
huggingface.co/settings/tokens에서 액세스 토큰(access token)을 생성합니다.
인증합니다: huggingface-cli login

라이선스 참고 사항: Llama 3.1은 Apache 또는 MIT가 아닌 Meta Llama 3.1 Community License를 사용합니다. 대부분의 경우 상업적 이용이 허용되지만, 월간 활성 사용자(MAU)가 7억 명을 초과할 경우 라이선스에 따른 특정 의무 사항이 발생하며, 배포하는 모든 미세 조정(fine-tuned) 모델의 이름에는 "Llama"가 포함되어야 합니다. 제품을 출시하기 전에 llama.com/llama3_1/license/에서 전체 약관을 읽어보시기 바랍니다.

또는, 개별적인 HF 승인 절차를 거치지 않아도 되는 Unsloth의 사전 업로드된 미러(mirror)를 사용하세요:

model_name = "unsloth/Meta-Llama-3.1-8B-Instruct"

Step 3: 데이터셋 준비하기

Unsloth의 SFTTrainer는 세 가지 일반적인 형식을 지원합니다.

Alpaca 형식 (instruction/input/output):

{"instruction": "Convert this date to ISO 8601:", "input": "March 15th, 2026", "output": "2026-03-15"}
{"instruction": "Summarize this clause in plain English:", "input": "The party of the first part...", "output": "This clause means..."}

ShareGPT 형식 (multi-turn conversations):

{"conversations": [
  {"from": "human", "value": "What does EBITDA stand for?"},
  {"from": "gpt", "value": "Earnings Before Interest, Taxes, Depreciation, and Amortization."}
...

데이터 양은 어느 정도가 적당할까요?

300개 미만: Instruct 모델 미세 조정 (Style 및 Behavior 형성)
300~1,000개: Instruct 또는 Base 모델 모두 가능
1,000개 초과: 더 깊은 행동 변화를 위해 Base 모델 권장

더 많은 데이터가 반드시 더 나은 데이터를 이기는 것은 아닙니다. 만약 10,000개의 평범한 예시와 정성스럽게 선별된 500개의 예시가 있다면, 500개의 예시가 종종 더 나은 모델을 만들어냅니다. 양에 신경 쓰기 전에 중복을 제거하고, 짧거나 형식이 잘못된 항목을 필터링하며, 일관된 품질을 목표로 하세요.

데이터 로드하기:

from datasets import load_dataset

# 로컬 JSON Lines 파일
...

Step 4: QLoRA로 모델 로드하기

from unsloth import FastLanguageModel
import torch

...

load_in_4bit=True는 QLoRA 스위치입니다. Base 모델은 4-bit로 압축되어 로드되며, 실제 학습 가능한 파라미터인 LoRA 어댑터(Adapters)는 16-bit로 유지됩니다. 전체 파라미터 수의 약 1~5%만을 학습시키기 때문에 8GB의 VRAM으로도 충분합니다.

LoRA 랭크 (r): r=16이 표준적인 시작점입니다. 스타일 전이(Style transfer)나 장문 생성(Long-form generation)을 수행하고 VRAM 여유가 있다면 32 또는 64로 높이세요. 단순한 형식 학습(Format training)