실전 QLoRA 미세 조정: Axolotl & Unsloth | SLM 플레이북 - Insights | Molayo

← 시리즈 허브
← 이전 | 다음 →

대규모 언어 모델 (Large Language Model)의 전체 파라미터 미세 조정 (Full-parameter fine-tuning)은 사치에 가깝습니다. Llama 3와 같은 8B 모델조차 16비트 정밀도로 모든 가중치를 업데이트하려면 중소 규모의 팀이나 스타트업이 감당할 수 있는 범위를 훨씬 벗어나는 거대한 클러스터가 필요합니다.

이러한 하드웨어 장벽을 해결하기 위해 매개변수 효율적 미세 조정 (Parameter-Efficient Fine-Tuning, PEFT) 방법론이 개발되었으며, 그중 LoRA와 QLoRA가 지배적인 패러다임으로 부상했습니다. 이 방법들을 사용하면 개발자는 전체 미세 조정 대비 성능 저하를 거의 일으키지 않으면서도, 단일 소비자용 GPU (RTX 3090, 4090 또는 A10G 등)에서 수십억 개의 파라미터를 가진 모델을 학습시킬 수 있습니다.

이 글에서는 저차원 적응 (Low-rank adaptation) 뒤에 숨겨진 수학적 원리를 분석하고, 프로덕션급 Axolotl 설정을 구축하는 방법을 상세히 다루며, Unsloth를 사용하여 학습 루프를 가속화하는 방법을 살펴봅니다.

1. LoRA: 저차원 적응 행렬 분해 (Low-Rank Adaptation Matrix Decomposition)

도메인 특화 미세 조정 (예: text-to-SQL 또는 의학 용어 학습) 과정에서 파라미터 가중치 업데이트는 전체 파라미터 공간을 점유하지 않으며, 매우 낮은 **고유 차원 (Intrinsic rank)**을 나타냅니다. 거대한 원래의 가중치 행렬 $W_0 \in \mathbb{R}^{d \times k}$를 업데이트하는 대신, LoRA는 $W_0$를 동결(freeze)하고 가중치 업데이트 $\Delta W$를 차원 $r$ ($r \ll \min(d, k)$)을 가진 두 개의 매우 낮은 차원의 행렬 $B$와 $A$의 곱으로 모델링합니다:

$$\Delta W = B \cdot A$$

여기서:

$W_0$는 동결된 사전 학습된 가중치 행렬 (그래디언트 업데이트 없음)입니다.
$B \in \mathbb{R}^{d \times r}$ 및 $A \in \mathbb{R}^{r \times k}$는 학습 가능한 어댑터 (Adapter) 행렬입니다.
$r$은 랭크 (Rank) 파라미터입니다 (일반적으로 $r \in [8, 64]$).

        LoRA 레이어 순전파 (Forward Pass):

             입력 x 
...

1.1. LoRA 순전파 방정식 (Forward Pass Equation)

주어진 입력 $x$에 대해, 출력 활성화(activation) $y$는 다음과 같이 계산됩니다:
$$y = W_0 x + \Delta W x = W_0 x + \frac{\alpha}{r} (B A x)$$

여기서:

$\alpha$는 어댑터(adapter)가 베이스 모델 가중치(base model weights)에 미치는 영향력을 조절하는 상수 스케일링 인자(scaling factor)입니다.
학습 시작 시, $A$는 가우시안 분포(Gaussian distribution)를 통해 무작위로 초기화되며, $B$는 0으로 초기화됩니다. 결과적으로 $\Delta W = 0 \times A = 0$이 되어, 0단계(step zero)에서 모델의 기본 동작이 완전히 유지됩니다.

2. QLoRA: 이중 양자화(Double Quantization)를 통한 VRAM 효율성 극대화

2023년 Tim Dettmers가 소개한 **QLoRA (Quantized Low-Rank Adaptation)**는 활성 LoRA 어댑터 가중치는 16비트 정밀도로 유지하면서, 베이스 모델 가중치 $W_0$를 매우 압축된 4비트 (4-bit) 표현으로 양자화함으로써 메모리 효율성을 한 단계 더 높였습니다.

QLoRA는 세 가지 핵심적인 수학적 및 시스템적 혁신에 의존합니다:

2.1. NormalFloat 4 (NF4) 데이터 타입

신경망 가중치(neural network weights)는 자연스럽게 0을 중심으로 하는 정규 분포(normal distribution)를 따릅니다. 표준 선형 양자화(linear quantization) 방식(예: INT4)은 양자화 빈(bin)을 균등하게 할당하므로, 분포의 희소한 꼬리(sparse tails) 부분에서 정밀도를 낭비하게 됩니다.

NF4는 각 빈이 기대되는 파라미터 수를 동일하게 포함하도록 (동일한 정보 엔트로피, equal information entropy) 비선형 양자화 구간을 설정함으로써 이 문제를 해결합니다:
$$\int_{q_i}^{q_{i+1}} \mathcal{N}(0, 1) dx = \text{const}$$

이를 통해 원래 FP16 가중치의 정보를 최대한 보존하며, 모델 가중치 크기를 파라미터당 4비트로 줄이면서도 FP4/INT4 정밀도에 상응하는 성능을 구현합니다.

2.2. 이중 양자화 (Double Quantization, DQ)

표준 양자화에서는 가중치 블록(weight blocks)을 32비트 부동 소수점(float) 상수를 사용하여 스케일링합니다. 블록 크기가 64일 때, 이 스케일링 상수는 파라미터당 $32 / 64 = 0.5$비트의 오버헤드를 발생시킵니다.

이중 양자화는 이 스케일링 상수 자체를 256의 블록 크기를 가진 32비트 부동 소수점에서 8비트 부동 소수로 다시 양자화합니다.

영향 (Impact): 스케일링 오버헤드를 파라미터당 $0.5$ 비트에서 $0.127$ 비트로 줄여, 8B 모델 기준 약 3 GB의 VRAM을 절약합니다.

2.3. 페이지드 옵티마이저 (Paged Optimizers)

긴 시퀀스 길이(sequence lengths)나 큰 배치(batches)로 학습을 진행하는 동안, 갑작스러운 그래디언트 할당 스파이크(gradient allocation spikes)가 물리적 VRAM 한계를 초과하여 OOM(Out of Memory) 크래시를 유발할 수 있습니다.

페이지드 옵티마이저 (Paged Optimizers)는 CUDA 통합 메모리 (Unified Memory)를 활용하여 메모리 사용량이 정점에 도달하는 단계에서 옵티마이저 상태(optimizer states)를 GPU VRAM과 CPU RAM 사이에서 자동으로 스왑(page)합니다. 이를 통해 시스템이 충돌하는 대신 학습 속도를 완만하게 늦추며 안정적으로 진행되도록 합니다.

3. 실습: QLoRA를 위한 Axolotl 설정

Axolotl은 LLM 미세 조정 (fine-tuning)을 위한 강력한 프레임워크로, FlashAttention-2, DeepSpeed, 그리고 PyTorch FSDP와의 네이티브 통합을 제공합니다.

다음은 단일 NVIDIA A10G (24GB VRAM)에 최적화된, 즉시 프로덕션에 적용 가능한 qlora_llama3_8b.yml 설정 파일의 전체 내용입니다:

# 모델 및 학습 모드 설정 (Model & Training Mode Config)
base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
...

4. 루프 가속화: Unsloth를 통한 3배 속도 향상

Axolotl은 구성 옵션이 매우 다양하지만, 어텐션 레이어 (attention layers)에 대한 표준 PyTorch 역전파 (backward passes) 과정에서 성능 손실이 발생합니다. Unsloth는 어텐션 및 MLP 역전파 단계를 순수 OpenAI Triton으로 다시 작성하여, 메모리 소비를 60% 줄이면서도 **3배의 속도 향상 (3x speedup)**을 달성합니다.

Unsloth를 사용하여 QLoRA를 실행하는 전체 Python 스크립트:

import torch
from unsloth import FastLanguageModel
from datasets import load_dataset
...

5. 서빙을 위한 LoRA 가중치 병합 (Merging)

LoRA를 통한 미세 조정 결과물로는 어댑터 가중치 (adapter weights) 디렉토리가 생성됩니다 (통상 50MB - 500MB). vLLM과 같은 엔진을 사용하여 고성능 추론 서빙 (inference serving)을 수행하려면, 이 어댑터 행렬 (adapter matrices)을 16비트 베이스 모델 가중치에 다시 병합해야 합니다.

가중치 병합을 위한 Python 스크립트:

from unsloth import FastLanguageModel

# 베이스 모델과 모델 어댑터를 네이티브 16비트로 로드
...

merged_model_fp16에 생성된 출력물은 vllm serve로 즉시 로드할 수 있는 독립적인 16비트 Hugging Face 모델 디렉토리입니다.

다음 장

지도 미세 조정 (Supervised Fine-Tuning, SFT)은 모델에게 형식(formatting) 스타일과 대화 행동을 지시합니다. 하지만 복잡하고 다단계적인 논리 연산 (Reasoning, 추론)은 추론 단계의 구조화된 채널링 (structured channelling)을 통해 이득을 얻습니다.

Part 4: Task & Knowledge Distillation에서는 DeepSeek-R1과 같은 더 큰 교사 모델 (teacher models)로부터 추론 흔적 (Chain of Thought - CoT)을 추출하여 작은 학생 모델 (student models)로 전달하는 방법을 탐구합니다.

이 게시물은 원래 제 블로그인 Practical QLoRA Fine-tuning: Axolotl & Unsloth | SLM Playbook에 게시되었습니다.

안녕하세요, Lê Tuấn Anh (vesviet)입니다 👋
저는 17년 이상의 경력을 가진 시니어 Go 백엔드 아키텍트이자 분산 시스템 엔지니어로, 고트래픽 플랫폼 (월간 2,500만 건 이상의 요청)을 구축해 왔습니다.
이 심층 분석 내용이 즐거우셨다면, LinkedIn에서 연결하거나 tanhdev.com/hire에서 저의 컨설팅 서비스를 확인해 보세요.

Insights

실전 QLoRA 미세 조정: Axolotl & Unsloth | SLM 플레이북

요약

핵심 포인트