AI의 양자화란 무엇인가? ── 임베디드 엔지니어의 시선으로 정리하기

서론

최근 로컬에서 동작하는 대규모 언어 모델(LLM)이 급속히 보급되고 있다.

이러한 모델을 개인 PC 상에서 구동할 수 있는 시대가 되었다.

다만, 모델 내부에는 수십억 개의 파라미터(Parameter, 가중치)가 있어 그대로 두면 매우 거대하다. 이 문제를 해결하는 기술이 양자화 (Quantization) 이다.

이번에는 '양자화'에 대해, 임베디드 엔지니어이자 물성 물리 출신인 필자의 시선에서 정리해 본다.

LLM의 정체는 그저 숫자의 더미였다

LLM의 본체는 의외로 수수하다. 내용은 거대한 수치의 집합 이다.

0.123456789
-1.987654321
0.00031245

이런 실수값(가중치)이 수십억 개씩 쭉 늘어서 있다. 그것이 뉴럴 네트워크(Neural Network)를 구성하고 있다.

이 값들은 통상 다음과 같은 형식으로 저장된다.

형식	비트 수	설명
FP32	32bit	단정밀도 부동 소수점
...

하나의 가중치를 16bit로 표현한다고 가정할 때, 수십억 개가 있으면 수십 GB 규모 가 된다. 이것이 개인 PC에서의 실행을 가로막는 벽이 되고 있다.

양자화란 "거칠게 반올림하는 것"

양자화란 한마디로 말하자면:

고정밀도 실수를 더 거친 이산값(Discrete value)으로 반올림함으로써, 모델 크기를 대폭 줄이는 기술

예를 들어, 이런 이미지다.

원래 값: 0.123456789
양자화 후: 0.12

유효 숫자와의 대응

물리 실험에서는 "측정 오차보다 미세한 자릿수는 의미가 없다"라는 사고방식이 있다. 양자화는 바로 이와 같은 발상이다. 본질적으로 의미 없는 정밀도는 버린다는 것이다.

4bit 양자화는 얼마나 거친가?

4bit로 표현할 수 있는 값의 종류는:

단 16종류 의 대표값 중 하나로 반올림된다.

"그렇게 되면 지능이 붕괴하지 않을까?"라고 생각할 수도 있겠지만, 신기할 정도로 잘 작동한다. 그 이유는 후술한다.

사이즈 감소 효과

형식	비트 수	FP16 대비
FP16	16bit	1×
...

예를 들어 14GB의 모델이 4bit 양자화를 통해 수 GB 대로 작아지는 일도 드물지 않다. VRAM 8GB 머신에서도 양자화된 모델이라면 7B~13B 규모 를 구동할 수 있다.

양자화는 "아날로그 → 디지털"과 닮았다

양자화의 본질은:

연속적인 값을 유한한 개수의 대표값으로 이산화하는 것

이것, 무언가와 닮지 않았는가?

AD 컨버터 (A/D 변환) 와 같은 구조다.

임베디드 엔지니어에게는 친숙한 개념으로, 연속적인 전압값을 유한 비트의 정수로 반올림하는 처리와 발상이 완전히 같다.

아날로그 신호 → ADC → 디지털 값
FP16 가중치 → 양자화 → INT4 값

MP3와의 유사성 ── 정보의 "버리는 법"이 핵심

MP3가 가장 이해하기 쉬운 비교 대상이다.

기술	깎아내는 대상	목적
MP3	사람의 귀에 잘 들리지 않는 소리	음질을 거의 유지하면서 압축
LLM 양자화	출력에 거의 영향을 주지 않는 수치 정밀도	지능의 거동을 거의 유지하면서 압축

"중요하지 않은 정보를 버린다"라는 발상이 공통적이다. 다만 무작위로 깎아내는 것이 아니라, 깎아도 결과가 변하지 않는 부분을 파악하여 깎는 것 이 핵심이다.

왜 INT4에서도 작동하는가?

이것이 양자화의 가장 흥미로운 점이다.

뉴럴 네트워크는 무수한 파라미터의 집합적인 거동 으로 지능을 표현한다. 하나의 가중치가 조금 부정확하더라도, 다른 수십억 개의 가중치가 서로 보완하기 때문에 전체 출력은 거의 변하지 않는다.

물성 물리의 용어로 말하자면, 통계역학적인 로버스트성 (Robustness) に 가깝다. 개별 입자의 상태가 흔들려도 거시적인 물리량은 안정되어 있는, 그 감각이다.

GGUF 포맷과 재생 생태계

동영상 세계와의 대응이 흥미롭다.

동영상 세계	LLM 세계
MP4 (H.264 압축 완료)	GGUF (양자화 완료 모델)
...

GGUF는 "LLM 버전의 MP4"라고 이해하면 쉽다. 재생 환경 (llama.cpp / Ollama)과 압축된 파일 (GGUF)이 분리되어 있어, 누구나 배포하고 재생할 수 있는 생태계가 완성되어 있다.

양자화는 비가역 압축

양자화는 ZIP과 같은 가역 압축이 아니다.

JPEG
MP3
H.264

와 마찬가지로, 약간의 정보를 버리고 크기를 대폭 줄이는 비가역 압축 (Lossy Compression) 이다.

한번 양자화하면 원래대로 되돌릴 수 없다. 그렇기 때문에 "어디까지 깎아낼 것인가"가 중요해진다.

가장 어려운 점: 어디까지 거칠게 만들 수 있는가

양자화에서 가장 어려운 것은:

"어디까지 거칠게 만들어도 성능이 유지되는가"를 판별하는 것

이는 명확한 경계가 있는 것이 아니라, 실험적·통계적으로 평가된다. 태스크(Task)에 따라 내성이 다르고, 모델에 따라서도 다르다. 실제로는 다양한 비트 수의 양자화 버전을 만들어 벤치마크(Benchmark)로 비교하는 진흙탕 싸움 같은 작업이 된다.

물리학적 관점에서 본 양자화

물리학에서는 측정 오차보다 충분히 큰 현상을 다루는 한, 세밀한 자릿수는 본질적이지 않다. 양자화도 이와 마찬가지로, 출력에 영향을 주지 않는 범위 내에서 수치 정밀도(Numerical Precision)를 낮추는 개념이다.

FP16의 정밀도는 물리 실험의 감각으로 보면 과할 정도이다. 실험 데이터의 유효 숫자(Significant Figures)는 3~4자리만 있어도 충분한 경우가 많다. INT4까지 낮춰도 실용상 문제가 없는 경우가 많은 것은 어떤 의미에서는 자연스러운 일이다.

최전선: 1.58bit 양자화

현재 양자화 연구의 최전선에서는 비트 수를 더욱 낮추려는 시도가 진행되고 있다.

BitNet b1.58 (Microsoft Research): 각 가중치(Weight)를 {-1, 0, 1}의 3가지 값으로 표현 - 이론적으로는 1.58bit (log₂3 ≈ 1.58) 상당
추론(Inference) 시의 메모리 및 연산 비용이 극적으로 감소함

아직 연구 단계이지만, 방향성 측면에서는 "정밀도를 낮추더라도 지능은 유지할 수 있다"라는 양자화의 철학을 더욱 밀어붙인 것이다.

요약

기술	"휴대 가능하게 만든 것"
MP3	음악
...

양자화란:

지능의 거동을 거의 유지한 채, 수치 표현을 거칠게 만들어 모델을 작게 만드는 기술

그 본질은 "본질은 남기고, 지엽적인 부분은 깎아낸다"라는 정보 압축의 철학에 있다.

새로운 기술처럼 보이지만, 사실 유효 숫자, ADC (Analog-to-Digital Conversion, 아날로그-디지털 변환), 비가역 압축 등 예전부터 존재해 온 "근사(Approximation)의 발상"의 연장선상에 있다. 클라우드에 의존하지 않는 로컬 AI의 시대는 이 기술 위에 세워져 있다.

Insights