Apple Silicon의 AI 한계치는 당신의 생각보다 높습니다

Apple Silicon과 로컬 AI 추론 (Inference)에 관한 일반적인 담론은 다음과 같습니다: 인상적인 하드웨어, 취미 수준의 소프트웨어, 근본적으로 메모리 대역폭 (Memory-bandwidth)에 제한됨, 이미 눈에 보이는 한계치. 이러한 담론은 틀렸거나, 최소한 시기상조입니다. Apple의 통합 메모리 아키텍처 (Unified Memory Architecture, UMA)가 가진 구조적 여유 공간은 현재의 추론 프레임워크 (Inference frameworks)에 의해 여전히 상당히 미개척 상태로 남아 있으며, Mininglamp Technology의 오픈 소스 Cider SDK의 최근 작업은 연산 한계치 (Compute ceiling)가 커뮤니티가 가정하는 것보다 훨씬 더 높다는 것을 보여줍니다.

이 기사는 한계치가 왜 더 높은지, 활성화 양자화 (Activation quantization)가 어떻게 이를 해제하는지, 그리고 벤치마크 데이터가 실제로 무엇을 보여주는지를 분석합니다.

Apple Silicon UMA: 왜 이 아키텍처가 당신의 생각보다 추론에 더 적합한가

Apple Silicon의 UMA는 단순히 "공유 RAM"이 아닙니다. 이는 CPU, GPU, 그리고 Neural Engine이 제로 카피 (Zero-copy) 시맨틱을 통해 동일한 물리적 주소 공간에 접근하는 캐시 일관성 패브릭 (Cache-coherent fabric)입니다. 64GB 통합 메모리를 탑راض한 M5 Pro에서 시스템은 307 GB/s의 메모리 대역폭 (Memory bandwidth)을 제공하며, 이는 개별 GPU (Discrete GPU) 설정에서 발생하는 PCIe 병목 현상 없이 모든 연산 유닛 (Compute units)에 공유됩니다.

특히 LLM 추론 (LLM inference)의 경우, 이는 세 가지 구조적 이점을 생성합니다:

제로 카피 가중치 접근 (Zero-copy weight access). 한 번 로드된 가중치 (Weights)는 DMA 전송 없이 GPU 연산 커널 (Compute kernels)에서 바로 볼 수 있습니다. 호스트-투-디바이스 (Host-to-device) 복사나 고정 메모리 (Pinned memory) 기교가 필요 없습니다.
연산 유닛 간의 대역폭 분할 상환 (Bandwidth amortization across compute units). Neural Engine, GPU, 그리고 CPU는 멀티 디바이스 설정이 겪어야 하는 메모리 버스 경합 (Memory bus contention)에 의해 직렬화되지 않고, 추론의 서로 다른 단계(임베딩 조회 (Embedding lookup) → 어텐션 (Attention) → FFN)를 파이프라이닝할 수 있습니다.
OOM 절벽 없는 대규모 컨텍스트 (Large context without OOM cliffs). 64-128GB의 통합 풀 (Unified pools)은 70B급 모델이 KV-캐시 (KV-cache) 성장을 위한 여유 공간과 함께 메모리에 완전히 들어갈 수 있음을 의미합니다. 이는 NVIDIA 플랫폼에서는 멀티 GPU가 필요한 작업입니다.

따라서 병목 현상(bottleneck)은 하드웨어가 아닙니다. 문제는 소프트웨어가 가용 컴퓨팅 처리량(compute throughput)을 얼마나 효율적으로 _사용하는가_입니다. 현재의 프레임워크들은 Apple Silicon GPU를 대역폭 제한(bandwidth-limited) 장치로 취급함으로써 막대한 성능 여유를 낭비하고 있습니다. 하지만 실제로는 이 장치들은 연산 부족 커널(compute-starved kernels)을 실행하고 있는 연산 가능(compute-capable) 장치입니다.

MLX의 현재 상태: 가중치 양자화(Weight Quantization)와 프리필(Prefill) 병목 현상

Apple의 MLX 프레임워크는 Apple Silicon을 위한 사실상의 표준 추론 엔진(inference engine)이 되었습니다. 이 프레임워크는 가중치 전용 양자화(weight-only quantization)를 우아하게 처리합니다. W4A16(4-bit 가중치, 16-bit 활성화) 및 W8A16(8-bit 가중치, 16-bit 활성화)은 최적화된 Metal 커널을 갖춘 일급 시민(first-class citizens)으로 취급됩니다.

MLX에서 가중치 전용 양자화가 작동하는 방식:

W4A16에서 각 가중치 텐서(weight tensor)는 그룹별 스케일(scale) 및 제로 포인트(zero-point) 파라미터(일반적으로 그룹 크기 32 또는 128)를 가진 4비트 정수로 오프라인 양자화됩니다. 추론 시점에 커널은 행렬 곱셈(matrix multiplication)을 FP16 활성화 값과 수행하기 전에, 가중치를 FP16으로 즉석에서 역양자화(dequantize)합니다. 이는 가중치의 메모리 점유율(memory footprint)을 절반(W8) 또는 4분의 1(W4)로 줄여주며, 각 토큰 생성 시 모델 전체를 통과해야 하는 디코드(decode) 단계에서의 메모리 대역폭 압박을 직접적으로 감소시킵니다.

한 번에 하나의 토큰을 생성하는 디코드 단계는 순수하게 메모리 대역폭 제한(memory-bandwidth-bound)적입니다(작은 배치 크기, 큰 가중치 읽기). 가중치 양자화는 이 문제를 완벽하게 해결합니다. Apple Silicon에서 MLX의 W4A16 디코드 속도는 진정으로 인상적입니다.

하지만 프리필(prefill)은 완전히 다른 문제입니다.

프리필(prefill, 전체 입력 프롬프트를 처리하는 과정) 동안에는 연산 프로파일(computation profile)이 급격하게 변화합니다. 수천 개의 입력 토큰이 동시에 처리됨에 따라, 행렬 곱셈은 대규모 GEMM (General Matrix-Matrix Multiplications)이 되며, 이때는 단순히 대역폭(bandwidth)뿐만 아니라 연산 처리량(compute throughput)이 제한 요소가 됩니다. 활성화 행렬(activation matrices)은 가로로 넓으며(sequence_length × hidden_dim), FP16 활성화 값을 FP16으로 역양자화(dequantized)된 가중치(weights)와 곱하는 것은 모든 GEMM이 FP16 연산 강도(arithmetic intensity)로 작동함을 의미합니다.

이 지점이 바로 MLX가 한계에 부딪히는 부분입니다. 4516개의 컨텍스트 토큰을 처리하는 M5 Pro에서 MLX W8A16은 프리필에 2.839초가 소요됩니다. 이 단계 동안 GPU의 INT8 텐서 연산 유닛(tensor operation units)은 완전히 유휴(idle) 상태로 머물러 있습니다. 이는 하드웨어에는 존재하지만 현재의 소프트웨어 스택으로는 도달할 수 없는, 사용되지 않는 연산 용량입니다.

프리필 병목 현상이 중요한 이유는 이것이 첫 번째 토큰 생성 시간(TTFT, time-to-first-token)에 직접적인 영향을 미치기 때문입니다. TTFT는 에이전트 워크플로(agentic workflows), RAG 파이프라인, 그리고 출력을 생성하기 전에 상당한 양의 컨텍스트를 처리해야 하는 모든 애플리케이션에서 체감 지연 시간(perceived latency)을 결정짓는 핵심 요소입니다.

활성화 양자화(Activation Quantization): MLX가 해결하지 못한 난제

가중치 양자화(Weight Quantization) vs 활성화 양자화(Activation Quantization): 근본적인 차이

가중치 양자화는 오프라인(offline) 문제입니다. 모델 가중치는 정적인 텐서(static tensors)입니다. 즉, 보정(calibration) 시점에 분포가 알려지며, 그 이후로는 영구적으로 고정됩니다. 최적의 스케일 인자(scale factors), 채널별 범위(per-channel ranges), 이상치 처리(outlier handling) 전략을 찾는 데 몇 시간을 소비할 수 있습니다. 양자화된 표현은 한 번 계산되어 저장된 후 배포됩니다.

활성화 양자화는 온라인(online) 문제입니다. 활성화 값은 모든 입력에 대해, 모든 레이어에서, 매 추론 단계마다 동적으로 계산됩니다. 이들의 분포는 입력 내용, 시퀀스 위치, 어텐션 패턴(attention patterns), 레이어 깊이에 따라 변화합니다. 활성화 값이 어떻게 나타날지 도착하기 전까지는 알 수 없기 때문에, 최적의 양자화 파라미터를 미리 계산해 둘 수 없습니다.

활성화 양자화가 더 어려운 이유

세 가지 특성 때문에 활성화 (activations) 값은 양자화하기 매우 어려운 것으로 알려져 있습니다:

동적 범위 불안정성 (Dynamic range instability). 학습 과정에서 학습된 안정적인 분포를 차지하는 가중치 (weights)와 달리, 활성화 텐서 (activation tensors)는 입력에 따라 크기가 변하는 특성을 보입니다. 희귀한 패턴에 주의 (attending)를 기울이는 토큰은 동일한 시퀀스 내의 일반적인 토큰보다 10~100배 더 큰 활성화 값을 생성할 수 있습니다. 이러한 이상치 (outliers)를 클리핑 (clipped)하면 모델의 정확도가 파괴되며, 양자화 범위 (quantization range)에 포함시키려 하면 대부분의 값에 대한 정밀도 (precision)를 낭비하게 됩니다.

채널별 이질성 (Channel-wise heterogeneity). 활성화 텐서 내의 서로 다른 채널 (특징 차원, feature dimensions)은 종종 극적으로 다른 범위를 가집니다. 채널 42는 [-0.1, 0.1] 범위일 수 있는 반면, 채널 1337은 [-50, 50] 범위일 수 있습니다. 단일 텐서당 스케일 인자 (per-tensor scale factor) 하나만으로는 좁은 범위의 채널에서 치명적인 정밀도 손실 없이 두 채널을 모두 수용할 수 없습니다.

누적 민감도 (Accumulation sensitivity). 행렬 곱셈 (matrix multiplications)에서 양자화 오차는 축소 차원 (reduction dimension)을 따라 누적됩니다. 축소 차원 K=4096인 GEMM의 경우, 각 출력 요소는 4096개의 곱셈 결과값을 합산합니다. 요소당 아주 작은 양자화 노이즈 (각 ±0.01)일지라도, 특히 곱셈 결과들이 무작위가 아닌 상관관계 (correlated)를 가질 경우 상당한 출력 오차로 누적될 수 있습니다.

정적 vs. 동적 양자화 접근 방식 (Static vs. Dynamic Quantization Approaches)

**정적 양자화 (Static quantization)**는 대표 데이터를 사용하여 활성화 범위를 미리 보정 (pre-calibrates)합니다. 스케일 인자는 배포 시점에 고정됩니다. 장점: 범위 계산을 위한 런타임 오버헤드 (runtime overhead)가 없습니다. 단점: 보정 분포 (calibration distribution)에서 벗어나는 입력은 클리핑되거나 정밀도가 제대로 활용되지 못합니다.

**동적 양자화 (Dynamic quantization)**는 각 텐서에 대해 런타임에 활성화 통계치 (최솟값/최댓값 또는 백분위수)를 계산합니다. 장점: 모든 입력에 완벽하게 적응합니다. 단점: 통계치 계산 자체가 지연 시간 (latency)을 추가합니다. 대규모 활성화 텐서의 경우, 수백만 개의 요소에 대해 최솟값과 최댓값을 계산하는 것은 간단한 작업이 아닙니다.

실질적인 엔지니어링 과제는 적절한 균형점(sweet spot)을 찾는 것입니다. 즉, 정확도(accuracy)를 유지할 수 있을 만큼 충분한 동적 적응성(dynamic adaptation)을 갖추면서도, 실제로 속도 향상(speedups)을 제공할 수 있을 만큼 오버헤드(overhead)가 낮아야 합니다.

입도(Granularity): Per-Tensor vs. Per-Channel vs. Per-Group

**Per-tensor 양자화 (Per-tensor quantization)**는 전체 활성화 텐서(activation tensor)에 대해 단일 스케일(scale)/제로 포인트(zero-point)를 사용합니다. 구현이 가장 간단하고 계산 비용이 가장 저렴하지만, 채널(channel)들이 이질적인 범위(heterogeneous ranges)를 가질 경우 정확도가 가장 떨어집니다.

**Per-channel 양자화 (Per-channel quantization)**는 각 채널(특징 차원, feature dimension)에 독립적인 스케일 인자(scale factors)를 할당합니다. 이질적인 범위를 잘 처리하지만, GEMM 커널(kernel)이 혼합 스케일링(mixed scaling)을 지원해야 합니다. 즉, 누적(accumulation) 과정에서 출력 채널별로 서로 다른 스케일을 고려해야 합니다. 이 지점에서 하드웨어 특화 커널 설계(hardware-specific kernel design)가 매우 중요해집니다.

Per-group 양자화 (Per-group quantization)(예: 그룹 크기 64 또는 128)는 채널을 여러 그룹으로 세분화하며, 각 그룹은 독립적인 스케일 인자를 가집니다. 이는 per-tensor와 per-channel의 중간 단계에 위치합니다. per-tensor보다 정확도가 높고 엄격한 per-channel보다 유연성이 뛰어나지만, 누적 과정 중 그룹화된 역양자화(grouped dequantization)를 위한 커널 지원이 필요합니다.

이러한 입도(granularity) 사이의 선택은 단순히 정확도에 관한 문제가 아니라, 하드웨어 공동 설계(hardware co-design)의 문제입니다. 타겟 하드웨어의 GEMM 유닛이 파이프라인 스톨(pipeline stalls)이나 레지스터 압박(register pressure)을 유발하지 않으면서 활용할 수 있는 입도는 무엇인가 하는 점입니다.

Cider SDK: Apple Silicon을 위한 INT8 활성화 양자화

Mininglamp Technology의 Cider SDK는 Apple Silicon의 M5+ GPU 아키텍처를 위해 이 하드웨어 공동 설계 질문에 대한 해답을 제시합니다. Cider는 활성화 양자화를 프레임워크에 독립적인(framework-agnostic) 알고리즘으로 취급하는 대신, 현재 MLX가 활용하지 못하고 있는 하드웨어 역량을 활용하도록 설계된 **MLX 강화 레이어 (MLX enhancement layer)**로 엔지니어링되었습니다.

INT8 TensorOps 커널 설계

핵심적인 기여는 Apple Silicon의 전용 정수 텐서 연산 유닛 (integer tensor operation units)을 사용하여 INT8×INT8 행렬 곱셈을 수행하는 Metal 컴퓨팅 커널 (Metal compute kernels) 세트입니다. M5 세대 칩 및 그 이후 모델에서 사용 가능한 이 유닛들은 표준 MLX 커널에서 사용되는 FP16 ALU보다 훨씬 더 높은 처리량 (throughput)으로 8비트 정수 곱셈-누산 (multiply-accumulate) 연산을 실행할 수 있습니다.

Cider의 커널 파이프라인은 다음과 같이 작동합니다:

동적 양자화 패스 (Dynamic quantization pass). 선형 레이어 (linear layer)로 들어오는 각 활성화 텐서 (activation tensor)에 대해, 빠른 min/max 리덕션 커널 (reduction kernel)을 사용하여 채널별 (또는 그룹별) 스케일 인자 (scale factors)를 계산합니다.
활성화 양자화 (Activation quantization). 계산된 스케일 인자를 사용하여 FP16 활성화를 INT8로 매핑합니다. 이는 메모리 대역폭 부하가 적은 연산 (one pass, streaming)입니다.
INT8 GEMM 실행 (INT8 GEMM execution). 양자화된 활성화 텐서는 Metal의 정수 텐서 연산을 사용하여 미리 양자화된 INT8 가중치 (weights)와 곱해집니다. 오버플로 (overflow)를 방지하기 위해 누산 (accumulation)은 INT32에서 수행됩니다.
역양자화 및 재스케일링 (Dequantization and rescaling). INT32 누산기 출력은 활성화 및 가중치 스케일 인자의 곱을 사용하여 재스케일링되며, 다음 레이어를 위한 FP16 출력을 생성합니다.

핵심적인 엔지니어링 통찰은 단계 1-2 (양자화 오버헤드)는 대역폭 제한적 (bandwidth-bound) 마이크로 연산인 반면, 단계 3 (실제 GEMM)은 FP16의 산술 처리량 (arithmetic throughput)보다 거의 2배 빠르게 실행된다는 점입니다. 그 결과, GEMM이 전체 연산 시간의 대부분을 차지하는 상황에서 상당한 프리필 (prefill) 속도 향상을 얻을 수 있습니다.

M5+ 하드웨어를 위한 조건부 컴파일 (Conditional Compilation)

Cider는 빌드 시점에 Apple Silicon 세대를 감지하기 위해 조건부 컴파일 (conditional compilation)을 사용합니다. INT8 TensorOps를 사용할 수 있는 M5+ 하드웨어에서는 최적화된 커널 경로가 활성화됩니다. 이전 세대 하드웨어 (M1-M4)에서는 Cider가 표준 MLX 실행 방식으로 원활하게 전환(fallback)됩니다. 즉, 충돌이나 조용한 정확도 손실 없이 기본적인 MLX 성능을 유지합니다.

이러한 설계 결정은 공학적 실용주의 (engineering pragmatism)를 반영합니다. INT8 텐서 연산은 하드웨어 기능이지, 소프트웨어 에뮬레이션 대상이 아닙니다. 이전 세대에서 이를 시뮬레이션하려고 시도하는 것은 속도 향상이 아닌 성능 저하를 초래할 것입니다.

세 가지 세분화 옵션: 성능 대 정확도 트레이드오프 (Tradeoffs)

Cider는 세 가지 활성화 양자화 (activation quantization) 세분화 수준을 제공하며, 각 수준은 프리필 (prefill) 단계에서 MLX W4A16 베이스라인 대비 측정된 뚜렷한 성능 특성을 가집니다:

세분화 수준	MLX W4A16 대비 프리필 속도 향상	정확도 영향	사용 사례
Per-channel	1.8x	가장 낮은 저하	프로덕션 배포, 정확도 중심
...

세분화의 정밀도와 속도 향상 사이의 역관계는 시사하는 바가 큽니다. Per-channel 양자화는 더 적은 스케일 인자 (scale factors)를 사용하며, INT8 GEMM이 재스케일링 중단 없이 더 큰 연속 블록에서 작동할 수 있도록 합니다. 반면 Per-group (gs=64) 방식은 더 빈번한 스케일 인자 조회와 부분 누적 (partial accumulations)을 요구하며, 이는 파이프라인 버블 (pipeline bubbles)을 유발합니다.

개발자는 정확도와 지연 시간 (latency) 사이의 트레이드오프 요구 사항에 따라 세분화 수준을 선택합니다. TTFT (Time To First Token)가 사용자 경험 (UX)을 지배하는 에이전트형 애플리케이션 (agentic applications)의 경우, Per-channel의 1.8배 속도 향상은 혁신적입니다. 출력 품질이 저하되어서는 안 되는 작업 (의료, 법률)의 경우, gs=64 방식도 여전히 유의미한 개선을 제공합니다.

MLX 실행 그래프와의 통합

결정적으로, Cider는 MLX의 포크 (fork)가 아니라 **플러그인 레이어 (plugin layer)**입니다. 모델을 다시 내보내거나(re-export) 커스텀 가중치 형식을 요구하지 않고도 기존의 모든 MLX 모델과 함께 작동합니다. 통합 지점은 선형 레이어 (linear layer) 수준에 있습니다. Cider는 프리필 중에 MLX의 GEMM 디스패치 (dispatch)를 가로채어, 적합한 연산을 INT8 커널 경로로 라우팅하고, 결과를 표준 MLX 실행 그래프로 반환합니다.