Apple의 온디바이스 AI: 엣지 컴퓨팅(Edge Computing)과 로컬 퍼스트(Local-First) 앱을 위한 조용한 혁명

지난 3년간의 AI 이야기는 메가와트(megawatts) 단위로 기록되어 왔습니다. 사막 데이터 센터에 쌓여 있는 Nvidia GPU들, 수조 개의 파라미터(parameter)를 가진 모델들, 그리고 당신의 프롬프트, 사진, 개인 데이터를 클라우드로 전송하여 이를 처리하기 위해 엄청난 전력을 소모한 뒤 800ms 후에 답변을 돌려주는 API들 말입니다. 만약 당신이 2026년에 AI를 활용해 무언가를 만들고 있다면, 지능은 어딘가 다른 곳에 존재한다는 것이 기본 전제일 것입니다. 당신의 기기는 그저 유리 터미널(glass terminal)일 뿐입니다.

Apple은 다른 이야기를 해왔습니다. 언론 투어도 없었고, "주머니 속의 AGI"와 같은 과장된 홍보 주기도 없었습니다. 대신, Neural Engine의 수치(FLOPS)가 조용히 두 배, 다시 두 배로 늘어난 10년간의 실리콘(silicon) 출시가 있었습니다. 트랜스포머(transformer) 지원을 자연스럽게 추가한 Core ML 업데이트도 있었습니다.

저의 논지는 다음과 같습니다: Apple의 온디바이스(on-device) AI 전략은 클라우드 중심(cloud-centric) AI로부터의, 개인정보 보호를 우선시하고 성능을 지향하는 아키텍처적 전환입니다. 실리콘, 모델, 그리고 API를 로컬(locally)에서 실행되도록 공동 설계함으로써, Apple은 사용자 데이터가 기기를 절대 떠나지 않고, 지연 시간(latency)이 밀리초(milliseconds) 단위로 측정되며, 비행기 모드에서도 기능이 작동하는 새로운 클래스의 로컬 퍼스트(local-first) 애플리케이션을 열어주고 있습니다. 이것이 클라우드 AI를 없애는 것은 아닙니다. 하지만 모든 개발자에게 새로운 질문을 던지게 만듭니다: 당신의 제품 중 어떤 부분이 반드시 클라우드에 있어야 하며, 어떤 부분이 사용자의 주머니 속에 머물 때 더 좋아지는가?

이 포스트는 그러한 변화에 대한 기술적 분석(technical teardown)입니다. 저는 Neural Engine과 통합 메모리(unified memory)의 하드웨어적 현실, LLM을 기기에 맞추기 위한 가혹한 제약 조건, 2026년에 Core ML이 실제로 개발자에게 제공하는 것, 그리고 이 아키텍처가 클라우드 퍼스트(cloud-first)가 건드릴 수 없는 새로운 제품 기회를 창출하는 지점에 대해 다룰 것입니다. 또한 한계점에 대해서도 솔직하게 말하겠습니다. 온디바이스 AI가 GPT-5 학습 클러스터를 대체하지는 못할 것입니다. 하지만 당신이 그들에게 보내는 API 호출의 80%는 대체할 수 있을지도 모릅니다.

지금 이 순간, 클라우드 AI가 모든 헤드라인을 장식하고 있지만, 진정한 변화는 이미 인터넷에 접속하지 않고도 당신의 주머니 속에서 24시간 내내 실행되고 있을지도 모릅니다.

왜 온디바이스(On-Device)를 추진하는가?

Apple의 AI 전략은 키노트(Keynote)의 과장된 수식어로만 측정한다면 느려 보일 수 있습니다. 하지만 실리콘(Silicon) 관점에서 측정한다면, 그 움직임은 끊임없었습니다. 그 '이유'는 WWDC 2026에서 다시 한번 명확해진 세 가지 요소, 즉 개인정보 보호(Privacy), 성능(Performance), 그리고 지속성(Persistence)의 삼각 구도에 있습니다.

제품으로서의 개인정보 보호 (Privacy as a product)

Apple은 2026년 키노트에서 여러 개선 사항 중 하나로 Siri AI를 제시하며 해결책을 설명하는 데 집중했습니다. 개인정보 보호는 "협상의 여지가 없으며(non-negotiable)", 외부 전문가에 의해 검증 가능하다는 Federighi의 발언이 핵심적인 차별화 요소입니다.

우리는 AI에서의 개인정보 보호가 협상의 여지가 없다고 믿습니다. 데이터는 오직 당신의 요청을 실행하는 데에만 사용되며, 외부 전문가들은 언제든 이 약속을 계속해서 검증할 수 있습니다. - Craig Federighi

개발자들에게 이는 건강(Health) 데이터, 메시지(Messages) 문맥, 또는 화면상의 콘텐츠를 백엔드(Backend)로 전송하지 않고도 해당 데이터에 접근하는 기능을 구축할 수 있음을 의미합니다. 모델이 데이터가 존재하는 곳에서 직접 실행되기 때문입니다. 이는 클라우드 퍼스트(Cloud-first) 환경에서는 법적 또는 윤리적으로 불가능했던 사용 사례들을 가능하게 합니다.

성능은 지연 시간(Latency)에 관한 것입니다

클라우드 모델은 실험실에서는 빠르지만, 실제 서비스 환경(Production)에서는 느립니다. 양호한 LTE 환경에서도 API로의 왕복(Round-trip) 시간은 대기 시간을 포함하여 300~800ms가 소요됩니다. 반면 A18/M4급 실리콘에 탑재된 Apple의 Neural Engine은 증류된 모델(Distilled models)에 대해 한 자릿수 밀리초(ms) 단위의 추론(Inference)을 제공합니다. 이는 통합 메모리(Unified memory)가 PCIe (Peripheral Component Interconnect Express) 복사 과정을 제거하고, NPU (Neural Processing Unit)가 데이터와 같은 위치에 배치되어 있기 때문입니다. iOS 27은 심지어 iPhone 11까지 범위를 확장하고 있으며, Apple은 스케줄러(Scheduler) 개선 덕분에 사진 표시 속도는 70%, AirDrop 속도는 80% 더 빨라졌다고 주장합니다. 이것이 바로 조용한 혁명입니다. 지능(Intelligence)을 네트워크 요청이 아닌, 시스템 호출(System call)처럼 느껴지게 만드는 것입니다.

지속성(Persistence)은 어디서나 작동함을 의미합니다

여기에는 비행기, 지하철, 병원, 그리고 기업의 에어갭(Air-gaps, 외부 네트워크와 격리된 환경)이 포함됩니다. WWDC 2026에서 선보인 Apple Intelligence 기능에는 Visual Intelligence, 철자와 구두점을 로컬에서 교정하는 시스템 전반의 받아쓰기(Dictation), 그리고 연결성 없이도 작동하도록 설계된 Photos Reframe 및 Extend가 포함됩니다. 로컬 퍼스트(Local-first) 앱의 경우, 이는 신뢰성을 99.9%의 가동 시간(Uptime)에서 100%의 가용성(Availability)으로 변화시킵니다.

최고의 하드웨어 성능을 기반으로 하는 Apple의 토대는 이 주장을 신뢰할 수 있게 만듭니다. Apple Silicon의 Neural Engine, 통합 메모리(Unified Memory), 그리고 긴밀한 CPU/GPU/NPU 오케스트레이션(Orchestration)은 범용 가속기가 아닙니다. 이것들은 피크 트레이닝 FLOPS(Peak Training FLOPS)가 아니라, 지속 가능하고 저전력인 추론(Inference)을 위해 설계되었습니다. 하드웨어 설계자인 Ternus가 9월에 CEO 직을 맡게 됨에 따라, 이러한 공동 설계(Co-design) 철학이 클라우드로 전환되기보다는 더욱 심화될 것으로 예상됩니다.

범용 GPU, 데이터 송출 비용(Data Egress Costs), 그리고 사용자의 데이터를 수익화하는 비즈니스 모델을 가진 클라우드 모델과 이를 대조해 보십시오. Apple은 개발자들이 모델의 순수 크기를 포기하는 대신 세 가지 보장을 얻게 될 것이라는 데 베팅하고 있습니다: 데이터가 절대 외부로 나가지 않으며, 결과가 즉각적이고, 기능이 오프라인에서도 작동한다는 것입니다.

이러한 절충(Trade-off)이 차세대 앱을 위한 설계 지침(Design Brief)입니다.

기술적 현실 (Technical Realities)

Apple은 고객의 주머니 속에 유용한 LLM(대규모 언어 모델)을 넣는 것과 관련하여 세 가지 엄격한 제약 조건, 즉 메모리 용량(Memory Capacity), 메모리 대역폭(Memory Bandwidth), 그리고 열 전력(Thermal Power)에 직면해 있습니다. Apple의 WWDC 2026 발표는 이 각각의 문제들을 어떻게 해결하는지를 볼 때 비로소 이해가 됩니다.

메모리 (Memory)

LLM은 추론(Inference) 과정에서 메모리 대역폭에 의해 성능이 제한되는(Memory-bandwidth bound) 것으로 악명이 높습니다.

수학적 계산 (The Math): 16비트 정밀도 (FP16)를 사용하는 7B 파라미터 모델은 메모리에 상주하는 것만으로도 7 x 2 = 14GB의 VRAM이 필요합니다. 4비트 양자화 (INT4)를 적용하면 약 3.5~4GB로 줄어듭니다.
"모든 토큰" 문제 (The "Every Token" Problem): 단 하나의 토큰을 생성하기 위해서도 프로세서는 RAM에 있는 수십억 개의 가중치(Weights)를 캐시(Cache)로 전부 읽어 들여야 합니다. 만약 초당 30개의 토큰을 생성한다면, 4비트 7B 모델은 초당 약 120GB의 데이터를 이동시켜야 합니다.
하드웨어 한계 업데이트 (Updates on Hardware Caps):
- iPhone: 역사적으로 iPhone은 (iPhone 15 Pro나 16처럼) 최대 8GB 수준이었으나, Apple은 더 큰 온디바이스 모델을 수용하기 위해 최신 Pro 모델의 표준 RAM 용량을 12GB RAM까지 높였습니다. 하지만 시스템 오버헤드(System overhead)를 제외하고 나면, LLM이 사용할 수 있는 가용 RAM은 여전히 매우 제한적입니다.
- Mac: Apple Silicon Mac은 표준 M-Max/Ultra 칩에서 실제로 최대 192GB까지 지원하지만, 구체적인 칩 아키텍처에 따라 구성은 기술적으로 128GB 또는 그 이상까지 올라갈 수 있습니다. 통합 메모리(Shared memory) 아키텍처는 바로 Mac이 로컬 LLM 실행에 있어 체급 이상의 성능을 발휘하는 핵심 이유입니다.

전력 및 발열 (Power and Thermals)

모바일 기기는 수동 냉각(팬 없음)과 배터리 수명이라는 제약을 받습니다.

스마트폰 전력 예산 (Phone Budgets): 플래그십 스마트폰은 몇 초 동안 10W까지 순간적으로 출력을 높일 수 있지만, 기기가 손에 쥐기 불편할 정도로 뜨거워지거나 한 시간 만에 배터리가 방전되는 것을 방지하려면 지속적인 전력 소비를 3W에서 5W 미만으로 유지해야 합니다.
데이터 센터와의 대비 (Data Center Contrast): 하이엔드 데이터 센터용 GPU(Nvidia의 H100 또는 Blackwell B200 등)는 GPU당 700W에서 1,000W 이상을 소비합니다.
현실 (The Reality): 온디바이스 AI는 "무차별 대입(Brute force)" 방식의 연산에 의존할 수 없습니다. 모바일 NPU는 전력 소모를 토큰당 밀리와트(milliwatt-per-token) 범위로 유지하기 위해 특화된 행렬 곱셈(Matrix-multiplication) 하드웨어 가속기와 공격적인 양자화(Quantization)에 크게 의존해야 합니다.

연산 오케스트레이션 (Compute Orchestration)

Transformer는 단순히 하나의 거대한 수학적 문제인 것이 아니라, 서로 다른 아키텍처적 강점을 요구하는 다양한 연산들의 시퀀스(Sequence)입니다.

KV-Cache: 모델이 텍스트를 생성할 때, 과거 토큰들의 키(Key)와 값(Value)을 메모리에 저장하여 이를 다시 계산할 필요가 없도록 합니다. 이 KV-cache는 컨텍스트 길이(Context length)에 따라 증가하며, 귀중한 RAM을 점유하고 빠른 데이터 이동을 요구합니다.
이기종 코어 (Heterogeneous Cores): 이를 소비자용 칩에서 효율적으로 실행하려면 소프트웨어가 다음과 같은 요소들 사이에서 작업을 오케스트레이션(Orchestrate)해야 합니다:
- NPU: 안정적이고 밀집된 행렬 곱셈(Matrix multiplication)에 탁월합니다.
- GPU: 프롬프트 평가(Prefill phase)의 병렬 처리에 탁월합니다.
- CPU: 토큰 선택(Argmax/Sampling) 및 KV-cache 관리에 필요합니다.
과제: 이러한 서로 다른 유형의 코어 사이에서 데이터를 주고받는 과정은 지연 시간(Latency)을 유발합니다. 통합 메모리 아키텍처(Unified memory architecture, Apple의 칩이나 최신 Snapdragon 칩과 같은 방식)가 이를 완화해주지만, 병목 현상(Bottleneck)을 만들지 않으면서 이러한 코어들을 동기화하는 소프트웨어를 작성하는 것은 매우 어렵습니다.

이러한 문제들에 대한 Apple의 솔루션

툴체인(Toolchain)에 내장된 공격적인 모델 압축

Core ML Tools는 오랫동안 **4/8-bit 가중치(Weights)**에 대한 선형 양자화(Linear quantization)를 지원해 왔으며, 이를 통해 최대 4배의 저장 공간 절감을 달성했습니다. iOS 17은 활성화 양자화(Activation quantization)를 추가했고, iOS 18은 그룹화된 채널 팔레타이제이션(Grouped channel palettization)과 INT8 LUT를 추가했습니다. WWDC 2026에서 Apple은 한 걸음 더 나아갔습니다. 기존의 Core ML을 현대화된 "Core AI" 프레임워크로 교체하고 있습니다. Gurman은 이 계획에 대해 다음과 같이 보도했습니다: "Core AI라고 불리는 새로운 프레임워크입니다. 아이디어는 오랫동안 존재해 온 Core ML을 조금 더 현대적인 무언가로 교체하는 것이며", 그 목적은 여전히 "개발자들이 외부 AI 모델을 앱에 통합하도록 돕는 것"입니다.
초기 보고서들은 Core AI가 "Apple Silicon의 통합 메모리와 뉴럴 엔진(Neural Engine)에 최적화된 아키텍처를 제공하여, 개발자들이 대규모 언어 모델(LLM)을 로컬에서 전체 규모로 배포할 수 있게 해준다"고 설명합니다.

하이브리드 라우팅(Hybrid routing)을 적용한 증류된 파운데이션 모델(Distilled foundation models)

Apple은 WWDC에서 전면 개편된 Apple Intelligence가 "Google의 Gemini AI 모델과의 협업을 통해 구축된 파운데이션 모델 (Foundation models)을 기반으로 한다"며, "더 많은 컴퓨팅 파워가 필요할 때는 AI 모델이 Apple 기기에서 직접 실행될 뿐만 아니라 Apple의 클라우드 서버에서도 실행될 수 있을 것"이라고 확인했습니다. 보고서에 따르면, Siri를 위한 맞춤형 1.2조 파라미터(parameter) Gemini 모델을 위해 연간 약 10억 달러 규모의 계약이 체결되었습니다.

결정적으로, Apple은 "대부분의 AI 작업을 기기 내에서 로컬로 처리하는 한편, 더 까다로운 요청은 새로운 프라이빗 클라우드 컴퓨팅 (Private Cloud Compute) 인프라를 통해 라우팅할 것"입니다. 이는 실용적인 접근입니다. 즉, 즉각적인 응답을 위해 증류된(distilled) 3B 온디바이스 모델을 사용하고, 복잡한 추론이 필요한 경우에는 거대 모델로 폴백(fallback)하는 방식입니다. 개발자들에게 2026년 iOS의 Foundation Models 프레임워크는 "@Generable 매크로와 맞춤형 모델을 위한 LoRA (Low-Rank Adaptation) 어댑터를 포함한 Swift 네이티브 API를 제공하여 오프라인 기능을 가능하게 합니다."

통합 메모리(Unified memory)와 뉴럴 엔진(Neural Engine)

Apple Silicon의 UMA(통합 메모리 아키텍처)는 CPU, GPU, NPU 간의 데이터 복사를 제거합니다. 이는 추론(inference)이 연산 제한(compute-bound)이 아닌 메모리 제한(memory-bound) 사항이기 때문에 중요합니다. 독립적인 테스트에 따르면 "14B 파라미터 미만의 모델의 경우 MLX가 20%에서 87%까지 앞섭니다. 27B를 초과하면 메모리 대역폭(memory bandwidth)이 병목 현상(bottleneck)이 되기 때문에 MLX와 llama.cpp의 성능이 수렴합니다." 하이엔드 Mac에서 400GB/s 이상의 대역폭을 제공하더라도, 성능의 한계치(roofline)에 빠르게 도달하게 됩니다.

이것이 바로 Apple의 실리콘 전략이 단순한 FLOPS(부동 소수점 연산 능력)를 압도하는 이유입니다. Neural Engine에 관한 연구(Research)에 따르면, Orion과 같은 시스템은 재컴파일(recompilation) 과정을 우회함으로써 M4 Max 기기에서 GPT-2 124M 추론 시 170 tokens/s 이상의 성능을 달성했습니다. Apple 자체 프레임워크인 MLX는 "iPhone에서 초당 40개 토큰(40 tokens per second on iPhones)"을 구현하고 있으며, vllm-mlx는 "Apple M4 Max에서 최대 초당 525개 토큰(up to 525 tokens/second on [Apple M4 Max])"까지 밀어붙이고 있습니다. Apple Silicon은 "NVIDIA DGX Spark 대비 달러당 2~3배 더 많은 메모리 대역폭(2–3x more memory bandwidth per dollar than NVIDIA DGX Spark)"을 제공하여, 로컬 클러스터(local clusters) 구축을 실질적으로 가능하게 합니다.

핵심적인 문제 (The Elephant in the Room)

모두가 TOPS(초당 테라 연산)를 인용하지만, 아무도 GB/s(초당 기가바이트)를 인용하지 않습니다. 자기회귀(autoregressive) LLM의 경우, 각 토큰을 생성할 때마다 전체 KV 캐시(KV cache)와 가중치(weights)를 메모리를 통해 스트리밍해야 합니다. 스마트폰에서는 연산 능력(compute)이 부족해지기 훨씬 전부터 대역폭(bandwidth) 부족 현상을 겪게 됩니다. 이것이 바로 4비트 양자화(4-bit quantization)와 그룹화된 쿼리 주의 집중(grouped-query attention)이 더 빠른 NPU보다 더 중요한 이유입니다. 또한 Apple의 UMA(통합 메모리 아키텍처)가 강력한 해자(moat)인 이유이기도 합니다. 외장 GPU(discrete GPU)를 사용하는 PC는 매 토큰마다 PCIe 세금(PCIe tax)을 지불해야 하지만, Apple은 그렇지 않습니다.

올해 WWDC 2026에서 Apple이 개발자들에게 전달한 메시지는 다음과 같습니다: