온디바이스 AI가 현실이 되다

Apple의 최신 온디바이스 (On-device) 모델은 약 200억 개의 파라미터 (parameters)를 보유하고 있으며, 특정 요청이 발생할 때마다 그중 약 10억 개에서 40억 개 정도를 실행합니다. 저장된 20B와 실행되는 약 3B 사이의 이 격차가 바로 2026년의 핵심입니다. 최신 iPhone에 탑재되어 출시되는 이 모델은 더 이상 클라우드 모델의 축소되고 기능이 거세된 사촌 격이 아닙니다. 이것은 다른 종류의 객체입니다. 저장 시에는 거대하지만, 구동 시에는 작으며, 결코 외부(home)로 데이터를 전송하지 않습니다.

지난 3년 동안 온디바이스 (on-device)에 대한 제안은 대부분 열망에 가까웠습니다. 데모는 돌아갔지만 지연 시간 (latency)은 심각했고, 품질은 API보다 한 세대 뒤처졌으며, 모든 진지한 AI 기능은 여전히 누군가의 데이터 센터 (datacenter)에서 토큰당 비용을 발생시켰습니다. 2026년 중반, 그 상황은 바뀌었습니다. 두 가지 출시 — 6월 8일 WWDC에서 발표된 Apple의 3세대 파운데이션 모델 (Foundation Models)과 4월 2일 Google의 Gemma 4 제품군 — 이 조용히 기준점을 옮겨 놓았습니다. 이제 진정으로 유용한 에이전트 (agents)가 여러분이 이미 소유한 하드웨어에서 오프라인으로, 무료로 실행됩니다.

아무도 가격에 반영하지 않은 경제학

잠시 벤치마크 (benchmarks)는 잊으십시오. 여기서 핵심적인 사실은 회계 (accounting)입니다. 모델이 클라우드 (cloud)에 존재할 때, 모든 추론 (inference)은 계량화된 이벤트입니다. 입력 토큰 (input tokens), 출력 토큰 (output tokens)은 사용량에 따라 선형적으로 증가하는 항목이며, 모델을 에이전트 루프 (agent loop)로 감싸는 순간 비용이 폭발합니다. 에이전트 중심의 워크로드 (Agentic workloads)는 토큰 계량기 측면에서 최악의 사례입니다. 단 한 번의 "이 작업을 수행해"라는 명령이 에이전트가 계획을 세우고, 도구 (tools)를 호출하고, 재시도하고, 자신의 출력을 다시 읽는 과정에서 수십 번의 모델 호출로 확산될 수 있기 때문입니다. 비용은 여러분의 야망과 함께 커집니다.

모델을 기기(device)로 옮기면 추론(inference)의 한계 비용은 거의 $0에 수렴합니다. API 키도, 속도 제한(rate limit)도, 사용량 대시보드도 필요 없습니다. 여러분은 실리콘(silicon)에 대해 단 한 번 비용을 지불했을 뿐이며, 그 이후의 모든 토큰은 제품 관리자(product manager)가 신경 쓰는 유일한 관점에서 볼 때 무료입니다. 즉, 성공에 따라 계속 커지는 월간 청구서에 나타나지 않는다는 뜻입니다. 이 단 한 번의 변화가 어떤 기능을 구축할 가치가 있는지를 완전히 다시 쓰게 만듭니다. 5분마다 받은 편지함을 다시 요약하는 백그라운드 작업은 토큰당 과금 방식(per-token plan)에서는 미친 짓이지만, 온디바이스(on-device)에서는 사소한 일입니다. 하나의 정답을 얻기 위해 조용히 백 번을 루프(loop) 도는 에이전트(agent) 역시 마찬가지입니다.

비용만이 전부가 아닙니다. 온디바이스는 _오프라인(offline)_을 의미합니다. 모델이 비행기 안에서, 터널 안에서, 혹은 클라우드 제공업체의 서비스가 닿지 않는 국가에서도 작동한다는 뜻입니다. 또한 이는 문자 그대로의 아키텍처(architectural) 관점에서 _프라이빗(private)_함을 의미합니다. 데이터가 NAND를 절대 떠나지 않기 때문입니다. 캘린더, 사진 라이브러리, 건강 로그, 혹은 작성 중인 메시지의 경우, "이 바이트들은 물리적으로 네트워크를 통과하지 않았다"라는 사실은 그 어떤 개인정보 보호정책(privacy policy)보다 훨씬 강력한 보증이 됩니다.

거대한 것보다 희소한 것이 승리한다: 이를 가능케 한 아키텍처

이것이 지금 가능해진 이유는 누군가 프런티어 모델(frontier model)을 3GB의 RAM에 쑤셔 넣는 방법을 발견했기 때문이 아닙니다. 모델의 설계 방식이 바뀌었기 때문입니다. Apple과 Google 모두에서 승리한 아이디어는 동일합니다. 모델의 _크기(size)_와 특정 토큰을 생성할 때 실제로 _실행(run)_되는 양을 분리(decouple)하는 것입니다.

Apple의 AFM 3 온디바이스 모델은 회사가 **지시 이행 가지치기 (Instruction-Following Pruning, IFP)**라고 부르는 기술을 사용합니다. 약 20B(200억) 개의 파라미터(parameter)를 가진 전체 모델은 플래시(flash) 메모리에 저장됩니다. 특정 요청이 들어오면 시스템은 관련 있는 약 1~4B의 파라미터만을 활성화하며, 필요한 "전문가(experts)"들을 필요에 따라 DRAM으로 스왑(swapping)합니다. 휴대폰은 전체 모델을 작업 메모리에 항상 담아두지 않고, 필요한 부분만을 스트리밍(streaming)합니다. 이것이 바로 20B 모델이 20B의 활성 가중치(active weights)를 물리적으로 담을 수 없는 메모리 예산 안에 들어갈 수 있는 방법입니다.

Google의 Gemma 4는 두 가지 측면에서 동일한 문제에 접근합니다. 엣지 모델(edge models)인 E2B와 E4B는 활성 점유율(active footprint)을 작게 유지하기 위해 "계층별 임베딩 (Per-Layer Embeddings)"을 사용합니다. E4B는 총 약 8B의 파라미터(parameters)를 보유하고 있지만, 약 4.5B의 유효 파라미터로 구동됩니다. 이보다 큰 형제 모델인 26B MoE(Mixture-of-Experts)는 토큰당 전문가(experts) 중 극히 일부만을 활성화합니다. MoE와 계층별 트릭은 Apple의 IFP 통찰력이 다른 옷을 입고 나타난 것과 같습니다. 즉, 대규모 모델의 대부분은 단일 토큰 처리 시 불필요한 무게(dead weight)이므로, 이를 실행하기 위해 비용을 지불하지 말라는 것입니다.

하드웨어가 마침내 소프트웨어와 중간 지점에서 만났습니다. 이제 스마트폰과 노트북의 표준이 된 신경망 가속기(NPU)는 4-8B급 모델을 진정으로 사용 가능한 속도로 구동합니다. 실질적인 질문은 "실행이 가능한가"에서 "어떤 모델이 이 RAM 계층에 적합한가"로 옮겨갔으며, 이는 연구 문제가 아닌 일상적인 제품 결정 사항이 되었습니다. Google은 Gemma 4 엣지 모델이 스마트폰뿐만 아니라 Raspberry Pi 및 NVIDIA Jetson Orin Nano에서도 "지연 시간이 거의 없는 완전한 오프라인 상태"로 실행된다고 밝히고 있습니다. 이전 세대의 E4B는 약 3GB의 RAM에 들어갔던 것으로 보고되었습니다.

이것들은 더 이상 장난감 모델이 아닙니다

성능의 도약은 실재하며, 일상적인 사용에 중요한 부분인 멀티모달리티(multimodality)에서 가장 광범위하게 나타납니다. AFM 3의 온디바이스 모델은 이제 멀티모달입니다. 이미지를 입력받을 수 있으며, Apple의 보고에 따르면 인간 평가자들이 이전 세대보다 이 모델의 이미지 이해력을 약 61%의 확률로 더 선호했습니다. 온디바이스 텍스트 음성 변환(TTS)은 5점 척도의 평균 의견 점수(MOS)에서 기준 모델의 3.82점 대비 4.24점을 기록했습니다. 이는 대략 "분명히 로봇이다"와 "괜찮네, 실제로 들어볼 만하다" 정도의 차이입니다. Gemma 4는 네이티브 비전(vision)과 오디오(audio), 엣지 모델에서의 128K 컨텍스트(context), 그리고 140개 이상의 언어를 지원합니다.

오픈 모델 리더보드(open-model leaderboard)가 이 주장을 뒷받침합니다. Google의 31B 밀집(dense) Gemma 4는 오픈 모델 중 약 3위를 기록하고 있으며, 26B MoE 모델은 LMArena의 텍스트 보드에서 약 6위를 차지하고 있습니다. 이 모델들이 "자신보다 20배 더 큰 모델들과 경쟁할 수 있다"는 Google 자체의 프레임워크(framing)는 그 자체로 핵심 논지입니다. 2026년 소형 모델의 목적은 GPT급 프론티어 추론(frontier reasoning) 능력을 맞추는 것이 아닙니다. 그것을 필요로 하지 않는 90%의 작업들을 충분히 잘 수행하면서, 당신의 주머니 속에서 무료로 실행되는 것입니다.

여전히 할 수 없는 것들

솔직한 주의사항을 말씀드리자면, 디바이스 모델은 프론티어 모델(frontier model)이 아닙니다. 그렇지 않은 척하는 것은 실망스러운 기능을 출시하는 지름길입니다. 복잡한 다단계 추론(multi-step reasoning), 장기적인 코딩(long-horizon coding), 방대한 코퍼스(corpora)를 가로지르는 심층 연구 등은 여전히 클라우드(cloud)의 영역입니다. 그곳에서는 훨씬 더 큰 컨텍스트 예산(context budget)을 가진 거대 모델이 토큰 비용을 정당화합니다. 떠도는 소형 모델의 벤치마크 수치들—14B급 모델의 MMLU 점수 80대 중반, 4B 미만 모델의 60대 후반 수치들—을 의심하며 바라보십시오. MMLU는 포화 상태이며 조작(gameable)이 가능합니다. 리더보드 점수는 해당 모델이 5단계 계획을 일관되게 유지할 수 있는지에 대해 거의 아무것도 알려주지 않습니다. 올바른 사고 모델은 하이브리드(hybrid) 방식입니다. 디바이스는 빠르고, 프라이빗하며, 빈도가 높은 작업을 처리하고, 작업이 진정으로 디바이스의 범위를 벗어날 때만 클라우드로 넘깁니다. 향후 1년간 흥미로운 엔지니어링 과제는 무엇이 무엇인지 결정하는 라우팅 레이어(routing layer)가 될 것입니다.

Apple이 문을 열다

가장 과소평가된 WWDC 발표는 모델이 아니라, 바로 그 문(door)이었습니다. Apple은 자사의 Foundation Models 프레임워크를 제3자 및 오픈 모델에 개방했으며, Anthropic과 Google 모델을 위한 Swift 패키지도 출시될 예정입니다. 또한 SDK에 에이전트 기본 요소(agentic primitives)와 온디바이스 시맨틱 검색(on-device semantic search)을 추가했습니다. 이를 번역하자면, 개발자는 로컬 우선(local-first) AI 프레임워크 하나를 대상으로 앱을 작성하면, 어떤 모델이 답변할지는 기기가 결정하게 된다는 뜻입니다. 이것이 바로 플랫폼으로서의 행보입니다. 프레임워크 내부에서 모델은 범용 상품(commodity)이 되며, 에이전트 기본 요소, 사용자 파일에 대한 시맨틱 인덱스(semantic index), 라우팅(routing)과 같은 프레임워크 자체가 해자(moat)가 됩니다. 일단 OS가 무료이고, 프라이빗하며, 유능한 모델과 이를 활용할 수 있는 깔끔한 API를 제공하기 시작하면, "AI를 추가한다"는 의미는 "클라우드 의존성과 과금 관계를 추가한다"는 뜻에서 "시스템 함수를 호출한다"는 뜻으로 변하게 됩니다.

핵심 요약 (The take)

클라우드 AI 시대는 지능이란 토큰 단위로 빌려 쓰는 유틸리티라고 모두가 가정하도록 훈련시켰습니다. 2026년은 그 가정이 엣지(edge)에서 깨지는 해가 될 것입니다. 이는 기기용 모델이 프런티어(frontier) 모델만큼 똑똑해졌기 때문이 아니라(그렇지는 않습니다), 희소 아키텍처(sparse architectures) 덕분에 "규모는 크지만 실행 비용은 저렴한" 모델이 마침내 실질적인 카테고리가 되었고, 애초에 천재적인 지능이 필요하지 않았던 방대한 기능군에 대해 0달러의 한계 추론(marginal inference) 비용이 가진 경제성이 무시하기에는 너무나 매력적이기 때문입니다. 클라우드는 가장 어려운 문제들을 계속 가져갈 것입니다. 반면 기기는 오프라인 상태로, 프라이빗하게, 그리고 추가 비용 없이 나머지 모든 것을 조용히 가져가게 됩니다. 이것은 더 이상 데모가 아닙니다. 이것이 새로운 기본값(default)이며, 대부분의 소프트웨어는 아직 이를 가정하고 다시 작성되지 않았습니다. 가장 먼저 코드를 다시 작성하는 팀들은 잠시 동안 마법사처럼 보일 것입니다.