본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 09. 15:15

Apple의 3세대 파운데이션 모델: WWDC 2026에 대한 개발자 관점의 분석

요약

Apple이 WWDC 2026에서 3세대 파운데이션 모델인 AFM 3 시리즈를 공개했습니다. 핵심 기술인 Instruction-Following Pruning(IFP)을 통해 온디바이스 모델의 효율성을 극대화했으며, 클라우드 모델은 Google Cloud의 NVIDIA GPU를 활용하여 성능을 확장했습니다.

핵심 포인트

  • 200억 파라미터 규모의 AFM 3 Core Advanced 모델 출시
  • Instruction-Following Pruning(IFP) 기술로 동적 파라미터 활성화 구현
  • AFM 3 Cloud Pro 모델의 Google Cloud 및 NVIDIA GPU 도입
  • 온디바이스 TTS 성능 향상 및 모델 선호도 개선

Apple의 3세대 파운데이션 모델: WWDC 2026에 대한 개발자 관점의 분석

요약 (TL;DR) — Apple은 2026년 6월 8일, 브랜드가 변경된 "Siri AI"와 함께 3세대 파운데이션 모델 (Foundation Models)을 출시했습니다. 총 5개의 모델이 공개되었습니다. 주요 헤드라인은 **200억 파라미터(20-billion-parameter) 규모의 희소 온디바이스 모델 (AFM 3 Core Advanced)**로, Apple Research가 Instruction-Following Pruning이라 부르는 기술을 사용하여 프롬프트당 14B(10억40억)개의 파라미터만 활성화합니다. 또 다른 헤드라인이자 개발자들에게 더 조용하지만 더 중대한 소식은, Apple의 가장 강력한 클라우드 모델인 AFM 3 Cloud ProGoogle Cloud에서 호스팅되는 NVIDIA GPU에서 실행되며

핵심 기술은 2025년 1월 Apple Research에서 발표한 논문에 처음 소개된 **지시 이행 프루닝 (Instruction-Following Pruning, IFP)**입니다. 아이디어는 다음과 같습니다. 희소성 (Sparsity)을 (학습 시 설정되는) 정적인 구조적 결정으로 취급하는 대신, 작은 예측기 (Predictor)가 프롬프트를 읽고 해당 요청을 위해 피드포워드 네트워크 (Feed-forward-network, FFN) 행렬의 어떤 행과 열을 활성화할지 동적으로 선택하게 하는 것입니다. 논문의 주요 결과에 따르면

평가 항목신규 모델 선호도2025년 베이스라인 선호도
텍스트 (AFM 3 Core, 온디바이스)45.6%23.3%
...

Cloud Pro는 텍스트에서 Cloud 대비 +10% 상대적 선호도를, 수학에서 +14%, 이미지 이해에서 **+14%**의 선호도를 추가합니다.

새로운 온디바이스 TTS (Text-to-Speech)에 대한 평균 의견 점수 (Mean Opinion Score):

음성 유형현재 TTSAFM 3 Core Advanced
일반 (General)3.874.15
대화형 (Conversational)3.824.24

이 수치들을 인용할 때 주의해야 할 두 가지 사항이 있습니다:

  1. 제3자 벤치마크가 없음. MMLU, SWE-bench, GPQA 등이 없습니다. Apple이 발표한 수치는 오직 2025년 베이스라인에 대한 선호도일 뿐입니다.
  2. 기술적인 작업에 있어 사이드 바이 사이드 (Side-by-side) 선호도는 느슨함. 이는

Private Cloud Compute, 이제 Google 데이터센터 내 NVIDIA에서 실행

Apple의 Private Cloud Compute (PCC)는 2024년에 매우 인상적인 보안 아키텍처와 함께 출시되었습니다. 이는 검증(attested)되고 코드 감사가 완료된 빌드를 실행하는 Apple Silicon 서버를 통해, Apple조차도 사용자 데이터에 접근할 수 없음을 암호학적으로 보장하는 방식이었습니다. 2026년의 확장은 놀라운 소식입니다. 이제 PCC는 Google Cloud 내에 호스팅된 NVIDIA GPU에서도 실행되며, Apple은 동일한 데이터 처리 보장이 여전히 적용된다고 밝혔습니다.

주의 깊게 살펴볼 만한 두 가지 관련 세부 사항은 다음과 같습니다.

  • 왜 Google의 데이터센터인가? 보도에 따르면 Apple은 새로운 Cloud Pro 모델을 자체 PCC 하드웨어에서 먼저 실행하려고 시도했으나, 모델의 속도가 너무 느렸다고 합니다. 이에 따라 Google Cloud 상의 NVIDIA 용량을 활용하는 경로가 채택되었습니다.
  • 왜 키노트에서는 이 내용이 언급되지 않았나? Apple의 키노트에서는 Google이 아닌 NVIDIA만을 언급합니다. Google은 이후 발표된 연구 포스트와 경영진 인터뷰에서만 등장합니다. Apple이 전달하고자 하는 브랜드 스토리는 "Apple 모델, NVIDIA 하드웨어, Apple 프라이버시"입니다. 실제 전체 공급망은 이보다 더 복잡하게 얽혀 있습니다.

Apple의 프라이버시 주장을 평가하는 개발자들에게 중요한 공학적 실체는 GPU의 지리적 위치가 아니라 암호학적 검증 체인(cryptographic attestation chain)입니다. NVIDIA-in-GCP로 인프라(substrate)가 이동한다고 해서 이 체인이 깨지는 것은 아니지만, 이는 신뢰 모델(trust model)이 2024년 버전보다 더 많은 벤더에 걸쳐 확장되었음을 의미합니다.

Foundation Models 프레임워크: 2026년에 추가된 사항

이 부분은 이번 발표에서 충분히 다뤄지지 않았으며, 개발자들에게 가장 직접적으로 관련이 있는 부분입니다.

Foundation Models 프레임워크는 2025년에 Swift API로 도입되었으며, 모든 서드파티 앱이 API 키, 네트워크, 토큰당 비용 없이 Apple의 약 3B(30억 파라미터) 규모 온디바이스 모델에 직접 접근할 수 있도록 지원합니다. 2026년 업데이트에서는 이미지 입력(image input) 기능이 추가되었습니다. 이제 개발자는 텍스트와 함께 이미지를 온디바이스 모델에 전달할 수 있으며, 이를 통해 클라우드 왕복(round-trip) 없이도 온디바이스 시각적 작업(사진 캡션 생성, 영수증에서 구조화된 데이터 추출, UI 요소 분류 등)을 수행할 수 있습니다.

이 프레임워크가 잘 수행하는 작업은 다음과 같습니다:

  • 구조화된 출력 (Structured output) (단순 텍스트가 아닌 타입이 지정된 Swift 값)
  • 도구 호출 / 함수 호출 (Tool calling / function calling)
  • 개인정보 보호에 민감한 임베디드 지능 (Privacy-sensitive embedded intelligence) (메모 요약, 온디바이스 검색, 스마트 제안 등)
  • 오프라인 신뢰성 (Offline reliability) (네트워크 의존성 없음)

설계상 잘 수행하지 못하는 작업:

  • 일반 지식 기반의 질의응답 (Q&A) (챗봇 백엔드가 아님)
  • 최신 세상 지식이 필요한 모든 작업
  • 최첨단 수준의 추론 (frontier-tier reasoning), 긴 컨텍스트 (long context), 또는 다단계 에이전트 도구 사용 (multi-step agentic tool use)이 필요한 워크로드

2026년 가을에 출시될 iOS 앱을 기준으로 현실적인 패턴은 하이브리드 방식입니다: Foundation Models 프레임워크를 빠르고 무료이며 오프라인인 작업에 사용하고, 그 외의 모든 경우에는 클라우드 모델로 전환(fall back)하는 것입니다. 이러한 전환 과정에서 ofox.ai를 포함한 멀티 프로바이더 게이트웨이(multi-provider gateways)가 유용해집니다. 앱을 다시 배포하지 않고도 제공업체를 변경할 수 있도록 OpenAI/Anthropic/Google/Qwen/DeepSeek를 하나의 API 뒤에 두고 사용하고 싶기 때문입니다.

출시 시점에 사용할 수 없는 대상

지리적 제한이 Apple AI 기준에서도 이례적으로 엄격합니다:

  • 🇪🇺 EU: Siri AI는 출시 시점에 iPhone 또는 iPad에서 사용할 수 없습니다. Mac, Apple Watch, Vision Pro는 포함됩니다. Apple은 DMA(디지털 시장법) 준수 작업을 이유로 들었습니다.
  • 🇨🇳 중국 본토: Siri AI를 포함한 모든 Apple Intelligence는 규제 승인을 기다리는 동안 사용할 수 없습니다.
  • 하드웨어 최소 사양 (Hardware floor): iPhone 16 제품군, iPhone 15 Pro / 15 Pro Max, A17 Pro가 탑재된 iPad mini, M1 이상 탑재된 iPad, M1 이상 탑재된 Mac, Apple Vision Pro. Apple Watch의 경우, watchOS 27은 Series 10, Series 11, Ultra 2, Ultra 3, SE 3에서 실행되며, Watch 측의 Apple Intelligence를 사용하려면 추가로 iPhone 15 Pro / Pro Max 또는 그 이상의 모델과 페어링이 필요합니다.
  • 출시 일정 (Launch cadence): Siri AI는 2026년 하반기에 영어로 베타 버전부터 시작되며, 지원되는 32개 지역 언어는 시간이 지남에 따라 순차적으로 도입됩니다.

해당 지역은 영어 (미국, 영국, 호주, 인도), PFIGSCJK (포르투갈어, 프랑스어, 이탈리아어, 독일어, 스페인어, 중국어, 일본어, 한국어), DNNSTV (덴마크어, 네덜란드어, 노르웨이어, 스웨덴어, 터키어, 베트남어), 그리고 AFIHHMPRTU (아랍어, 핀란드어, 인도네시아어, 히브리어, 힌디어, 말레이어, 폴란드어, 러시아어, 태국어, 우크라이나어)를 포함합니다.

EU/중국 간의 격차는 Apple Intelligence가 이제 지리적으로 **부분적인 제품 (partial product)**임을 공식적으로 의미합니다. 동일한 하드웨어라도 Apple ID 지역에 따라 실질적으로 다른 기능을 수행하며, 개발자 문서(developer documentation)는 기능 가용성에 따라 분기(fork)되어야 할 것입니다.

이것이 빌더(Builders)들에게 실제로 변화시키는 것

2026년 하반기에 AI 기능을 출시하려는 개발자가 기억해야 할 세 가지 사항은 다음과 같습니다:

  1. 온디바이스 LLM (On-device LLMs)이 사용성 임계값을 넘었습니다. 이미지 입력을 지원하고 앱 개발자에게 무료로 제공되는 스마트폰 상의 20B 희소 모델 (sparse model)은 구조화된 추출 (structured extraction), 분류 (classification), 내장 요약 (embedded summarization), 도구 라우팅 (tool routing)과 같은 앱 내 AI 작업의 유의미한 부분을 처리하기에 충분합니다. 이전에는 이를 수행하기 위해 클라우드 호출 (cloud calls) 비용을 지불해야 했던 앱들은 이제 그 비용을 중단할 수 있습니다.
  2. 프런티어 작업 (Frontier work)은 여전히 클라우드에 속해 있습니다. Cloud Pro가 존재하는 데에는 이유가 있습니다. 긴 컨텍스트 (Long context), 에이전트 루프 (agentic loops), 프런티어 추론 (frontier reasoning), 수많은 이미지를 아우르는 시각-언어 (vision-language) 모델 등은 클라우드 LLM을 통해 여전히 더 저렴하거나, 더 유능하거나, 혹은 두 가지 모두를 충족합니다. 이제 빌드 결정의 기준은 "얼마나 큰 모델이 필요한가"가 아니라 "무엇이 온디바이스에서 실행될 수 없는가"가 되었습니다.
  3. 멀티 프로바이더 소싱 (Multi-provider sourcing)이 더 안전한 기본값입니다. Apple은 현재 Gemini에서 일부 증류(distilled)된 온디바이스 모델을 출시하는 동시에, NVIDIA-in-GCP 기반의 클라우드 워크로드를 실행하고 있습니다. 모델 계층에서의 벤더 결합 (Vendor coupling)은 Apple에게조차 더 이상 선택 사항이 아닙니다. 만약 크로스 플랫폼 제품을 구축하고 있다면, 애플리케이션 계층에서 단일 모델 벤더를 선택하는 것은 정당화하기 점점 더 어려워지는 도박이 될 것입니다.

핵심 요지: Apple은 방금 iOS에서 온디바이스 LLM을 기본 역량 (baseline capability)으로 만들었습니다. 흥미로운 작업은 스택의 상위 계층으로 이동합니다. 즉, 언제 이를 사용할지, 언제 이를 건너뛰어 라우팅할지, 그리고 어떻게 앱을 특정 벤더에 종속시키지 않고 이를 수행할지를 결정하는 단계로 이동하는 것입니다.

확인된 출처

  • Apple Machine Learning Research — Apple의 3세대 파운데이션 모델 (Foundation Models) 소개 (모델 라인업, IFP, 평가 수치 원문 그대로)
  • Apple Newsroom — Apple, 차세대 Apple Intelligence, Siri AI 및 기타 기능 공개 (하드웨어 목록, 언어 목록, 지역별 가용성)
  • 9to5Mac — Federighi, Siri AI를 위한 Apple과 Google의 협업 상세 설명 (Federighi 인용구)
  • CNBC — Apple, 가장 진보된 AI 모델을 위해 Google 및 Nvidia와 파트너십 체결 (Subramanya 인용구, NVIDIA-in-GCP 협약)
  • AppleInsider — Apple의 새로운 파운데이션 모델에는 Gemini가 전혀 포함되어 있지 않음 (Gemini 관계에 대한 독립적 분석)
  • MacRumors — Siri AI, 초기에는 EU 및 중국에서 사용 불가 (지역 제한)
  • arXiv 2501.02086 — 대규모 언어 모델(LLM)을 위한 지시 이행 가지치기 (Instruction-Following Pruning, IFP 기술, 원문 Apple 논문)
  • MarkTechPost — Apple 연구진, IFPruning 소개 (제3자 IFP 설명)

원문 게시지: ofox.ai/blog.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0