Apple, PCC 상의 32K 추론 모델 무료 개방 — Foundation Models는 Claude도 동일 API로 사용 가능 - Insights | Molayo

6월 9일에 개막한 WWDC26에서, Apple은 Foundation Models framework의 대폭적인 확장을 발표했다. 핵심은 세 가지다. Private Cloud Compute(PCC) 상에서 동작하는 서버 사이드(server-side)의 새로운 추론 모델을, 조건부로 API 이용료 제로로 개방하는 것. Claude나 Gemini와 같은 서드파티 프론티어 모델(frontier models)을 동일한 Swift API에서 호출할 수 있도록 하는 「Language Model protocol」. 그리고 에이전트 구축을 위한 선언적 API인 「Dynamic Profiles」다.

「Apple Intelligence는 뒤처졌다」라는 말을 들어온 지 오래되었지만, 이번에는 방향성이 확실히 바뀌었다. OS에 LLM 실행 레이어를 표준 장비하고, 모델은 교체 가능한 부품으로 만든다는 결단이다.

1차 소스는 다음과 같다.

WWDC26 Apple Intelligence guide
What's new in the Foundation Models framework (WWDC26 세션 241)
Build with the new Apple Foundation Model on Private Cloud Compute (WWDC26 세션 319)

WWDC25에서 등장한 Foundation Models framework는 Apple Intelligence를 뒷받침하는 온디바이스 모델(on-device model)에 Swift에서 직접 액세스할 수 있는 API였으나, 모델이 소규모 온디바이스 버전뿐이라 「실용적이기에는 어렵다」라는 목소리가 많았다. 이번 업데이트로 추가된 항목은 크게 다음과 같다.

PCC 상의 신규 서버 사이드 모델: 컨텍스트(context) 32K 토큰. light / moderate / deep의 3단계로 추론(reasoning)의 깊이를 지정 가능
무료 액세스 범위: App Store Small Business Program에 가입하고, 최초 다운로드 누계가 200만 미만인 앱은 PCC 모델을 클라우드 API 요금 없이 이용 가능(Apple Developer 사이트에서 신청 필요). 사용자별 일일 이용 상한이 있으며, iCloud+ 가입자는 상한이 높아짐
이미지 입력: 프롬프트(prompt)에 UIImage / CGImage / 픽셀 버퍼 등을 첨부할 수 있는 멀티모달(multimodal) 대응
Language Model protocol: `LanguageModelSession`의 뒷단을 임의의 LLM으로 교체할 수 있는 추상화 계층. Anthropic과 Google이 Swift 패키지를 공식 제공
Dynamic Profiles: 세션 중에 모델, 도구, 지시문을 동적으로 전환하는 선언적 API
주변 도구: Vision 연계 OCR/바코드 판독 도구, Spotlight 검색을 사용한 로컬 RAG 도구, 품질 측정을 위한 Evaluations 프레임워크, 커맨드 라인 `fm` CLI, Python SDK

또한, 프레임워크의 코어 부분은 오픈 소스화되어 Linux를 포함하여 Swift가 동작하는 환경에서 사용할 수 있다고 세션 내에서 설명되었다.

PCC 모델 이용에 API 키도 계정 설정도 필요 없다는 점은 타사의 클라우드 LLM API와 근본적으로 다르다. 인증과 과금은 OS와 iCloud 계정에 통합되어 있어, 개발자는 모델을 지정하기만 하면 된다.

import FoundationModels
let session = LanguageModelSession(
model: PrivateCloudComputeLanguageModel()
...

온디바이스 모델로부터의 전환은 model: 인수를 하나 바꾸는 것뿐이다. 구조화된 출력(@Generable)도 도구 호출(tool calling)도 모델에 관계없이 동일한 방식으로 동작한다.

Language Model protocol을 통해 프론티어 모델로의 전환도 세션 생성 시의 한 줄로 끝난다.

import LanguageModelPackage // Anthropic / Google 이 공식 제공
let model = AnthropicModel() // OAuth 인증, 과금은 종량제
let session = LanguageModelSession(model: model)

온디바이스(On-device) → PCC → Claude와 같이, 요구되는 지능 수준에 따른 에스컬레이션(Escalation)을 앱 측 코드를 거의 변경하지 않고 작성할 수 있다. Dynamic Profiles를 사용하면 이러한 전환을 상태에 따라 선언적(Declarative)으로 기술할 수 있다.

무료 범위에는 일일 상한이 있기 때문에, 쿼터(Quota) API가 준비되었다.

if model.quotaUsage.isLimitReached {
// 폴백(Fallback)(온디바이스 모델 등)으로 전환
}

contextSize 프로퍼티나 tokenCount() 메서드로 토큰 수를 사전에 예측할 수 있다는 점도 실무에서는 도움이 된다.

개인 개발자 및 중소 스튜디오의 LLM 비용이 (조건부로) 사라진다. 지금까지 AI 기능의 가장 큰 장벽은 추론(Inference) 비용이었다. 200만 다운로드 미만이라는 조건은 인디 앱의 대부분을 커버한다. "먼저 PCC 무료 범위로 기능을 구현하고, 규모가 커지면 Claude/Gemini로 전환한다"는 경로가 코드 변경 거의 없이 성립한다.

프롬프트의 포터빌리티(Portability) 문제는 남는다. API가 같더라도 모델의 동작은 동일하지 않다. 32K PCC 모델에 맞춰 조정한 프롬프트가 Claude에서도 그대로 최적일 것이라고 단정할 수 없으며, 이 지점에서 Evaluation 프레임워크를 통한 회귀 테스트(Regression Test)가 효과를 발휘할 것이다.

주의사항: 무료 범위의 정확한 레이트(Rate, 일일 상한의 구체적인 값)는 본 글 작성 시점 기준으로 공개 문서에서 확인할 수 없었다. 신청 기반이라는 점을 포함하여, 프로덕션 설계 전에 공식 가이드를 통해 확인하기 바란다.

Xcode 27 베타와 각 OS의 베타(iOS 27 등)를 설치
온디바이스 모델은 추가 설정 없이 SystemLanguageModel()로부터 이용 가능
PCC 무료 범위는 Apple Developer 사이트에서 신청
macOS 27에서는 fm CLI를 통해 터미널에서 직접 모델을 호출할 수 있음

fm "Swift Concurrency의 actor reentrancy를 3줄로 설명해줘"

Python SDK도 제공되므로, 모델의 동작 확인이나 데이터셋 평가는 노트북(Notebook) 환경에서 수행하고, 실제 구현만 Swift로 가져가는 흐름을 구축할 수 있다.

게임 업계의 R&D 관점에서 볼 때, 가장 와닿는 부분은 "사용자 수에 비례하지 않는 추론 비용"이다. 모바일 게임에서 NPC의 동적 대화나 UGC의 1차 모더레이션(Moderation)에 LLM을 사용하는 안은, DAU(Daily Active Users)가 늘어날수록 적자가 커지는 구조 때문에 몇 번이고 보류해 왔다. 클라이언트 측의 OS가 추론 인프라까지 관리해 준다면, 이 계산법은 근본적으로 바뀐다. 반면, 이는 Apple 플랫폼 한정된 이야기이며, iOS/Android 양쪽 대응이 전제인 게임에서는 결국 최소공배수 측면(자체 서버 추론)으로 끌려가게 된다. Google이 동등한 "OS 표준·무료 범위 포함 추론 레이어"를 Android에 탑재할지가, 이 설계를 크로스 플랫폼의 현실적인 해답으로 만들 수 있을지를 결정하는 분수령이 될 것이다.

Apple은 "최강의 모델" 경쟁에서 한 발 물러나, "모델이 무엇이든 실행과 프라이버시, 과금은 OS가 쥐고 있다"는 레이어에 자리를 잡았다. 프레임워크의 오픈 소스화까지 포함하여, 이는 모델 벤더가 아닌 플랫폼 프로바이더(Platform Provider)의 싸움 방식이며, 각 사의 API 사양이 난립하는 현 상황에 대한 상당히 영리한 답변으로 보인다.

Apple, PCC 상의 32K 추론 모델 무료 개방 — Foundation Models는 Claude도 동일 API로 사용 가능

요약

핵심 포인트

댓글