Apple Core AI, 서버 호출 없는 온디바이스 모델 실행 지원

요약

Apple이 Apple silicon에서 서버 호출 없이 모델을 실행할 수 있는 온디바이스 추론 프레임워크 Core AI를 출시했습니다. Qwen, Mistral, SAM3를 지원하며, Swift API와 모델 최적화 도구를 통해 하드웨어와 소프트웨어의 긴밀한 통합을 제공합니다.

핵심 포인트

Apple silicon 기반의 완전한 온디바이스 추론 지원
Qwen, Mistral, SAM3 모델 네이티브 지원
서버 호출 및 토큰 비용 없는 개인정보 보호 강화
Swift API 및 모델 축소를 위한 Optimizer 제공
macOS 디버거를 통한 성능 프로파일링 가능

Apple은 Apple silicon에서 온디바이스 모델 추론 (Inference)을 위한 Core AI를 출시했습니다. 서버 호출이 전혀 없으며, 기기 전반에 걸쳐 Qwen, Mistral, SAM3를 지원합니다.

Apple은 모델을 완전히 Apple silicon에서 실행하는 프레임워크인 Core AI를 출시했습니다. 추론 (Inference)은 서버 호출과 토큰 비용 없이 사용자의 기기에서 직접 이루어집니다.

주요 사실

Core AI는 서버 호출 없이 Apple silicon에서 모델을 실행합니다.
Qwen, Mistral, SAM3를 네이티브로 지원합니다.
거의 즉각적인 로드를 위한 메모리 안전 Swift API를 포함합니다.
Optimizer는 정확도 손실을 최소화하면서 레이어별로 모델을 축소합니다.
macOS 디버거는 성능을 프로파일링 (Profiling)하고 Python 코드를 추적합니다.

Apple은 모델을 완전히 Apple silicon에서 실행하는 프레임워크인 Core AI를 출시했습니다. 추론 (Inference)은 서버 호출과 토큰 비용 없이 사용자의 기기에서 직접 이루어집니다. @akshay_pachaar에 따르면, 이 프레임워크는 iPhone, iPad, Mac, Vision Pro 전반에서 Qwen, Mistral, SAM3가 네이티브로 실행되는 것을 지원합니다.

Core AI 포함 사항

이 프레임워크는 거의 즉각적인 로드를 위해 모델을 사전에 컴파일하는 메모리 안전 Swift API를 제공합니다. 소스 코드에서 볼 수 있듯이 let segmenter = try await ImageSegmenter(resourcesAt: sam3ModelURL)와 같이 몇 줄의 코드만으로 모델을 불러올 수 있습니다. 런타임 (Runtime) 외에도 Core AI는 Swift용으로 패키징된 엄선된 오픈 모델, 커스텀 모델을 변환하기 위한 PyTorch 확장 기능, 그리고 정확도 손실을 최소화하면서 레이어별로 모델을 축소하는 Optimizer를 제공합니다. macOS 디버거는 성능을 프로파일링 (Profiling)하고 동작을 원래의 Python 코드로 추적하며, Xcode 도구는 배포 전 모델을 검증합니다.

이것이 중요한 이유

사용자마다 발생하는 클라우드 비용 없이 진정한 온디바이스 AI (on-device AI)를 구현하고자 하는 팀에게 이것이 바로 해답입니다. Apple의 이러한 행보는 클라우드 의존형 서비스들을 괴롭히는 반복적인 추론 (inference) 비용을 우회하며, 개인정보 보호에 민감한 애플리케이션과 오프라인 사용 사례에 매력적인 선택지가 됩니다. Qwen 및 Mistral과 같은 모델을 Apple 하드웨어에서 네이티브로 실행할 수 있는 이 프레임워크의 능력은 Google의 ML Kit 및 Meta의 온디바이스 노력들과 경쟁 구도를 형성하지만, 더욱 긴밀한 하드웨어-소프트웨어 통합을 제공합니다.

부족한 점

출처에서는 초기 발표 이후 모델 성능 벤치마크 (benchmarks), 지원되는 모델 크기, 또는 출시 날짜에 대한 구체적인 정보를 공개하지 않았습니다. Apple은 Core AI가 오픈 소스로 공개될지 아니면 독점적 (proprietary) 기술로 남을지 확인해주지 않았습니다. 큐레이션된 모델 저장소 (repo) 링크는 제공되었으나, 라이선스 조건이나 업데이트 주기 (cadence)에 대한 세부 사항은 포함되지 않았습니다.

핵심 요약

Apple은 Apple silicon 기반의 온디바이스 모델 추론 (inference)을 위한 Core AI를 출시했습니다.
서버 호출이 전혀 없으며, 기기 전반에 걸쳐 Qwen, Mistral, SAM3를 지원합니다.

주목할 점

On-device AI — MobileLLM: Optimizing Sub-billion Parameter Language ...

Apple의 개발자 문서 출시와 Google ML Kit 및 Meta의 온디바이스 프레임워크와의 벤치마크 비교를 주목하십시오. Core AI를 실제 서비스에 사용하는 첫 번째 서드파티 (third-party) 앱들이 채택 속도를 나타낼 것이며, 성능 지표를 상세히 다루는 WWDC 2026 세션이 열릴 가능성이 높습니다.

_ [6월 10일 nvidia_blog를 통해 업데이트]

NVIDIA의 블로그에 따르면, NVIDIA의 기밀 컴퓨팅 (confidential computing) GPU가 현재 Apple의 Private Cloud Compute (PCC)를 위한 서버 측 추론 (inference)을 지원하고 있으며, Apple 자체 데이터 센터를 넘어 Google Cloud로 확장되고 있습니다. 이는 순수 온디바이스 중심인 Core AI 프레임워크로부터의 전환을 의미하며, Apple Foundation Models 또한 Google과 함께 구축한 커스텀 모델을 활용하여 기밀 클라우드 추론 (confidential cloud inference)을 위해 NVIDIA 하드웨어에서 실행될 예정입니다.

원문은 gentic.news에 게시되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기