실제 비교를 해보니 - Apple의 새로운 'Core AI' 실기 벤치마크 - Insights | Molayo

직접 비교해보는 것이 중요합니다.

어차피 느릴 거라고 생각했거든요.
사용하기 편하게 좀 느슨하게 만들어져 있을 거라 생각했어요.
고도로 최적화된 MLX 같은 게 더 빠를 거라고요.

결과에 깜짝 놀랐습니다.
엄청 빠르네요!!
🐥

WWDC 2026에서 발표된 Core AI(Core ML의 후속)로 LLM을 iPhone 17 Pro 실기 기기에서 구동하고, MLX 및 CoreML과 **동일 모델・동일 하드웨어 환경(same model・same harness)**으로 비교했습니다.

iPhone 17 Pro・Qwen3-0.6B・short-chat・warm 디코드 tok/s (중앙값):

리포지토리(재현 가능・생 데이터・Swift 어댑터 전체 공개): https://github.com/john-rocky/apple-silicon-llm-bench

iOS / macOS 27부터 도입되는 Core ML의 후속입니다. 파이프라인은 다음과 같습니다.

PyTorch → coreai-torch → .aimodel (MLIR IR)
→ coreai-models의 Swift 런타임(CoreAILM)으로 실행

LLM은 coreai.llm.export <model>로 .aimodel에 익스포트할 수 있습니다. 이번에는 Apple 공식 예제에서도 사용된 Qwen3-0.6B를 공식 export → 공식 Swift 런타임으로 구동했습니다 (

）로 교체하여 번들을 재구성합니다.

실행 시 플래그로는 전환되지 않습니다. EngineFactory가 모델 구조로부터 자동으로 판별합니다:

--platform iOS (정적 형태) → 청크 정적으로 판정 → ANE (static-shape 엔진)
동적 Export → GPU (coreai-pipelined 엔진)

따라서 GPU와 ANE를 비교하고 싶다면 두 개의 별도 번들(정적=ANE용 / 동적=GPU용)을 AOT 컴파일하여 준비해야 합니다. coreai-pipelined을 정적 모델에 강제하면 unsupportedEngineVariant로 거부됩니다.

직접 만든 CoreML-LLM 변환(Qwen3-0.6B의 스테이트풀 INT4 ANE 청크, ANE 100%)은 디코드 속도는 가장 느리지만 (39) 메모리를 압도적으로 적게 사용합니다 (184 MB, Core AI ANE의 약 1/6). 디코드 속도(39.8)는 Mac에서의 패리티 실측값과 완벽하게 일치했습니다. 용도에 따라 최적의 런타임은 달라집니다 — 속도라면 Core AI GPU, 메모리라면 CoreML.

상세 정보/방법론/생 JSONL/Swift의 CoreAIRuntime 어댑터는 모두 공개되었습니다:

https://github.com/john-rocky/apple-silicon-llm-bench

🐣

프리랜서 엔지니어입니다.

AI에 대해 여러 글을 쓰고 있으니 프로필을 확인해 보시면 좋을 것 같습니다.

만약 다음과 같은 요청 사항이 있으시다면 언제든지 상담해주세요.

AI 서비스를 개발하고 싶다,
비즈니스에 AI를 통합하여 효율화하고 싶다,
AI를 사용한 스마트폰 앱을 개발하고 싶다,
AR을 활용한 애플리케이션을 만들고 싶다,
스마트폰 앱을 만들고 싶은데 어디에 상담해야 할지 모르겠다…

어떤 경우든 중간 비용을 절감한 합리적인 가격으로 진행할 수 있습니다.

업무 문의는 여기로 해주세요:
rockyshikoku@gmail.com

기계 학습이나 AR 기술을 사용한 애플리케이션을 만들고 있습니다.

기계 학습/AR 관련 정보를 발신하고 있습니다.

Insights

실제 비교를 해보니 - Apple의 새로운 'Core AI' 실기 벤치마크

요약

핵심 포인트

댓글

Prometheus는 통합 지식 그래프 (Unified Knowledge Graphs)와 멀티 에이전트 시스템 (Multi-agent

Asus ProArt PA32UCDMR 32인치 4K 전문가용 OLED 모니터 리뷰: 정밀함, 속도, 그리고 유연성

모건스탠리, 韓 주식 비중 확대로 상향…"코스피 9,000 다시 간다"

SEC 조사 속 Trump Media의 Truth API 데이터 피드 출시

Prometheus는 통합 지식 그래프 (Unified Knowledge Graphs)와 멀티 에이전트 시스템 (Multi-agent

Asus ProArt PA32UCDMR 32인치 4K 전문가용 OLED 모니터 리뷰: 정밀함, 속도, 그리고 유연성

모건스탠리, 韓 주식 비중 확대로 상향…"코스피 9,000 다시 간다"

SEC 조사 속 Trump Media의 Truth API 데이터 피드 출시