Apple, Apple Silicon을 위한 새로운 온디바이스 추론 엔진 발표

이 소식은 사람들의 주목을 받지 못한 것 같습니다. Apple은 WWDC에서 CoreAI를 발표했는데, 이는 기본적으로 CoreML의 미래 대체제이자 특히 휴대폰과 태블릿에서의 온디바이스 (on-device) 최적화된 추론을 위한 MLX/llama.cpp/torch의 대안입니다. 모델 가중치(model weights)는 Python 스크립트를 통해 CoreML과 유사하게 변환되어야 하며, 현재 지원되는 모델 목록은 주로 2025년 중반 모델들입니다 (https://github.com/apple/coreai-models/tree/main/models). 이것이 왜 새로운 것인지 궁금해하는 분들을 위해 설명하자면, 기존의 CoreML은 수십억 개의 파라미터(params)를 넘어서는 모델을 지원하지 않았으며 지원되는 연산(operations) 풀도 매우 제한적이었습니다. 이는 ANE 연산(ops)에도 큰 업데이트가 있음을 의미합니다. 성능에 대해서는 아직 알려진 바가 없으며, 현재로서는 GPU 상의 순수 MLX보다 성능이 떨어질 가능성이 매우 높습니다. 또 다른 흥미로운 점은 그들이 파운데이션 모델 (foundation models)을 위해 20B 모델을 온디바이스에 배포할 수 있다고 자랑하고 있다는 것입니다 (https://machinelearning.apple.com/research/introducing-third-generation-of-apple-foundation-models). 이는 느슨하게 로드되는(lazily loaded) MoE (Mixture of Experts)로 보이므로, 아마도 CoreAI를 통해 앱과 함께 더 큰 모델을 배포할 수 있게 될 것입니다.

Insights

Apple, Apple Silicon을 위한 새로운 온디바이스 추론 엔진 발표

요약

핵심 포인트

댓글

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터

확산 환경(Diffusion Environment) 내 다중 팔 밴딧(Multi-Armed Bandits) 문제에 대한 정책 경사(Policy

AI와 1996년형 Ford Taurus...

Parlor v2: M3 Pro에서 실행되는 최선의 노력으로 구현된 완전 로컬 GPT-Live 클론

GitHub - sqliteai/waste: NVMe에서 활성화된 가중치를 직접 스트리밍하여 가용 RAM을 초과하는 2.78조 파라미터