Apple Core AI 프레임워크
요약
Apple의 Core AI 프레임워크와 온디바이스 AI의 미래를 분석합니다. 중앙 집중형 클라우드 AI의 한계를 지적하며, 로컬 환경에서의 효율적인 모델 실행과 Apple의 하드웨어 생태계가 미칠 영향력을 다룹니다.
핵심 포인트
- Apple의 온디바이스 모델 중심의 플랫폼 전략
- 로컬 및 프라이빗 AI의 중요성 증대
- 특화된 작업을 위한 모델 주변 코드 최적화의 가치
- Mac 간 분산 추론 및 MLX 프레임워크의 역할
동의함. OS API의 핵심 일부로 시스템 전반, 플랫폼 전반에서 쓸 수 있는 온디바이스 모델이 들어간다는 발상이 매우 매력적임
보통은 소프트웨어가 조각조각 나뉘어 있는 쪽을 좋아하지만, Apple의 경우 기본 제공 기능 중 마음에 드는 게 많음
소프트웨어가 “이 플랫폼에는 이 모델이 있다”는 걸 알고 여러 작은, 그리고 점점 더 큰 생성형 AI 작업에 활용할 수 있게 되는 점이 특히 끌림
Apfel이 유용해 보임. 거의 1년 동안 Apple Foundation Models를 실험해 봤고, 임베디드 애플리케이션에 쓸 만함
로컬 에이전트형 코딩 도구도 더 깊이 파고드는 중이며, little-coder --model ollama/gemma4:12b-it-qat부터 시작했음
설정 시간을 몇 분 아낄 수 있는 작은 무료 책도 만들었음: https://leanpub.com/read/local-coding-agents
하이퍼스케일러 중심 AI 성장의 과장, 특히 데이터센터의 환경 비용과 사회적 비용에 꽤 화가 나 있어서, 로컬·프라이빗 AI를 촉진하는 시도는 전부 지지함
Core AI에 OpenAPI 호환 엔드포인트를, 적어도 테스트 도구로라도 넣는 아이디어를 Apple이 채택하지 않은 듯해서 의외임
MCP 지원을 제공하는 지금, 컨테이너화/seatbelt 전략도 더 듣고 싶음
Apple의 컨테이너 시스템 안에서 Darwin이 어떻게 쓰이는지에 대한 소식은 아직 못 봤음
Apfel은 멋진 프로젝트이고, Tahoe로 업그레이드하고 싶게 만든 유일한 이유였음
Apple Intelligence Extensions 언급을 보면, 당분간 크게 확대하지는 않고 대신 사용자가 계정을 가진 다른 제공업체와 개발자가 통합할 수 있게 해줄 것 같음
AI의 미래는 분명 로컬이고, 최근에는 “무한 토큰”이라고 설명하고 있음
M1 MacBook Pro도 그걸 할 수 있고 RTX 3090도 가능함
매달 수백 달러를 낼 필요가 없고, 다른 사람들도 마찬가지임
1980년대에는 컴퓨팅의 미래가 분명 로컬이라고 봤음. 가정용 컴퓨터, PC, Mac, 사무실 서버(Novell, 이후 디스크 공유가 있는 Windows NT) 같은 것들이었음
40년이 지나자 우리는 현대판 스마트 단말기에 가까운 중앙집중형 인프라로 돌아왔음
AI의 미래도 결국 그렇게 흘러갈 것임. 아마 로컬과 중앙집중 사이를 오갈 가능성이 큼
다만 사람들이 로컬에서 실행하는 물건을 팔아 돈을 벌 수 있다면, 중앙집중화가 더 큰 권력과 더 큰 돈을 만들어내는 것처럼 보임
초당 10토큰으로 제한된 “무한 토큰”이면 한 달에 2,600만 토큰임
진짜 돈은 모델 주변의 코드를 짜서 특화 작업에 효율적으로 만드는 데 있음
일반 사용자는 범용 모델을 원하므로 AI 채팅 앱은 계속 남을 것임
대부분의 프로그램은 로컬에서 돌릴 수 있는 특화 AI로 이득을 볼 수 있고, 프로그램 수는 사용자 수보다 훨씬 많음
Apple은 활성값 쪽도 작업 중인 듯함. 아는 바로는 w4a8, w4a16임
만약 제대로 해낸다면, 그리고 그게 큰 가정이긴 하지만, Apple의 시장 도달 범위를 고려할 때 1,000억 미만 매개변수 모델이 학습되고 제공되는 방식을 상당 부분 좌우할 수 있음
주요 사용처가 온디바이스가 될 것이고, 대부분은 iOS보다 macOS일 가능성이 큼
아직 어디에서도 크게 부각된 걸 못 봤지만, Mac 간 분산 추론이 흥미로움. Thunderbolt 5 위의 JACCL, OpenAI 호환 mlx_lm.server, Mac 위의 에이전트형 실행이 포함됨
Apple은 MLX(직접 가중치 가져오기)를 Foundation Models / Core AI와 분리해 두고 있음
AI 회사들이 상장을 서두르는 이유가 이거임
내년 말쯤이면 대부분의 AI를 기기에서 직접 실행하게 될 것임
그들에게는 해자가 없고, 확장의 한계에 닿았으며, 마법처럼 보이는 대부분은 더 작은 모델로 증류될 수 있고, 그들도 그걸 알고 있음
Qwen의 300억급 모델은 초당 30~90토큰으로 돌릴 만큼 메모리 대역폭이 있는 머신만 있으면 실제로 충분히 쓸 만함
Qwen이 1,200억급 모델 출시를 멈춘 건 매우 의미심장함
앞으로 10년 안, 어쩌면 3년 안에 누군가 로컬에서 돌릴 수 있는 Opus 4.5급 2,560억 모델을 내놓을 것임
지금 우리 엔지니어들은 Opus 토큰에 월 800달러 정도를 쓰고 있고, 그 비율이면 로컬 LLM의 투자 회수 기간은 약 10개월임
정말 확장의 한계에 도달했는지는 모르겠음
안타깝게도 더 큰 모델일수록 여전히 더 좋은 모델처럼 보임
코딩 영역에서는 350억, 700억, 1,500억 모델을 선불 수백~수천 달러에 팔고, 1년 동안 매월 또는 격월로 새 코딩 문서와 저장소를 학습한 업데이트를 제공하는 식이 나올 것 같음
만세, 그들의 목 조르기식 지배가 풀렸음. 혁명 만세!
기기에서 돌아가는 아주 작은 모델 하나만 원함. 예를 들어 자동완성에서 “I'll be right Brian”이 아니라 “I'll be right back”을 쓰고 싶다는 걸 아는 정도면 됨
지금 내 최우선 AI 요청은 그거임. 제발, Apple
Linux에도 이런 게 있는지 궁금함
예를 들어 애플리케이션 개발자라면 커널이 특정 버전 이상일 때 GNU Core AI 같은 것이 있다고 가정할 수 있을까?
Apple이 아닌 플랫폼에서는 보통 지원해야 하는 실리콘 업체 수에 2개 이상을 더한 만큼의 AI 프레임워크를 신경 써야 함
Apple도 이제 Core ML, MLX, Core AI 사이에서 그런 상태가 된 것 같음
프레임워크 파편화 문제가 곧 사라질 조짐은 못 봤음
NVIDIA는 모두가 학습과 추론을 CUDA로 하길 원하고, NPU가 유용하다는 사실은 부정하려 함
NPU를 만드는 업체마다 자기 아키텍처와, LLM 이전에 설계된 하드웨어에서 물려받은 한계에 맞춘 별도 프레임워크가 있음. 대부분은 GPU를 겨냥한 또 다른 프레임워크도 가지고 있음
운영체제 업체도 하드웨어별 프레임워크 대신 쓰길 바라는 프레임워크를 하나나 둘쯤 갖고 있음
실용적으로는 llama.cpp가 이 역할을 함. 링크해서 쓰거나 네트워크 API를 쓰면 됨
없음. 다만 Red Hat과 IBM은 자기 배포판용으로 그런 걸 하고 있음
onnxruntime, llama.cpp, 더 구체적으로는 ggml이 있고, iree.dev도 시도 중임
이게 ANE에서 원하는 걸 뭐든 실행할 수 있다는 뜻인지 궁금함
마지막으로 시도했을 때는 Face ID 같은 Apple 1차 기능에서만 쓸 수 있는 것처럼 보였음
모델을 Core ML로 변환하면 이미 그렇게 할 수 있었음
ANE를 전혀 쓸 수 없던 건 MLX였음
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기