BaseRT: Native Metal을 통한 Apple Silicon에서의 최고 수준 LLM 추론
요약
Apple Silicon의 Metal API를 네이티브하게 활용하여 LLM 추론 성능을 극대화한 BaseRT를 소개합니다. 기존 llama.cpp나 MLX 대비 높은 처리량을 기록하며, 온디바이스 AI 추론을 위한 최적화된 런타임을 제공합니다.
핵심 포인트
- Apple Silicon의 통합 메모리 구조에 최적화된 네이티브 Metal 런타임
- llama.cpp 대비 최대 1.56배, MLX 대비 최대 1.35배 높은 디코드 처리량 달성
- Q2부터 FP16까지 8가지 양자화 형식 및 다양한 모델 제품군 지원
- MoE 모델의 프리필 단계에서 더욱 뛰어난 성능 격차 증명
- 엣지 추론 및 온디바이스 배포를 위한 핵심 기술 제공
우리는 Apple Silicon 상에서 대규모 언어 모델 (LLMs)을 위한 네이티브 Metal 추론 런타임인 BaseRT를 선보이며, 이 하드웨어에서 현재까지 가장 높은 추론 처리량 (throughput)을 기록했다고 보고합니다. llama.cpp 및 MLX 기반 프레임워크를 포함한 기존 런타임들은 Metal의 실행 모델이나 Apple Silicon의 통합 메모리 토폴로지 (unified memory topology)를 위해 설계되지 않은 추상화로 인해 오버헤드가 발생합니다. BaseRT는 칩 특화 커널 퓨전 (kernel fusion), 통합 메모리 인식 최적화 (unified memory-aware optimisation), 그리고 커스텀 디스패치 로직 (custom dispatch logic)을 통해 Metal 상에서 네이티브하게 구축함으로써, 프레임워크 기반 방식들이 놓치고 있는 성능을 회복합니다. BaseRT는 모든 Apple M-시리즈 장치에서 8가지 양자화 (quantisation) 형식 (Q2부터 FP16까지)에 걸쳐 광범위한 모델 제품군을 지원합니다. 본 논문에서는 M3 및 M4 Pro 장치에서 Q4 및 Q8 양자화로 Qwen3, Llama 3.2, 그리고 Gemma 4 제품군을 평가합니다. BaseRT는 llama.cpp보다 최대 1.56배, MLX보다 최대 1.35배 높은 디코드 처리량 (decode throughput)을 달성하며, Mixture-of-Experts (MoE) 모델의 프리필 (prefill) 단계에서는 실질적으로 더 큰 격차를 보여줍니다. 이를 통해 1B 미만에서 30B 파라미터 모델에 이르기까지 일관된 최고 수준의 처리량을 제공합니다. 이러한 결과는 Apple Silicon이 이전에 보고된 것보다 더 유능한 추론 플랫폼임을 입증하며, 이는 부상하는 엣지 추론 (edge inference) 패러다임에 직접적인 시사점을 줍니다. 개인정보 보호 요구 사항, 지연 시간 (latency) 제약, 그리고 클라우드 비용 압박이 추론을 온디바이스 배포 (on-device deployment)로 유도함에 따라, 성능이 최적화된 로컬 런타임은 이러한 전환을 위한 핵심적인 지원 계층이 됩니다. BaseRT는 https://github.com/basecompute/baseRT 에서 공개적으로 사용할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기