BaseRT: Native Metal을 통한 Apple Silicon에서의 최고 수준 LLM 추론

우리는 Apple Silicon 상에서 대규모 언어 모델 (LLMs)을 위한 네이티브 Metal 추론 런타임인 BaseRT를 선보이며, 이 하드웨어에서 현재까지 가장 높은 추론 처리량 (throughput)을 기록했다고 보고합니다. llama.cpp 및 MLX 기반 프레임워크를 포함한 기존 런타임들은 Metal의 실행 모델이나 Apple Silicon의 통합 메모리 토폴로지 (unified memory topology)를 위해 설계되지 않은 추상화로 인해 오버헤드가 발생합니다. BaseRT는 칩 특화 커널 퓨전 (kernel fusion), 통합 메모리 인식 최적화 (unified memory-aware optimisation), 그리고 커스텀 디스패치 로직 (custom dispatch logic)을 통해 Metal 상에서 네이티브하게 구축함으로써, 프레임워크 기반 방식들이 놓치고 있는 성능을 회복합니다. BaseRT는 모든 Apple M-시리즈 장치에서 8가지 양자화 (quantisation) 형식 (Q2부터 FP16까지)에 걸쳐 광범위한 모델 제품군을 지원합니다. 본 논문에서는 M3 및 M4 Pro 장치에서 Q4 및 Q8 양자화로 Qwen3, Llama 3.2, 그리고 Gemma 4 제품군을 평가합니다. BaseRT는 llama.cpp보다 최대 1.56배, MLX보다 최대 1.35배 높은 디코드 처리량 (decode throughput)을 달성하며, Mixture-of-Experts (MoE) 모델의 프리필 (prefill) 단계에서는 실질적으로 더 큰 격차를 보여줍니다. 이를 통해 1B 미만에서 30B 파라미터 모델에 이르기까지 일관된 최고 수준의 처리량을 제공합니다. 이러한 결과는 Apple Silicon이 이전에 보고된 것보다 더 유능한 추론 플랫폼임을 입증하며, 이는 부상하는 엣지 추론 (edge inference) 패러다임에 직접적인 시사점을 줍니다. 개인정보 보호 요구 사항, 지연 시간 (latency) 제약, 그리고 클라우드 비용 압박이 추론을 온디바이스 배포 (on-device deployment)로 유도함에 따라, 성능이 최적화된 로컬 런타임은 이러한 전환을 위한 핵심적인 지원 계층이 됩니다. BaseRT는 https://github.com/basecompute/baseRT 에서 공개적으로 사용할 수 있습니다.

Insights

BaseRT: Native Metal을 통한 Apple Silicon에서의 최고 수준 LLM 추론

요약

핵심 포인트

댓글

엔비디아가 오픈소스 모델 네모트론을 통째로 얹기로 한 플랫폼이 팔란티어다. 발표 후 팔란티어는 하루 7.7% 뛰었다. 왜 하필 여기였을까.

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

엔비디아가 오픈소스 모델 네모트론을 통째로 얹기로 한 플랫폼이 팔란티어다. 발표 후 팔란티어는 하루 7.7% 뛰었다. 왜 하필 여기였을까.

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!