HN분석2026. 05. 18. 00:54

Apple Silicon이 OpenRouter보다 더 비쌉니다

요약

이 글은 Apple Silicon 기반의 로컬 모델 구동 비용을 OpenRouter와 같은 클라우드 서비스와 비교 분석합니다. 전기료, 하드웨어 감가상각비, 그리고 토큰당 속도(토큰 경제학)를 종합적으로 고려했을 때, M5 MacBook Pro로 Gemma 4 31b와 같은 모델을 로컬에서 구동하는 비용이 OpenRouter보다 더 비쌀 수 있음을 주장합니다. 특히 하드웨어의 감가상각비가 주요 비용 요인으로 작용하며, 추론 속도가 가장 중요한 결정 요소임을 강조합니다.

핵심 포인트

로컬 환경(Apple Silicon)에서의 모델 구동 비용은 전기료와 하드웨어 감가상각비를 포함하여 계산해야 한다.
하드웨어의 수명 기간(3년, 5년, 10년 등)에 따라 시간당 및 토큰당 추정 비용이 크게 달라진다.
로컬 추론의 총비용은 전기료보다 하드웨어 감가상각비가 더 큰 영향을 미치는 경향이 있다.
OpenRouter와 같은 클라우드 서비스는 상대적으로 저렴한 가격과 빠른 속도를 제공하여 경쟁력을 갖는다.

Offline Agentic Coding part 3: Apple Silicon이 OpenRouter보다 더 비쌉니다.

2026-05-17 발행

Apple Silicon이 OpenRouter보다 더 비쌉니다.

부하(load) 상태에서 약 50-100와트(watts)를 소모하고 kWh당 약 $0.20라고 가정할 때, 나의 M5 MacBookPro는 시간당 몇 센트의 비용이 들 것입니다. 기기의 수명을 단축시킴으로써 발생하는 가속 상각(accelerated depreciation)(만약 있다면)이 전기 요금보다 더 비쌀 것입니다. 초당 수십 개의 토큰(tokens per second) 속도에서는 이를 상각 비용으로 계산했을 때 100만 토큰당 약 $1.50가 됩니다. 유사한 모델을 사용하는 OpenRouter는 가격이 1/3 수준이며 속도는 약 2배 더 빠릅니다.

전기 (Electricity)

버지니아 북부(Northern Virginia)의 나의 지난 전기 요금은 kWh당 $0.18였습니다. 반올림하여 kWh당 $0.20로 계산해 봅시다.

EIA(미국 에너지 정보국)에 따르면 2025년 미국의 평균 주거용 전기 비용은 kWh당 $0.1730입니다.

약 50-100와트와 $0.18/kWh를 기준으로 하면 시간당 $0.009 또는 $0.018입니다. 시간당 $0.02입니다. 100% 추론(inference)을 실행하기 위한 전기 비용은 하루에 48센트입니다.

하드웨어 (Hardware)

M5 Max와 64GB RAM을 탑재한 14인치 MBP는 현재 Apple 웹사이트에 $4299로 기재되어 있습니다. 128GB는 비용이 더 들겠지만, 64GB라면 Anthropic Sonnet 수준의 성능에 거의 근접한 Gemma 4 31b와 같은 모델을 실행할 수 있을 것입니다.

비용 배분(cost allocation)을 위해, 이 하드웨어의 수명을 3년, 5년, 또는 10년으로 가정해 보겠습니다. 연간 비용은 각각 $1433, $860, 또는 $430입니다.

따라서 3년, 5년, 10년 기준 시간당 비용은 다음과 같습니다:

$0.16358
$0.09815
$0.04908

유효 수명에 따라 다르겠지만, 일반적인 사용을 기준으로 5년이 합리적인 추정치라고 생각합니다. 7년 또는 10년도 매우 가능성이 있습니다. 추론을 최대치로 가동한다면 3년 또한 합리적인 추정치가 될 수 있습니다.

토큰 경제학 (Tokenomics)

가장 큰 질문은 로컬 모델(local model)에서 시간당 얼마나 많은 토큰을 얻을 수 있느냐 하는 것입니다. 나의 M5 Max 테스트 결과, Gemma4:31b와 같은 본격적인 모델의 경우 초당 10-40 토큰(tokens per second) 범위인 것으로 보입니다. 초당 10 토큰일 경우 시간당 36,000 토큰입니다.

3~10년의 수명 기간 동안 kWh당 $0.18를 기준으로 시간당 36,000 토큰을 계산하면, 100만 토큰당 가격은 높은 쪽으로 $1.61에서 $4.79 사이가 됩니다.

초당 40 토큰 (tokens per second)의 속도라면 시간당 144,000 토큰이 되며, 이는 100만 토큰당 $0.40에서 $1.20에 해당합니다.

Apple Silicon의 경우, 하드웨어 비용이 지배적입니다.

OpenRouter

OpenRouter는 Gemma4 31b를 100만 토큰당 약 38~50센트에 제공합니다. 이는 낙관적인 측면(50W, 초당 40 토큰, 10년 사용)에서 볼 때, Pro Max의 비용이 OpenRouter만큼 저렴하다는 것을 의미합니다. 비관적인 측면(100W, 초당 10 토큰, 3년 사용)에서는 Pro Max의 비용이 10배에 달합니다. 회계적인 관점에서 Pro Max를 통한 로컬 추론 (local inference)의 100만 토큰당 비용은 약 3배 정도가 적절한 수치라고 생각합니다.

결론

하지만 대부분의 경우 추론 (inference) 속도가 가장 큰 요인입니다. 로컬 추론은 클라우드 추론 (cloud inference)보다 느립니다. OpenRouter의 일부 Gemma 4 제공업체는 초당 최대 60~~70 토큰을 구현하는데, 이는 제가 Pro Max에서 보고 있는 속도(초당 약 10~~20 토큰)보다 3~7배 더 빠릅니다. 업무용 노트북을 사용하는 인간 직원의 경우, 그들의 급여 비용은 로컬에서 생성할 수 있는 토큰 비용의 약 1,000배에 달할 것입니다. 이러한 맥락에서는 Anthropic에 비용을 지불하는 것이 더 합리적입니다.

소비자용 기기에서 Anthropic Sonnet 수준의 성능에 근접한 모델을 실행할 수 있다는 사실은 여전히 놀랍습니다.

AI 자동 생성 콘텐츠

원문 바로가기