Windows는 AI 문제를 안고 있다. HarmonyOS PC가 해답이 될 수 있을까?

Windows는 AI 문제를 안고 있다. HarmonyOS PC가 해답이 될 수 있을까? 2025년 5월, Ryzen 7 8845HS가 탑재된 미니 PC 한 대가 내 책상 위에 놓여 있었다. 이 기기는 16 TOPS로 평가되는 NPU를 갖추고 있었는데, 이는 Microsoft의 Copilot+ 체크리스트를 충족하기에 딱 적당한 수준이었다. 나는 이 기기에서 14B 로컬 모델을 실행해 보려 했다. 결과는 다음과 같았다: CPU에서는 초당 2.1 토큰(tokens per second)이 나왔고, iGPU(내장 그래픽)는 공유 메모리 대역폭(bandwidth)에 의해 병목 현상이 발생했으며, NPU는 완전히 사용할 수 없었다. NPU는 Microsoft의 독점적인 QNN API에서만 작동했고, 어떤 오픈 소스 LLM 런타임(runtime)도 이를 지원하지 않았기 때문이다. 이것은 하드웨어의 문제가 아니다. 구조적인 문제다.

Windows AI의 함정
Windows는 NPU의 TOPS 마케팅이 아무리 이루어져도 해결할 수 없는, 로컬 AI를 위한 근본적인 아키텍처(architectural)적 불리함을 안고 있다. 이는 세 가지 계층에서 기인한다:

파편화된 메모리 아키텍처 (Fragmented Memory Architecture)
M 시리즈 Mac의 결정적인 특징은 통합 메모리(unified memory)다. 이는 CPU, GPU, 그리고 Neural Engine 간에 공유되는 고대역폭, 저지연 RAM의 단일 풀(pool)이다. 64GB 통합 메모리를 가진 MacBook은 70B 파라미터 모델(Q4로 양자화 시 약 40GB)을 실행할 수 있는데, 이는 GPU가 400+ GB/s의 속도로 64GB 전체에 완전히 접근할 수 있기 때문이다. Windows PC에는 이에 상응하는 것이 없다. 아키텍처는 다음과 같다:

시스템 RAM: 16-64GB (DDR5/LPDDR5, 50-80 GB/s)
GPU VRAM: 8-24GB (GDDR6/7, 400-800 GB/s)
NPU 메모리: 시스템과 공유되지만, 대역폭이 제한적이고 API가 잠겨 있음

GPU는 최고의 추론 엔진(inference engine)이지만, VRAM으로 제한된다. 14B Q4 모델은 약 8GB가 필요하며, 이는 12GB 이상의 카드에 들어간다. 70B Q4는 약 40GB가 필요하며, 이는 RTX 6000 Ada($6,800)나 서버용 GPU에서만 가능하다. 시스템 RAM은 용량은 갖추고 있지만 대역폭은 1/10 수준으로 작동한다. NPU는 TOPS는 갖추고 있지만 생태계가 없다. 결과적으로, 모든 Windows AI PC는 "용량도 있고, 대역폭도 있고, TOPS도 있지만 — 이 세 가지를 동시에 사용할 수는 없는" 기기가 된다. Apple은 이 세 가지를 동시에 사용할 수 있다.

OEM 인센티브의 불일치 (OEM Incentive Misalignment)
Microsoft는 하드웨어를 만들지 않는다. Dell, Lenovo, HP, ASUS가 만든다. 각 OEM은 가격으로 경쟁한다. 가장 저렴한 SSD, 가장 느린 RAM, 가장 작은 배터리를 선택한다. NPU는 시스템 수준의 최적화가 아니라, 단순히 체크박스를 채우기 위한 부품일 뿐이다.

어떤 OEM도 통합 메모리 (Unified Memory)에 투자하지 않는데, 이는 커스텀 SoC와 메인보드가 필요하기 때문입니다. 즉, 다른 어떤 차원에서도 차별화를 할 수 없음을 의미합니다. Qualcomm의 Snapdragon X Elite가 이를 해결할 것으로 기대되었습니다. 이 제품은 통합 메모리 (LPDDR5X, 최대 64GB, 135 GB/s)를 갖추고 있습니다. 하지만 ARM 기반 Windows는 자체적인 문제들을 안고 있습니다: x86 에뮬레이션 오버헤드 (Emulation Overhead), 드라이버 호환성, 그리고 Lenovo가 28W SoC에 45W 충전기를 동봉하게 만드는 것과 동일한 OEM의 비용 절감 압박입니다.

NPU 생태계는 아직 태어나지도 않았다
모든 Windows NPU는 각기 다른 SDK를 필요로 합니다:
Intel NPU: OpenVINO
AMD NPU: Ryzen AI / DirectML
Qualcomm NPU: QNN / ONNX Runtime
Microsoft 자체: DirectML (하드웨어를 지원하는 경우)

llama.cpp, MLX, ExLlamaV2 등 그 어떤 주요 오픈 소스 LLM 런타임 (Runtime)도 텍스트 생성을 위해 이 NPU 중 어느 것도 지원하지 않습니다. 사양서에 적힌 16-45 TOPS는 마케팅용 숫자일 뿐입니다. 실제로 그 TOPS는 실시간 자막이나 Windows Studio Effects와 같은 Copilot+ 기능을 위한 Microsoft의 독점적인 파이프라인을 통해서만 접근 가능합니다. NPU에서 Llama 3.2를 실행해 보십시오. 불가능합니다.

Apple의 해자(Moat)는 점점 더 깊어지고 있다
M4 Ultra는 GPU에 192GB의 통합 메모리를 제공합니다. 단 한 대의 Mac Studio로 Llama 3.1 405B (Q2, ~100GB)를 완전히 로컬에서 실행할 수 있습니다. 빠르지는 않지만, 작동은 합니다. MLX를 사용하면 M4 Ultra에서 70B 모델이 15-20 tok/s로 실행됩니다. Apple은 피크 TOPS나 FLOPs로 경쟁하지 않습니다. Apple은 추론 (Inference)을 실용적으로 만드는 하드웨어 메모리 모델, 즉 사용 가능한 아키텍처 (Architecture)로 경쟁합니다. 그리고 모델이 커질수록 이 이점은 복리로 작용합니다. 2027년 시대의 1T-파라미터 MoE 모델은 200-300GB가 필요할 것입니다. 오직 Apple의 아키텍처만이 소비자 가격대에서 이를 제공할 수 있습니다. Microsoft의 대응은 NPU를 더 강력하게 밀어붙이는 것이지만, 16GB의 느린 공유 메모리를 가진 100 TOPS NPU는 여전히 64GB의 빠른 통합 메모리를 가진 30 TOPS GPU보다 열악합니다. 병목 현상 (Bottleneck)은 행렬 곱셈 누적 연산 (Multiply-accumulate operations)이 아니라 대역폭 (Bandwidth)과 용량 (Capacity)입니다.

HarmonyOS PC의 등장: 백지 상태에서의 시작

Huawei는 2025년 5월 19일, Kirin X90을 탑재한 HarmonyOS PC를 출시했습니다. Kirin X90은 14개의 CPU 코어, 통합 GPU (Maleoon), 그리고 자체 개발한 NPU를 갖춘 5nm SoC (System on Chip)입니다. 이는 모바일 SoC에서 파생된 아키텍처로, 본질적으로 통합 메모리 (Unified Memory) 구조를 가집니다. CPU, GPU, NPU가 동일한 LPDDR5 풀 (Pool)을 공유합니다. 이는 통합 메모리를 네이티브로 지원하는 Apple 이외의 유일한 PC 아키텍처이며, 이는 매우 중요한 요소입니다.

Kirin X90: 우리가 알고 있는 것

구분	Kirin X90	Apple M4	Snapdragon X Elite
공정 (Process)	5nm (SMIC)	3nm (TSMC)	4nm (TSMC)
CPU	14코어	10코어	12코어
GPU	Maleoon (커스텀)	10-40코어	Adreno
NPU	커스텀, AI +이전 세대 대비 200%	38 TOPS	45 TOPS
메모리 (Memory)	LPDDR5 (통합)	LPDDR5 (통합)	LPDDR5x (통합)
AI 연산 성능 (주장치)	~60-80 TOPS*	38 TOPS	45 TOPS

*Kirin 9010 NPU의 기준 성능을 약 30 TOPS로 가정했을 때, Huawei의 "이전 세대 대비 200% 향상" 주장에 근거한 추정치입니다.

아키텍처는 올바른 방향입니다. 통합 메모리는 로컬 AI 추론 (Local AI Inference)을 위한 타협 불가능한 전제 조건입니다. 하지만 용량 (Capacity)은 여전히 미지수입니다.

14B 모델 테스트:
14B Q4 모델은 약 8GB의 메모리가 필요합니다. 만약 X90이 MacBook Air 수준인 32GB LPDDR5를 지원한다면 여유롭게 구동 가능합니다. GPU (Maleoon)는 Vulkan/컴퓨트 셰이더 (Compute Shaders)를 통해 추론을 처리하며, GPU와 CPU 모두 전체 메모리 대역폭 (Bandwidth)을 공유합니다. 추론 속도는 GPU 최적화에 달려 있겠지만, 적절한 런타임 (Runtime) 지원이 있다면 10-20 tok/s는 실현 가능한 수치입니다. 16GB라면 구동은 가능하나 OS와 브라우저로 인한 메모리 압박이 있을 것입니다. 8GB(스마트폰 수준)라면 불가능합니다.

공급망 계산: CXMT와 메모리 압박

여기서 이론적인 아키텍처가 현실과 마주하게 됩니다. HarmonyOS PC에는 LPDDR5 메모리가 필요합니다. Huawei의 HBM 기술 (Ascend 950에 사용되는 HiZQ 2.0)은 동일한 DRAM 팹 (Fab) 용량을 공급하는 동시에 경쟁합니다. CXMT (长鑫存储)는 유일한 중국 DRAM IDM (Integrated Device Manufacturer)입니다. 2026년 중반까지 이들의 3개 12인치 팹 (Hefei에 2개, Beijing에 1개)은 총 월간 약 30만 장의 웨이퍼 (Wafer) 생산 용량에 도달할 예정입니다.

할당 문제:

압박 요인: HBM은 표준 DDR과 비교했을 때 GB당 웨이퍼 용량을 약 3배 더 소비합니다 (Tom's Hardware 분석에 따르면, 적층으로 인한 수율 손실, 더 작은 die 크기, 베이스 die 오버헤드 때문입니다). 단일 Atlas 950 SuperNode (8,192개의 Ascend 950 칩, 1.1 PB HBM 탑재)는 수백만 대의 PC와 맞먹는 DRAM 웨이퍼 용량을 사용합니다.

CXMT의 수익성 또한 압박을 가합니다. 2026년 상반기, CXMT는 글로벌 DRAM 부족에 힘입어 500억~570억 위안의 순이익을 기록했다고 보고했습니다. 가장 마진이 높은 제품은 LPDDR이 아닌 HBM입니다. 비즈니스 관점에서 CXMT의 유인은 Ascend를 위한 HBM에 더 많은 용량을 할당하고, 범용 LPDDR에는 적게 할당하는 것입니다.

공급 가능성에 대한 결론: CXMT의 월 30만 장 웨이퍼 생산 능력은 HBM과 LPDDR5를 모두 공급할 수 있지만, Huawei가 필요로 하는 물량을 고려할 때 LPDDR5 할당은 제한될 가능성이 높습니다. 더 나은 질문은 "CXMT가 충분히 만들 수 있는가"가 아니라, "Huawei가 현물 시장의 NAND 마진 대비 얼마나 더 많은 비용을 지불할 용의가 있는가"입니다. 만약 Huawei가 CXMT의 LPDDR5를 시장 가격보다 높게 조달한다면 (특수관계자 거래로서의 내부 이전 가격 적용), 낮은 마진을 감수하고 공급을 확보할 것입니다. 만약 Samsung이나 SK Hynix로부터 조달하려고 시도한다면, 미국의 수출 통제와 불확실한 할당 문제에 직면하게 됩니다 (두 한국 벤더 모두 NVIDIA를 위한 HBM을 우선시합니다).

실용적인 경로: CXMT는 Kirin X90 물량에 필요한 만큼의 LPDDR5만 공급하고 (규모 확장 시 월 약 25K 웨이퍼), HBM 용량의 대부분은 더 높은 마진과 전략적 AI 인프라로서의 중요성을 가진 Ascend 950에 할당하는 것입니다.

요약: 16GB RAM을 탑재한 HarmonyOS PC는 출시될 가능성이 높습니다. 32GB 모델은 가능하지만 비쌀 것입니다. 64GB(Mac 수준) 모델은 출시 시점에 등장하기 어려울 것으로 보입니다.

진정한 파괴적 혁신: 분산 AI (Distributed AI)

HarmonyOS PC의 가장 흥미로운 가능성은 로컬 성능이 아닙니다. 그것은 다른 어떤 플랫폼도 할 수 없는 기능입니다. HarmonyOS는 사용자의 생태계 내에 있는 모든 장치를 단일 리소스 풀(resource pool)로 취급하는 분산 하드웨어 추상화 계층 (distributed hardware abstraction layer)을 가지고 있습니다. 이는 원래 파일 공유 및 휴대폰을 웹캠으로 사용하는 유스케이스를 위해 설계되었습니다. 이를 AI 추론 (inference)에 적용하면 진정으로 차별화된 무언가가 됩니다.

당신의 휴대폰 NPU + 당신의 PC NPU + 당신의 태블릿 NPU = 풀링된 추론 (pooled inference)
고속 로컬 상호 연결 (high-speed local interconnect)을 통해 장치 간에 샤딩(sharded)된 모델 계층 (model layers)
14B 모델의 어텐션 계층 (attention layers)은 PC GPU에서 실행되고, 임베딩 계층 (embedding layers)은 휴대폰 NPU에서 실행

Windows는 이를 할 수 없습니다. macOS도 이를 할 수 없습니다 (Continuity 기능은 GPU 컴퓨팅 풀링까지 확장되지 않습니다). HarmonyOS의 분산 아키텍처 (distributed architecture)는 독보적입니다.

실질적인 과제는 상호 연결 지연 시간 (interconnect latency)입니다. 5Gbps 속도의 WiFi 7조차 장치 간에 1~~3ms의 지연 시간이 발생하며, 이는 온칩 메모리 (on-chip memory) 액세스보다 10~~100배 더 느립니다. 실시간 계층 샤딩 추론 (real-time layer-sharded inference)을 위해서는 마이크로초 미만 (sub-microsecond)의 동기화가 필요합니다. 이로 인해 분산 AI는 대화형 채팅보다는 배치/오프라인 워크로드 (batch/offline workloads, 예: 백그라운드 요약, 비동기 데이터 처리)로 제한됩니다. 하지만 "휴대폰과 워크로드를 공유하면서 밤새 PC가 대규모 모델을 처리하도록 두는" 유스케이스의 경우, 이는 작동합니다.

HarmonyOS PC를 위한 세 가지 시나리오

시나리오 1: "충분히 괜찮은" 수준 (가능성 높음)

16GB LPDDR5, 통합 메모리 (unified memory), ~60 TOPS NPU
GPU 추론 (inference)을 통해 7B 모델을 15-25 tok/s로 실행
14B 모델을 5-10 tok/s로 실행 (사용 가능하지만 느림)
비동기/백그라운드 워크로드를 위한 분산 AI (Distributed AI)
가격: ¥3,999-4,999 ($550-700)
결론: Mac 및 Windows와 나란히 설 수 있는 정당한 제3의 선택지이지만, "Mac killer"는 아님

시나리오 2: 메모리 확장형 (가능성 있음)

32GB LPDDR5 (CXMT가 할당을 확보, 더 높은 BOM 비용 발생)
14B Q4 모델을 15-20 tok/s로 실행
32B Q4 모델을 5-8 tok/s로 실행
실시간 지원을 위해 휴대폰 NPU와 연동된 분산 AI (Distributed AI)
가격: ¥5,999-6,999 ($830-970)
결론: 로컬 AI 워크로드 측면에서 MacBook Air M4와 진정으로 경쟁 가능함
주요 리스크: CXMT LPDDR5 할당 문제, BOM 마진 압박

시나리오 3: 분산형 돌파구 (희박한 가능성)

16-32GB LPDDR5
네이티브 분산 추론 (distributed inference) API가 포함된 HarmonyOS 6+
"AI 라우터" 모드: PC가 가정 내 모든 HarmonyOS 기기를 위한 로컬 추론 서버 역할을 수행
제3자 모델 런타임 (llama.cpp 포트, MindSpore Lite + Vulkan)
결론: Windows와 Mac이 복제할 수 없는 독보적인 가치 제안
핵심 열쇠: 소프트웨어 생태계의 성숙도, 개발자 채택

필요한 조건
AI 시대에 HarmonyOS PC가 의미를 갖기 위해서는 세 가지 요소가 일치해야 합니다:

메모리 용량이 16GB를 초과해야 합니다. 이것 없이는 통합 메모리 (unified memory)의 이점은 이론에 불과합니다. 14B 모델은 간신히 들어가는 수준이라 OS나 애플리케이션을 위한 여유 공간이 남지 않습니다. 32GB가 최적의 지점(sweet spot)입니다.
개방형 런타임 (open runtime)이 존재해야 합니다. AI를 실행하는 유일한 방법이 Huawei의 MindSpore/CANN 파이프라인뿐이라면, 개발자 채택은 느려질 것입니다. 이는 Windows가 독점적인 NPU SDK로 인해 빠졌던 것과 동일한 함정입니다. Vulkan 기반의 llama.cpp 포트가 있다면 혁신적인 변화를 가져올 것입니다.
분산 추론 (distributed inference) API가 퍼스트 파티 (first-party) 기능으로 출시되어야 합니다. 개발자 프리뷰(developer preview)나 엔터프라이즈 SKU 수준이 아니어야 합니다. 어떤 앱이든 호출할 수 있는 시스템 레벨의 API가 필요합니다: harmonyos.distribute.infer(model, input, devices=[pc, phone]). 이것이 HarmonyOS를 다른 모든 플랫폼과 차별화하는 기능이 될 것입니다.

솔직한 평가: HarmonyOS PC는 Windows가 가진 아키텍처 문제인 통합 메모리 (Unified Memory) 문제를 해결하며, 다른 어떤 플랫폼도 따라올 수 없는 이론적인 분산 컴퓨팅 (Distributed Computing) 이점을 가지고 있습니다. 하지만 세 가지 제약 사항에 직면해 있습니다:

제조 (Manufacturing): SMIC의 5nm 공정은 TSMC의 3nm에 뒤처져 있습니다. 와트당 성능 (Performance per watt)은 Apple M4에 뒤처질 것입니다.
생태계 (Ecosystem): Adobe 제품군이 없고, 주요 게임이 없으며, 개발자 도구가 제한적입니다. 이는 도입 범위를 1차 열성 팬층과 정부/기업 조달로 제한합니다.
메모리 공급 (Memory supply): CXMT의 생산 능력은 HBM 수요로 인해 압박을 받고 있습니다. 32GB LPDDR5를 대규모로 공급하는 것은 보장되지 않습니다.

HarmonyOS PC의 최선의 시나리오: AI 시대에 Windows가 되었어야 했던 모습, 즉 로컬 AI 추론 (Local AI Inference)이 덧붙여진 것이 아니라 아키텍처적으로 자연스러운 플랫폼이 되는 것입니다. 하지만 이는 Huawei가 NPU TOPS보다 메모리 용량을 우선시하고, 런타임 (Runtime)을 커뮤니티에 개방할 때만 가능합니다.

최악의 시나리오: 서류상으로는 인상적인 NPU TOPS를 가졌지만, 독점적인 SDK와 메모리 제약으로 인해 실제 AI 워크로드 (AI Workloads)에서는 기능적으로 접근이 불가능한 또 다른 Windows가 되는 것입니다.

현재 데이터는 시나리오 1, 즉 경쟁력은 있지만 혁신적이지는 않은 좋은 제품을 가리키고 있습니다. 시나리오 2로 전환되어 혁신적인 제품이 되려면 CXMT가 32GB급 LPDDR5를 대규모로 공급해야 하며, 이는 기술의 문제가 아닌 공급망 (Supply Chain)의 문제입니다.

본 분석은 공개 데이터를 바탕으로 최선을 다해 수행한 평가입니다. CXMT의 생산 능력 수치는 공개 보고서를 기반으로 한 추정치입니다. Kirin X90의 NPU TOPS는 알려지지 않은 기준점 대비 Huawei의 "200% 향상" 주장을 바탕으로 추론되었습니다.

Windows는 AI 문제를 안고 있다. HarmonyOS PC가 해답이 될 수 있을까?

요약

핵심 포인트

댓글