Lenovo의 AI Host P7: 190 TOPS, 30W, 122B 모델 — 믿기 어려울 정도로 좋은가?

요약

Lenovo가 발표한 초소형 AI 미니 PC 'P7'은 30W의 저전력으로 122B 파라미터 모델을 초당 50토큰 속도로 실행할 수 있다고 주장합니다. 하지만 기사는 칩의 실제 NPU 성능(45 TOPS)과 주장하는 성능(190 TOPS) 사이의 괴리, 그리고 전력 대비 성능 수치의 비현실성을 지적하며 벤치마크 확인이 필요함을 경고합니다.

핵심 포인트

P7은 CiXing P1 SoC를 기반으로 하며 30W TDP와 300g의 초소형 폼팩터를 가짐
주장하는 190 TOPS 성능은 내장 NPU(45 TOPS)가 아닌 별도의 미공개 AI 가속기 카드에서 기인함
30W 전력으로 122B 모델을 50 tok/s로 구동한다는 주장은 현재 기술적 상식(메모리 대역폭, 전력 소모 등)과 충돌함
에이전트 모드와 같은 듀얼 모드 기능을 지원함

지난주, Lenovo는 보조 배터리 크기의 AI 미니 PC를 발표했습니다. 이 제품은 단 30W의 전력으로 190 TOPS의 AI 연산 성능을 제공하며, 1220억 개(122-billion) 파라미터 모델을 초당 50 토큰(tokens/second)의 속도로 로컬에서 실행할 수 있다고 주장합니다. 또한 7월에 크라우드펀딩을 시작하여 11월까지 배송될 예정이라고 합니다. 저는 그동안 Ryzen HX370 미니 PC(96GB RAM, 모델 로드 시 유휴 상태에서 약 130W 소비)에서 로컬 LLM을 실행해 왔습니다. 그래서 더 큰 모델에서 더 나은 처리량(throughput)을 제공한다고 주장하는 30W 장치를 보았을 때 관심을 갖게 되었습니다. 그러다 회의감이 들었습니다. 무엇이 사실이고, 무엇이 마케팅이며, 왜 주문하기 전에 벤치마크(benchmarks)를 기다려야 하는지 그 이유를 정리해 드립니다.

실제로 존재하는 하드웨어
P7은 2024년 7월에 발표된 중국 내수용 AI PC SoC인 CiXing P1(此芯P1)을 기반으로 구축되었습니다:

사양	값
공정	6nm
CPU	12코어 Arm v9.2 (8P + 4E), 최대 3.2GHz
GPU	10코어 데스크톱급
NPU	45 TOPS
RAM	최대 80GB LPDDR5 6400
TDP	약 30W
크기	보조 배터리 크기, 300g
소음	<35dBA
포트	4× USB-C, PCIe 4.0

칩 자체는 실재합니다. 성공적으로 테이프 아웃(taped out)되었으며 작년에 대량 생산 자격을 갖추었습니다. 이는 렌더링으로만 존재하는 컨셉이 아닙니다. 하지만 첫 번째 경고 신호(red flag)가 있습니다. P1의 네이티브 NPU는 45 TOPS에 불과합니다. 이는 Arm 칩으로서는 탄탄한 수치이지만, 주장하는 190 TOPS는 Lenovo가 명시하지 않은 "전용 AI 가속기 카드(dedicated AI accelerator card)"에서 나옵니다. 칩 이름도, 아키텍처(architecture)도, 벤치마크(benchmark)도 없습니다. 이것이 PCIe 4.0 슬롯에 꽂혀 어떻게 145 TOPS를 추가하는지는 알 수 없습니다.

앞뒤가 맞지 않는 숫자들
30W로 122B 모델을 초당 50 토큰(tok/s)으로 실행한다고요. 이를 객관적으로 비교해 봅시다. Mac Studio에 탑재된 Apple의 M4 Ultra는 부하가 걸린 상태에서 대략 150-200W를 소비하며 뛰어난 LLM 처리량을 제공하지만, 누구도 30W에서 122B 모델을 초당 50 토큰으로 실행한다고 주장하지 않습니다. NVIDIA의 RTX 4090(450W)은 4비트 양자화(4-bit quantization)를 적용한 120B+ 모델에서 대략 초당 40-50 토큰을 처리합니다.

30W Arm 장치가 그 성능에 도달하려면 다음과 같은 여러 조건이 동시에 충족되어야 합니다:

출력 품질을 저하시키는 매우 공격적인 양자화 (Q2 또는 Q3)
이 정도 전력 수준의 출시된 Arm SoC 중에는 존재하지 않는 메모리 대역폭 (Memory bandwidth) 아키텍처
(알 수 없는 전력 비용을 소모하며) 대부분의 무거운 작업을 수행하는 "AI 가속기 카드 (AI accelerator card)"
실제 멀티턴 대화 (Multi-turn conversation)가 아닌, 특정 좁은 워크로드에서 측정된 벤치마크

Lenovo가 공개한 이미지에는 크기 비교를 위해 P7이 보조 배터리 옆에 놓여 있습니다. 하지만 그 이미지는 전원 어댑터(Power brick), 냉각 솔루션(Cooling solution), 또는 122B 전체 모델을 사용한 실시간 추론(Inference) 데모를 보여주지는 않습니다.

"듀얼 모드 (Dual Mode)" — 실제로 흥미로운 기능

P7은 두 가지 작동 모드를 지원합니다:

에이전트 모드 (Agent Mode) — 자율적인 작업 실행을 위해 Lenovo의 Claw OS를 실행합니다 (상자 안에 담긴 Hermes Agent를 생각하면 됩니다).
모델 모드 (Model Mode) — 개인용 모델 허브로서, 다른 장치들이 호출할 수 있도록 API 키를 노출합니다.

이 두 번째 모드는 진정으로 흥미롭습니다. 여러분의 홈 네트워크에서 항상 켜져 있는 30W 장치가 휴대폰, 노트북, 스마트 홈 기기에 LLM 추론을 제공한다고요? 그것이 바로 타당성이 있는 "개인용 토큰 노드 (Personal token node)" 비전입니다. 하지만 이는 추론 품질이 유지될 때만 가능합니다. 누군가가 실제로 그 장치에서 llama.cpp(또는 그에 상응하는 Arm용 버전)를 실행해 보기 전까지는 알 수 없는 사실입니다.

타임라인: 주목해야 할 사항

날짜	마일스톤
2026년 5월 19일	발표 (실제 시연 없음)
2026년 7월 1일	크라우드펀딩 시작
2026년 11월	첫 배송 시작 ? 첫 독립 벤치마크

발표와 배송 사이에 6개월의 간격이 있습니다. 맥락상, 이는 신중한 공급망 관리이거나 "우리는 여전히 소프트웨어 스택 (Software stack)을 수정 중이다"라는 의미일 것입니다. 어떤 독립적인 기술 리뷰어(Chiphell, Bilibili, Zhihu)도 직접 사용해 본 콘텐츠를 게시하지 않았습니다. 출시 행사 미디어는 하드웨어 리뷰어가 아닌 보도자료 담당 기자들이었습니다.

결론 (데이터를 확보하기 전)

주장	판정
하드웨어가 존재하는가	✅ 실제 SoC, 실제 PCB 사진 존재
190 TOPS	🟡 네이티브 45 TOPS + 정체불명의 가속기 카드
30W에서 122B 모델 @ 50 tok/s	❌ 수학적으로 의심스러움, 실제 벤치마크 대기 필요
2026년 11월까지 출시	🟡 가능성은 있으나, 기능 세트가 발표와 다를 수 있음
출시 당일 구매 가치가 있는가	❌ 사양서만 보고 AI 기기를 크라우드펀딩하지 마라

Lenovo는 실제 하드웨어를 출시해 온 실적이 있습니다. CiXing P1은 정식 칩입니다. 하지만 성능 주장은

AI 자동 생성 콘텐츠

원문 바로가기

Lenovo의 AI Host P7: 190 TOPS, 30W, 122B 모델 — 믿기 어려울 정도로 좋은가?

요약

핵심 포인트

댓글