Lenovo의 AI Host P7: 190 TOPS, 30W, 122B 모델 — 믿기 어려울 정도로 좋은가?
요약
Lenovo가 발표한 초소형 AI 미니 PC 'P7'은 30W의 저전력으로 122B 파라미터 모델을 초당 50토큰 속도로 실행할 수 있다고 주장합니다. 하지만 기사는 칩의 실제 NPU 성능(45 TOPS)과 주장하는 성능(190 TOPS) 사이의 괴리, 그리고 전력 대비 성능 수치의 비현실성을 지적하며 벤치마크 확인이 필요함을 경고합니다.
핵심 포인트
- P7은 CiXing P1 SoC를 기반으로 하며 30W TDP와 300g의 초소형 폼팩터를 가짐
- 주장하는 190 TOPS 성능은 내장 NPU(45 TOPS)가 아닌 별도의 미공개 AI 가속기 카드에서 기인함
- 30W 전력으로 122B 모델을 50 tok/s로 구동한다는 주장은 현재 기술적 상식(메모리 대역폭, 전력 소모 등)과 충돌함
- 에이전트 모드와 같은 듀얼 모드 기능을 지원함
지난주, Lenovo는 보조 배터리 크기의 AI 미니 PC를 발표했습니다. 이 제품은 단 30W의 전력으로 190 TOPS의 AI 연산 성능을 제공하며, 1220억 개(122-billion) 파라미터 모델을 초당 50 토큰(tokens/second)의 속도로 로컬에서 실행할 수 있다고 주장합니다. 또한 7월에 크라우드펀딩을 시작하여 11월까지 배송될 예정이라고 합니다. 저는 그동안 Ryzen HX370 미니 PC(96GB RAM, 모델 로드 시 유휴 상태에서 약 130W 소비)에서 로컬 LLM을 실행해 왔습니다. 그래서 더 큰 모델에서 더 나은 처리량(throughput)을 제공한다고 주장하는 30W 장치를 보았을 때 관심을 갖게 되었습니다. 그러다 회의감이 들었습니다. 무엇이 사실이고, 무엇이 마케팅이며, 왜 주문하기 전에 벤치마크(benchmarks)를 기다려야 하는지 그 이유를 정리해 드립니다.
실제로 존재하는 하드웨어
P7은 2024년 7월에 발표된 중국 내수용 AI PC SoC인 CiXing P1(此芯P1)을 기반으로 구축되었습니다:
| 사양 | 값 |
|---|---|
| 공정 | 6nm |
| CPU | 12코어 Arm v9.2 (8P + 4E), 최대 3.2GHz |
| GPU | 10코어 데스크톱급 |
| NPU | 45 TOPS |
| RAM | 최대 80GB LPDDR5 6400 |
| TDP | 약 30W |
| 크기 | 보조 배터리 크기, 300g |
| 소음 | <35dBA |
| 포트 | 4× USB-C, PCIe 4.0 |
칩 자체는 실재합니다. 성공적으로 테이프 아웃(taped out)되었으며 작년에 대량 생산 자격을 갖추었습니다. 이는 렌더링으로만 존재하는 컨셉이 아닙니다. 하지만 첫 번째 경고 신호(red flag)가 있습니다. P1의 네이티브 NPU는 45 TOPS에 불과합니다. 이는 Arm 칩으로서는 탄탄한 수치이지만, 주장하는 190 TOPS는 Lenovo가 명시하지 않은 "전용 AI 가속기 카드(dedicated AI accelerator card)"에서 나옵니다. 칩 이름도, 아키텍처(architecture)도, 벤치마크(benchmark)도 없습니다. 이것이 PCIe 4.0 슬롯에 꽂혀 어떻게 145 TOPS를 추가하는지는 알 수 없습니다.
앞뒤가 맞지 않는 숫자들
30W로 122B 모델을 초당 50 토큰(tok/s)으로 실행한다고요. 이를 객관적으로 비교해 봅시다. Mac Studio에 탑재된 Apple의 M4 Ultra는 부하가 걸린 상태에서 대략 150-200W를 소비하며 뛰어난 LLM 처리량을 제공하지만, 누구도 30W에서 122B 모델을 초당 50 토큰으로 실행한다고 주장하지 않습니다. NVIDIA의 RTX 4090(450W)은 4비트 양자화(4-bit quantization)를 적용한 120B+ 모델에서 대략 초당 40-50 토큰을 처리합니다.
30W Arm 장치가 그 성능에 도달하려면 다음과 같은 여러 조건이 동시에 충족되어야 합니다:
- 출력 품질을 저하시키는 매우 공격적인 양자화 (Q2 또는 Q3)
- 이 정도 전력 수준의 출시된 Arm SoC 중에는 존재하지 않는 메모리 대역폭 (Memory bandwidth) 아키텍처
- (알 수 없는 전력 비용을 소모하며) 대부분의 무거운 작업을 수행하는 "AI 가속기 카드 (AI accelerator card)"
- 실제 멀티턴 대화 (Multi-turn conversation)가 아닌, 특정 좁은 워크로드에서 측정된 벤치마크
Lenovo가 공개한 이미지에는 크기 비교를 위해 P7이 보조 배터리 옆에 놓여 있습니다. 하지만 그 이미지는 전원 어댑터(Power brick), 냉각 솔루션(Cooling solution), 또는 122B 전체 모델을 사용한 실시간 추론(Inference) 데모를 보여주지는 않습니다.
"듀얼 모드 (Dual Mode)" — 실제로 흥미로운 기능
P7은 두 가지 작동 모드를 지원합니다:
- 에이전트 모드 (Agent Mode) — 자율적인 작업 실행을 위해 Lenovo의 Claw OS를 실행합니다 (상자 안에 담긴 Hermes Agent를 생각하면 됩니다).
- 모델 모드 (Model Mode) — 개인용 모델 허브로서, 다른 장치들이 호출할 수 있도록 API 키를 노출합니다.
이 두 번째 모드는 진정으로 흥미롭습니다. 여러분의 홈 네트워크에서 항상 켜져 있는 30W 장치가 휴대폰, 노트북, 스마트 홈 기기에 LLM 추론을 제공한다고요? 그것이 바로 타당성이 있는 "개인용 토큰 노드 (Personal token node)" 비전입니다. 하지만 이는 추론 품질이 유지될 때만 가능합니다. 누군가가 실제로 그 장치에서 llama.cpp(또는 그에 상응하는 Arm용 버전)를 실행해 보기 전까지는 알 수 없는 사실입니다.
타임라인: 주목해야 할 사항
| 날짜 | 마일스톤 |
|---|---|
| 2026년 5월 19일 | 발표 (실제 시연 없음) |
| 2026년 7월 1일 | 크라우드펀딩 시작 |
| 2026년 11월 | 첫 배송 시작 ? 첫 독립 벤치마크 |
발표와 배송 사이에 6개월의 간격이 있습니다. 맥락상, 이는 신중한 공급망 관리이거나 "우리는 여전히 소프트웨어 스택 (Software stack)을 수정 중이다"라는 의미일 것입니다. 어떤 독립적인 기술 리뷰어(Chiphell, Bilibili, Zhihu)도 직접 사용해 본 콘텐츠를 게시하지 않았습니다. 출시 행사 미디어는 하드웨어 리뷰어가 아닌 보도자료 담당 기자들이었습니다.
결론 (데이터를 확보하기 전)
| 주장 | 판정 |
|---|---|
| 하드웨어가 존재하는가 | ✅ 실제 SoC, 실제 PCB 사진 존재 |
| 190 TOPS | 🟡 네이티브 45 TOPS + 정체불명의 가속기 카드 |
| 30W에서 122B 모델 @ 50 tok/s | ❌ 수학적으로 의심스러움, 실제 벤치마크 대기 필요 |
| 2026년 11월까지 출시 | 🟡 가능성은 있으나, 기능 세트가 발표와 다를 수 있음 |
| 출시 당일 구매 가치가 있는가 | ❌ 사양서만 보고 AI 기기를 크라우드펀딩하지 마라 |
Lenovo는 실제 하드웨어를 출시해 온 실적이 있습니다. CiXing P1은 정식 칩입니다. 하지만 성능 주장은
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기