Intel Optane Persistent Memory를 사용한 컴퓨터 빌드 - 1조 개의 파라미터를 가진 모델을 초당 4개 이상의 토큰으로
요약
본 글은 Intel Optane Persistent Memory(PMem)를 활용하여 1조 개의 파라미터를 가진 대규모 언어 모델(Kimi K2.5)을 로컬 환경에서 초당 약 4 토큰 속도로 구동한 빌드 경험을 공유합니다. PMem의 거대한 용량(768GB)과 메모리 모드를 활용하여, GPU에 담기 어려운 초대형 모델의 희소 전문가 가중치(sparse experts weights)를 시스템 RAM처럼 처리할 수 있었습니다. 이 빌드는 제한된 예산으로 프런티어급 모델을 구동하는 성공적인 사례이며, 향후 로컬 추론 혁신 방향에 대한 통찰을 제공합니다.
핵심 포인트
- Intel Optane PMem의 활용: DRAM과 SSD 사이의 메모리 계층을 시스템 RAM처럼 사용하여 초대형 모델 호스팅 가능.
- 대규모 모델 실행: 1조 개의 파라미터를 가진 Kimi K2.5와 같은 프런티어급 MoE 모델을 로컬에서 구동함.
- 추론 기술 스택: llama.cpp를 이용한 하이브리드 GPU/CPU 추론 및 'override-tensor' 플래그 사용 경험 공유.
- 성능 목표 달성: 제한된 하드웨어 예산으로도 초당 약 4 토큰이라는 수용 가능한 속도를 달성함.
제목에서 언급했듯이, 제 빌드는 실제로 1조 개의 파라미터를 가진 모델(이 경우에는 Kimi K2.5)을 로컬에서 초당 약 4개의 토큰(tokens/second) 속도로 실행할 수 있습니다. r/LocalLLaMA 커뮤니티가 이 수치뿐만 아니라, LLM 추론(inference) 빌드에서 이전에 본 적 없는 특이한 부품인 Intel Optane Persistent Memory (PMem)의 포함 때문에 이 빌드에 관심을 가질 것이라고 생각했습니다. Optane PMem은 DRAM과 SSD 사이의 어딘가에서 작동할 수 있는 DIMM 폼 팩터(form factor) 메모리 유닛입니다. Intel은 이 라인업을 단종시켰으며, 저는 중고 시장에서 동일한 DRAM 용량의 비용보다 훨씬 저렴한 가격으로 스틱을 찾아냈습니다. 제 시스템에서 이토록 큰 모델을 호스팅할 수 있게 해주는 것은 바로 이 거대한 PMem 용량(768GB)입니다. 제 빌드에서는 PMem을 메모리 모드(Memory Mode)로 사용했는데, 이는 컴퓨터의 DRAM 스틱이 캐시(cache) 역할을 수행하면서 PMem이 컴퓨터에서 RAM으로 사용 가능한 방식입니다.
Kimi K2.5의 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처는 제 빌드를 테스트하기에 이상적인 모델입니다. 제가 얻은 결과를 내기 위해, 저는 llama.cpp를 사용하여 하이브리드 GPU/CPU 추론(inference)을 사용했습니다. Kimi K2.5(Unsloth Q2_K_XL 양자화(quant))의 어텐션 가중치(attention weights), 밀집층(dense layer), 각 MoE 레이어의 공유 전문가(shared expert), 그리고 라우팅 구성 요소(routing components)는 llama.cpp의 “override-tensor” 플래그를 사용하여 제 12GB GPU에 실제로 담을 수 있었습니다. 물론 llama.cpp의 “ngl auto” 및 “cmoe” 플래그를 사용하여 llama.cpp가 적절하다고 판단하는 대로 텐서 배치(tensor placement)를 결정하게 두었을 때도 꽤 괜찮은 결과를 얻었습니다. 어쨌든, 희소 전문가(sparse experts)의 가중치(모델 크기의 대부분)는 일반적으로 PMem/DRAM에 상주하며 필요에 따라 그곳에서 처리됩니다.
이 설정을 통한 제 테스트의 최종 결과는 생성 시 초당 약 4개의 토큰입니다! 이렇게 제한된 하드웨어 예산으로 1조 개의 파라미터를 가진 프런티어급 (frontier-class) 모델을 실행하고 있다는 점을 고려하면, 저는 이를 큰 성공이라고 생각합니다. Intel이 Optane Persistent Memory를 단종시킨 것은 아쉬운 일입니다. SSD 오프로딩 (offloading) 및 더 광범위한 메모리 티어링 (memory tiering) 접근 방식을 포함한 일부 로컬 추론 (local inference) 혁신의 현재 방향은, 현대적인 하드웨어 플랫폼에서 이러한 특정한 종류의 메모리 계층을 활용했다면 정말 흥미로웠을 것이기 때문입니다. 전반적으로 저는 이 Optane PMem 중심의 빌드에 만족했습니다. 이 빌드는 매우 큰 모델을 놀라울 정도로 수용 가능한 속도로 실행할 수 있게 해주었으며, 과정 또한 매우 교육적이었습니다.
부품:
-
Intel Xeon Gold 6246 CPU
-
TYAN S5630GMRE-CGN 메인보드
-
ASUS Dual GeForce RTX 3060 OC 12GB GPU
-
6x 32GB Samsung 2666MHz DDR4 ECC DRAM 스틱
-
6x 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS persistent memory 모듈
-
Western Digital WD SN850X 2TB M.2 2280 NVMe SSD
-
ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics PLATINUM Full Modular 파워 서플라이
-
Silverstone SST-GD08B (Black) Grandia Series 홈 시어터 PC 케이스
이 요약이 즐거우셨기를 바랍니다. 여기에 포함하지 못한 더 많은 세부 사항이 있으므로, 빌드, 구성 또는 부품 선택의 근거에 대한 질문이 있다면 댓글로 기꺼이 답변해 드리겠습니다. 또한, 다른 분들 중에서도 LLM 추론을 위해 이와 유사하게 특이한 하드웨어/빌드를 탐구해 보신 분이 있다면 함께 논의하고 싶습니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기