단일 GPU 시스템에서 768GB의 저렴한 Intel Optane DIMM 메모리 스틱을 사용하여 1조 파라미터 LLM 구동 — 로컬 Kimi

요약

한 사용자가 중고 Intel Optane PMem을 활용해 768GB의 대용량 메모리 시스템을 구축하여 1조 파라미터 규모의 Kimi K2.5 모델을 로컬에서 구동하는 데 성공했습니다. DRAM보다 느리지만 SSD보다 빠른 Optane의 특성을 이용해 저렴한 비용으로 대규모 모델 추론 환경을 구현했습니다.

핵심 포인트

Intel Optane PMem을 활용한 768GB 대용량 메모리 구성
1조 파라미터 Kimi K2.5 모델을 초당 약 4토큰 속도로 구동
llama.cpp의 하이브리드 GPU/CPU 추론 및 플래그 최적화 활용
DRAM 대비 저렴한 비용으로 대규모 LLM 로컬 실행 가능성 증명

한 레딧(Redditor) 사용자가 Optane PMem DIMM을 RAM으로 사용하는 워크스테이션 빌드를 통해 1조 파라미터(1-trillion-parameter) LLM을 구동하여 화제를 모으고 있습니다. APFrisco는 Local LLaMA 서브레딧에서 작성한 미니 튜토리얼/가이드를 통해, 중고로 비교적 저렴하게 구매한 Intel Optane Persistent Memory를 사용하여 자신의 Xeon 워크스테이션에서 "1조 파라미터 모델(이 경우 Kimi K2.5)을 초당 약 4토큰(tokens/second)의 속도로 로컬에서 구동"하는 방법을 설명했습니다.

Intel Optane Persistent Memory를 사용한 컴퓨터 빌드 - r/LocalLLaMA에서 초당 4토큰 이상의 속도로 1조 파라미터 모델 구동 가능

이 놀라운 성과의 핵심은 해당 사용자가 6개의 Optane PMem (DCPMM) 스틱을 확보한 데 있습니다. 단종된 이 메모리 규격은 DRAM과 SSD 사이의 간극을 메우기 위해 설계되었습니다. 768GB의 Optane (128GB x 6개)은 실제로 최고의 NVMe SSD보다 훨씬 낮은 지연 시간(latency)을 제공하지만, 여전히 DRAM보다는 2~3배 느립니다. 그럼에도 불구하고 이러한 특성은 LLM 추론(inference) 프레임워크에 상당히 매력적이며, 중고 가격은 "동등한 용량의 DRAM 비용보다 훨씬 저렴"했습니다. 하지만 안타깝게도 Optane은 단종되었기에, 이는 매우 이색적인 솔루션입니다.

APFrisco의 하드웨어 사양은 다음과 같습니다:

Intel Xeon Gold 6246 CPU
Tyan S5630GMRE-CGN 메인보드
Asus Dual GeForce RTX 3060 OC 12GB GPU
6x 32GB Samsung 2666MHz DDR4 ECC DRAM 스틱
6x 128GB Intel Optane DCPMM PC4-2666 NMA1XBD128GQS Persistent Memory 모듈
Western Digital WD SN850X 2TB M.2 2280 NVMe SSD
ASRock Steel Legend SL-850G 850W 80 PLUS GOLD & Cybenetics Platinum Fully Modular 파워 서플라이
Silverstone SST-GD08B (Black) Grandia Series Home Theater PC 케이스

이 빌드는 Optane을 메모리 모드(memory mode)로, Samsung DDR4를 캐시(cache)로 구성되었습니다.

소프트웨어 측면에서는 앞서 언급한 Kimi K2.5의 전문가 혼합(Mixture-of-Experts, MoE) 아키텍처에 의존했습니다. APFrisco는 llama.cpp를 사용하여 하이브리드 GPU/CPU 추론 방법론을 사용했습니다. 또한, 처리를 최적화하기 위해 llama.cpp의 'override-tensor' 플래그를 사용하여 라우팅(routing) 구성 요소를 12GB GPU에 억지로 밀어 넣었습니다.

해당 Reddit 사용자는 결과적으로 얻은 초당 약 4토큰(tokens per second)의 성능에 상당히 자부심을 느끼고 있습니다. APFrisco는 "이것이 이토록 제한적인 하드웨어 예산으로 실행되는 1조 파라미터 규모의 프런티어급 모델(frontier-class model)이라는 사실을 고려할 때, 저는 이를 큰 성공이라고 생각합니다"라고 적었습니다. 그는 이어 Intel의 Optane 제품군 철수에 대해 아쉬움을 표했습니다.

만약 이 장비 구성과 로컬 LLM 추론(inference) 측면에서 달성한 성과에 관심이 있다면, 원문 게시물에서 구성에 대한 더 자세한 세부 정보를 확인할 수 있습니다. 또한, APFrisco는 댓글창에 남아 질문에 답변하고 있습니다. 그는 자신이 구축한 기반을 바탕으로 더 나은 결과를 얻는 방법에 대한 권장 사항으로부터 도움을 받는 것으로 보입니다.

Tom's Hardware의 최고의 뉴스 및 심층 리뷰를 귀하의 편지함으로 직접 받아보세요.

하지만 더 큰 관점에서의 핵심은, 특히 LLM을 위해 DRAM과 SSD 사이의 간극을 메울 메모리 제품에 대한 공간이 존재한다는 점인 것 같습니다. 많은 이들은 이러한 종류의 워크로드(workload)를 위해 저렴하고 바이트 주소 지정이 가능한(byte-addressable) 거대한 메모리 풀을 약속하는 CXL (Compute Express Link) 표준에 의해 이 간극이 곧 메워질 것으로 기대하고 있습니다.

최신 뉴스, 분석 및 리뷰를 피드에서 받아보려면 Google 뉴스에서 Tom's Hardware를 팔로우하거나 즐겨찾는 소스로 추가하세요.

Mark Tyson은 Tom's Hardware의 뉴스 에디터입니다. 그는 비즈니스 및 반도체 설계부터 이성을 벗어난 경계에 있는 제품에 이르기까지 PC 기술의 전 범위를 다루는 것을 즐깁니다.

AI 자동 생성 콘텐츠

원문 바로가기