저가형 메인보드 기반 4x3090 + 192GB 구성으로 GLM5.2 @7tg 구동
요약
RTX 3090 4장과 192GB RAM을 활용하여 GLM5.2 등 대규모 모델을 구동할 수 있는 가성비 홈 랩 시스템 구축 사례를 소개합니다. 소비자용 하드웨어를 최적화하여 기업용 워크플로우 자동화를 위한 로컬 AI 환경을 구축하는 방법을 다룹니다.
핵심 포인트
- RTX 3090 4장과 192GB DDR5 RAM을 활용한 고성능 홈 랩 구축
- 전력 제한(200W) 및 RAM 오버클러킹을 통한 시스템 안정성 및 성능 최적화
- GLM5.2, MiniMax, Flux2Klein 등 다양한 AI 모델의 로컬 구동 환경 구성
- 서버급 하드웨어 대비 비용 효율적인 소비자용 GPU 기반 AI 인프라 구축
드디어 지난 5월부터 작업해 온 홈 랩 (home lab) 컴퓨터를 완성했습니다. 세 번의 지역 거래를 통해 신중하게 기다린 끝에 3090들을 구매했습니다. 판매자들은 모두 4090이나 5090으로 업그레이드하려는 게이머들이었으며, AI에는 전혀 관심이 없었습니다. 192GB의 5200MHz DDR5를 구매하여 5600MHz로 오버클러킹(overclocked)했습니다. Linux 환경에서 각 3090의 전력 제한(power capped)을 200W로 설정했습니다. eBay에서 구매한 Aegis 완제품 PC를 사용했으며, PSU(전원 공급 장치)를 1250W 플래티넘 등급으로 교체했습니다. CPU와 수랭 쿨링 루프(water cooling loop)는 그대로 유지했습니다. 이 시스템을 구축하는 데 아마 40시간과 6,000달러 정도를 소비했을 것이며, 제가 하고 싶은 작업에 완벽하다고 생각합니다.
저는 플래너(planner)로 GLM5.2를 7 tg로 실행합니다. 코더(coder)로는 MiniMax 2.7을 45tg로 모든 VRAM에서 실행합니다. 확산(diffusion) 모델로는 Flux2Klein을 사용하며, 카드 4장을 모두 사용했을 때의 처리량(throughput)은 아직 시도해보지 않았지만, 2장을 사용했을 때 배치(batch) 처리 시 약 6초당 1장의 이미지를 생성했습니다. 체커(checker) 및 테스트 루프 모델로는 Qwen3.6 27B를 q8로 50 tg에서 사용합니다.
소비자용 하드웨어를 유지하는 목적은 경제적인 이유 때문입니다. ECC RAM을 사용하는 서버라면 더 많은 채널을 통해 처리량을 두 배로 늘릴 수 있겠지만, RAM과 Threadripper의 가격은 거의 두 배에 달합니다.
저는 십여 개 이상의 기업을 위해 전방 배치 엔지니어(forward-deployed engineer)로서 기업용 자동화 워크플로우를 구축해 왔습니다. 저는 수년간 무언가를 자동화하는 것을 즐겨온 1인 개발자이며, 이제는 태양광 발전으로 로컬에서 이를 수행하는 것이 쉬워졌습니다. Claude나 OpenAI가 제 IP를 차단하더라도 더 이상 상관없을 것입니다. 업그레이드 경로는 거의 GPU를 업그레이드하는 것뿐입니다. 나중에 GLM 전용 서버를 구축할 수도 있겠지만, 지금은 데이터 센터에서 RTX6000 Pro를 쏟아내기 전까지는 이대로 충분합니다.
submitted by /u/Important_Quote_1180
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기