LLM 서버 구축 완료: EPYC 9575F, RTX 3090 4개 (96GB VRAM), 768GB ECC RAM
요약
AMD EPYC 9575F와 4개의 RTX 3090을 탑재한 고성능 LLM 추론 서버 구축 사례를 소개합니다. vLLM과 llama.cpp를 활용하여 게임 개발을 위한 AI NPC 시스템을 운영할 계획입니다.
핵심 포인트
- AMD EPYC 9575F 및 768GB ECC RAM 기반의 강력한 서버 사양
- RTX 3090 4개를 활용한 총 96GB VRAM 확보
- vLLM과 llama.cpp를 통한 모델 추론 최적화 계획
- 중고 및 그레이 마켓 부품 활용을 통한 비용 효율적 빌드
시간이 좀 걸렸지만, Nalthis가 마침내 조립 및 가동되었습니다.
사양:
Supermicro H13SSL-N
AMD EPYC 9575F (64C/128T Zen 5)
768GB DDR5-5600 ECC RDIMM
4× RTX 3090 (총 96GB VRAM)
1× 2TB NVMe OS
2× 3.94TB NVMe 데이터
2050W ATX 3.1 PSU
Corsair 9000D
사용 계획:
vLLM - 처리량(throughput)이 높은 소형 모델용
llamacpp - 더 큰 추론(reasoning) 모델용
우주 시뮬레이션 게임을 제작 중인데, 드디어 NPC의 계획 수립 방식에 AI를 통합할 준비가 되었습니다. 많은 요청이 발생하는 상황에서 소형 모델들로부터 괜찮은 처리량을 얻기를 희망하고 있습니다.
원래 계획은 훨씬 더 많은 MCIO 라이저(riser)와 커스텀 마운팅이 필요했지만, 3090 두 개는 메인보드에 직접 장착하고 나머지 두 개는 전면에 장착할 수 있었습니다.
이 시스템은 주로 LLM 추론(inference)을 위한 것이므로, 네 개의 카드를 모두 250W로 전력 제한(power-limited)하여 구동할 계획입니다.
9000D 케이스는 4×3090 빌드에 놀라울 정도로 좋았습니다. 추가적인 공기 흐름을 위해 다음 팬 마운트도 사용했습니다:
https://www.thingiverse.com/thing:2804306
아직 열 테스트(thermal testing)를 마쳐야 하지만, 하드웨어 측면은 마침내 완료되었습니다.
클러스터 운영 책임자: 소파에서 지휘하는 Stannis
몇몇 분들이 이 빌드의 경제성에 대해 물어보셨습니다.
이 부품들 대부분은 가격이 크게 오르기 전인 1년 넘은 시점에 구매했습니다. 만약 제가 오늘 모든 것을 새로 산다면, 예산을 훨씬 초과할 것이기 때문에 아마 똑같은 사양으로 빌드하지는 않을 것입니다.
제가 지불한 일부 가격:
12× 64GB DDR5 ECC RDIMM: 개당 약 $325
3× RTX 3090: 개당 약 $650
EPYC 9575F: 약 $3,800
따라서 시스템이 저렴하지는 않았지만, 부품을 구매했을 당시에는 오늘 처음부터 빌드를 시작하는 것보다 훨씬 합리적이었습니다.
이 빌드의 큰 부분은 모든 것을 한꺼번에 조달하려 하기보다, 중고 및 그레이 마켓(grey markets)에서 기회가 생길 때마다 활용한 것이었습니다.
submitted by /u/C0smo777 to r/LocalLLaMA
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기