8개의 GPU만으로 충분한 경우

요약 (TL;DR): 4개의 GPU는 대부분의 70B-200B 규모 프로덕션 추론 (Inference) 요구사항을 충족합니다. 8개의 GPU는 더 큰 모델과 중복성 (Redundancy)을 처리할 수 있습니다. 멀티 노드 클러스터 (Multi-node cluster)는 처음부터 사전 학습 (Pre-training)을 수행하거나 하이퍼스케일 (Hyperscale) 수준으로 서비스를 제공할 때만 필요합니다.

제가 대화하는 대부분의 AI 팀들은 동일한 방식으로 시작합니다. 하이퍼스케일러 (Hyperscalers)들이 무엇을 판매하는지 보고, 자신들에게 클러스터가 필요하다고 가정합니다. 그 결과, 완전히 사용하지도 못할 컴퓨팅 자원에 과도한 비용을 지출하거나, 첫 서버의 사양을 너무 낮게 설정하여 3개월 만에 한계에 부딪힙니다.

그 한계는 항상 동일합니다. 모델은 커지고, 지연 시간 (Latency)은 늘어납니다. 팀은 처음에 시작했던 단일 GPU가 프로덕션 사양이 아닌 개념 증명 (Proof of Concept) 용도였다는 사실을 깨닫게 됩니다. 프로젝트 중간에, 예산 중간에, 모든 것을 재검토해야 하는 상황에 놓입니다.

대부분의 추론 (Inference) 워크로드의 경우, 4개에서 8개의 전용 GPU가 수학적으로 적합한 지점입니다.

여기에 적합한 워크로드

**AI 기반 검색 플랫폼 (AI-based search platforms)**이 가장 명확한 사례입니다. LLM을 검색 제품에 임베딩 (Embedding)하고 있다면, 70B에서 200B 파라미터 (Parameter) 범위의 모델을 사용하여 낮은 지연 시간으로 지속적인 쿼리를 처리하고 있을 것입니다. 해당 워크로드에는 메모리 대역폭 (Memory bandwidth)과 일관성이 필요합니다. 4개 또는 8개의 H200 NVLink 서버는 모델 전체를 VRAM에 유지하고, GPU 간 통신을 PCIe 버스에서 분리하며, 주변에서 다른 작업이 실행되더라도 예측 가능한 지연 시간을 제공합니다.

**AI 미디어 분석 (AI media analytics)**도 동일한 특성을 가집니다. 비디오 메타데이터를 처리하고, 멀티모달 추론 (Multimodal inference) 파이프라인을 실행하며, 대규모로 콘텐츠를 분류합니다. 이는 24시간 내내 실행되는 지속적인 처리량 (Throughput) 워크로드입니다. 이러한 파이프라인이 간헐적이지 않고 지속적으로 실행되기 시작하면, 전용 하드웨어의 경제성이 클라우드보다 우수해집니다.

중복성을 갖춘 이중 데이터 센터 (Redundant dual DC) 설정은 대부분의 팀이 생각하는 것보다 더 이른 단계에서 고려 대상이 됩니다. 두 개의 EU 데이터 센터에 걸쳐 두 대의 4x GPU 서버를 배치하면 지리적 중복성을 갖춘 액티브-액티브 (Active-active) 추론이 가능합니다. 가동 시간 (Uptime) 요구사항이나 데이터 거주성 (Data residency) 의무가 있는 팀에게 이 아키텍처는 지정된 EU 위치에 데이터를 유지하면서도 단일 대형 클러스터보다 운영하기가 더 간단합니다.

왜 전용 방식이 계산을 바꾸는가

공유 클라우드 인프라(shared cloud infrastructure)에서는 부하가 걸릴 때 GPU 메모리 대역폭(memory bandwidth)이 저하됩니다. 귀하의 워크로드(workload)는 해당 물리적 노드(physical node)에서 실행되는 다른 모든 작업과 경쟁하게 됩니다. 첫 번째 토큰 생성 시간(time-to-first-token)과 초당 토큰 수(tokens-per-second)가 제품의 속도나 품질을 결정하는 추론(inference) 단계에서는 이러한 예측 불가능성이 문제를 더욱 심화시킵니다.

전용 베어메탈(dedicated bare metal) 환경에서는 다음과 같습니다:

사양	세부 사항
메모리 대역폭 (Memory bandwidth)	H200은 4.8 TB/s의 HBM3e 메모리 대역폭을 제공합니다
...

EU 데이터 거주성(data residency) 요건이 있는 팀의 경우, EU 데이터 센터의 전용 인프라를 사용하면 학습 데이터와 추론 로그(inference logs)를 컴플라이언스(compliance) 팀이 요구하는 위치에 그대로 유지할 수 있습니다.

4개에서 시작하여 8개로 확장하기

처음부터 8개로 시작할 필요는 없습니다. 70B에서 200B 규모의 모델의 경우, 4개의 H200 NVLink 서버만으로도 대부분의 프로덕션 추론(production inference) 요구 사항을 충족할 수 있습니다. FP8 양자화(quantization)와 세심한 샤딩(sharding)을 적용하면, 동일한 구성으로도 적절한 동시성(concurrency) 하에서 405B급 워크로드를 처리할 수 있습니다. 이를 통해 인프라를 확장하기 전에 서빙 스택(serving stack)을 검증할 수 있는 여유를 가질 수 있습니다.

DL385 Gen11은 최대 8개의 GPU 구성까지 지원하므로, 첫날부터 슬롯과 전력 여유분(headroom)을 계획하는 팀은 섀시(chassis) 교체 없이 동일한 서버에서 4개에서 8개로 확장할 수 있습니다.

GPU	적합한 용도
H200 NVLink	70B ~ 405B 모델, 프로덕션 추론, 메모리 집약적 워크로드
...

더 많은 자원이 필요한 경우

프런티어 모델(frontier model)을 처음부터 사전 학습(pre-training)하려면 8개 이상의 GPU가 필요합니다. 이 경우 멀티 노드 클러스터(multi-node cluster)에 대한 논의가 실질적으로 필요하며, 상호 연결(interconnect) 요구 사항도 달라집니다.

수많은 모델 변체(model variants)에 대해 매일 수억 건의 요청을 처리하는 진정한 하이퍼스케일 추론(hyperscale inference)은 단일 서버의 범위를 넘어섭니다.

새로운 AI 제품을 구축하는 대부분의 팀은 다른 단계에 있습니다. 즉, 지연 시간(latency) 목표를 증명하고, 프로덕션 환경에서 모델을 검증하며, 추론 스택을 올바르게 구축하는 단계입니다. 이러한 작업은 4개에서 8개의 전용 GPU로 충분히 수행할 수 있습니다.

적절한 구성은 사용자의 모델, 목표 정밀도 (precision target), 그리고 동시성 요구 사항 (concurrency requirements)에 따라 달라집니다. 만약 EU 기반의 배포를 사양화하고 있다면, 여기서부터 시작하세요: Leaseweb GPU Servers

면책 조항: 저는 Leaseweb의 인프라 팀 소속입니다. EU 현지 기업이며 네덜란드 소유입니다.

8개의 GPU만으로 충분한 경우

요약

핵심 포인트

여기에 적합한 워크로드

왜 전용 방식이 계산을 바꾸는가

4개에서 시작하여 8개로 확장하기

더 많은 자원이 필요한 경우

댓글