Google Cloud C4, Intel Xeon 6 및 Hugging Face 와의 GPT OSS TCO 개선
요약
본 기술 기사는 Google Cloud의 최신 C4 VM 인스턴스와 Intel Xeon 6 프로세서(Granite Rapids)를 활용하여 GPT OSS와 같은 MoE 기반 LLM의 추론 성능을 벤치마킹한 결과를 다룹니다. 그 결과, 이전 세대 C3 VM 대비 총 소유 비용(TCO) 및 처리량(Throughput) 측면에서 최대 1.7배의 개선이 입증되었습니다. 특히 Intel과 Hugging Face가 협력하여 전문가 실행 최적화 기능을 구현함으로써 FLOPs 낭비를 제거하고 효율성을 크게 높인 것이 핵심 성공 요인입니다.
핵심 포인트
- C4 VM (Intel Xeon 6)은 C3 VM 대비 LLM 추론 성능 및 TCO 측면에서 최대 1.7배의 개선을 제공합니다.
- MoE(Mixture of Experts) 모델은 전체 파라미터 크기에 비해 활성화되는 전문가가 적어 CPU 추론이 가능하며, 효율적인 확장성을 가집니다.
- Intel과 Hugging Face는 전문가 실행 최적화 기능을 통합하여 불필요한 계산을 제거하고 LLM의 전반적인 효율성을 높였습니다.
- 벤치마킹은 고정된 시퀀스 길이와 배치 크기 증가에 초점을 맞추어 안정 상태 디코딩 및 엔드 투 엔드 처리량을 측정했습니다.
C4
Intel® Xeon® 6 프로세서 (코드명: Granite Rapids (GNR)) 에서 실행되는 가상 머신 (VM). 우리는 OpenAI GPT OSS 대형 언어 모델 (LLM) 의 텍스트 생성 성능 개선을 벤치마킹하고 싶었습니다.
결과가 나왔고, 이전 세대 Google C3 VM 인스턴스 대비 총 소유 비용 (TCO) 에서 1.7 배 개선이 입증되었습니다. Google Cloud C4 VM 인스턴스는 다음과 같은 결과를 더 달성했습니다:
- 1.4 배에서 1.7 배의 TPOT throughput/vCPU/달러
C3VM 보다 시간당 낮은 가격
GPT OSS 는 OpenAI 에서 공개한 오픈 소스 혼합 전문가 (MoE) 모델의 일반적인 이름입니다. MoE 모델은 특정 "전문가" 서브 네트워크와 "게이트 네트워크" 를 사용하여 입력에 대해 어떤 전문가를 사용할지 결정하는 심층 신경망 아키텍처입니다. MoE 모델은 컴퓨트 비용을 선형적으로 확장하지 않고 모델 용량을 효율적으로 확장할 수 있게 합니다. 또한, 서로 다른 "전문가" 가 다양한 기술을 학습하여 다양한 데이터 분포에 적응할 수 있는 전문화 (specialization) 를 가능하게 합니다.
매우 큰 파라미터를 가지고 있음에도 불구하고, 토큰 당 활성화되는 전문가의 소수 subset 만 사용되므로 CPU 추론이 가능합니다.
Intel 과 Hugging Face 는 각 전문가가 모든 토큰을 처리하는 경우 불필요한 계산을 제거하기 위해 전문가 실행 최적화 (PR #40304) 를 병합했습니다. 이 최적화는 각 전문가를 라우팅된 토큰에서만 실행하도록 지시하여 FLOPs 낭비를 제거하고 효율성을 개선했습니다.
우리는 GPT OSS 를 제어 가능한, 반복 가능한 생성 작업 하에서 벤치마킹하여 아키텍처 차이 (GCP C4 VMs on Intel Xeon 6 프로세서 (GNR) vs GCP C3 VMs on 4th Gen Intel Xeon Processors (SPR)) 와 MoE 실행 효율성을 분리했습니다. 초점인 것은 고정된 시퀀스 길이로 배치 크기를 증가시키면서 안정 상태 디코딩 (per-token latency) 과 엔드 투 엔드 정규화된 throughput 입니다. 모든 실행은 결정성을 위해 정적 KV cache 와 SDPA attention 을 사용합니다.
-
모델: unsloth/gpt-oss-120b-BF16
-
정밀도: bfloat16
-
작업: 텍스트 생성
-
입력 길이: 1024 토큰 (왼쪽 패딩)
-
출력 길이: 1024 토큰
-
배치 크기: 1, 2, 4, 8, 16, 32, 64
-
활성화된 기능:
-
정적 KV cache
-
SDPA attention 백엔드
-
보고된 지표:
-
Throughput (배치 전체에 걸쳐 집계된 총 생성 토큰 수/초)
| 인스턴스 | 아키텍처 | vCPUs |
|---|---|---|
C3 | ||
| 4th Gen Intel Xeon 프로세서 (SPR) | 172 | |
C4 | ||
| Intel Xeon 6 프로세서 (GNR) | 144 |
Google Cloud Console 을 방문하고 프로젝트 하에 create a VM 을 클릭하세요. 아래 단계를 따라 176 vCPU 인스턴스를 생성하세요.
Machine configuration에서C3를 선택하고 Machine type 을c3-standard-176으로 지정합니다. 또한CPU platform을 설정하고 성능을 더 안정적으로 만들기 위해all-core turbo를 켜야 합니다:- OS 와 storage 탭을 아래로 구성하세요:
- 다른 설정은 기본값으로 유지하세요.
Create버튼을 클릭하세요.
Google Cloud Console 을 방문하고 프로젝트 하에 create a VM 을 클릭하세요. 아래 단계를 따라 144 vCPU 인스턴스를 생성하세요.
Machine configuration탭에서C4를 선택하고 Machine type 을c4-standard-144로 지정합니다. 성능을 더 안정적으로 만들기 위해CPU platform을 설정하고 all-core turbo 를 켤 수 있습니다:- OS 와 storage 탭을 C3 에 필요한 대로 구성하세요.
- 다른 설정은 기본값으로 유지하세요.
Create버튼을 클릭하세요.
SSH 로 인스턴스를 로그인한 후 docker 를 설치합니다. 환경을 설정하기 위해 아래 단계를 따르세요. 재현성을 위해 명령어에서 사용하는 버전과 커밋을 나열합니다.
$ git clone https://github.com/huggingface/transformers.git
$ cd transformers/
$ git checkout 26b65fb5168f324277b85c558ef8209bfceae1fe
$ cd docker/transformers-intel-cpu/
$ sudo docker build . -t <your_docker_image_tag>
$ sudo docker run -it --rm --privileged -v /home/<your_home_folder>:/workspace <your_docker_image_tag> /bin/bash
이제 컨테이너에 있으므로 다음 단계를 수행하세요.
$ pip install git+https://github.com/huggingface/transformers.git@26b65fb5168f324277b85c558ef8209bfceae1fe
$ pip install torch==2.8.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu
각 배치 크기 (batch size) 에 대해
- 고정 길이 1024 토큰 왼쪽 패딩된 배치 구축.
- 단일 warm-up 라운드 실행.
max_new_tokens=1024설정
및 총 지연 시간 측정 후 .
Run numactl -l python benchmark.py
다음 코드에 대해 수행하세요.
import os
import time
import torch
...
배치 크기 64 까지 Intel Xeon 6 프로세서 기반 C4 VM 은
C3 VM 보다
1.4x 에서 1.7× vCPU당 throughput 으로 일관되게 우월합니다. 공식은:
배치 크기 64 에서, C4 는
C3 의
vCPU 당 throughput 의 1.7 배를 제공합니다. vCPU 당 가격 (시간당 비용이 vCPU 개수에 선형적으로 비례) 은 거의 동일하므로, 이는 TCO(총 소유 비용) 우위 1.7 배를 의미합니다 (C3 는 동일한 생성 토큰 볼륨을 위해 1.7 배의 지출이 필요함).
vCPU당 throughput 비율:
Google Cloud C4 VM 은 Intel Xeon 6 프로세서 (GNR) 로 구동되며, 이전 세대 Google Cloud C3 VM(4 세기 Intel Xeon 프로세서 구동) 에 비해 인상적인 성능 향상과 더 나은 비용 효율성을 제공합니다. GPT OSS MoE 추론에서 우리는 높은 combined throughput, 낮은 지연 시간, 그리고 감소된 비용을 관찰했습니다. 이러한 결과는 Intel 와 Hugging Face 의 타겟ted 프레임워크 최적화에 감사하여 대규모 MoE 모델이 차세대 일반 목적 CPU 에서 효율적으로 서비스될 수 있음을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기