본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 07. 01:21

Google Cloud C4, Intel Xeon 6 및 Hugging Face 와의 GPT OSS TCO 개선

요약

본 기술 기사는 Google Cloud의 최신 C4 VM 인스턴스와 Intel Xeon 6 프로세서(Granite Rapids)를 활용하여 GPT OSS와 같은 MoE 기반 LLM의 추론 성능을 벤치마킹한 결과를 다룹니다. 그 결과, 이전 세대 C3 VM 대비 총 소유 비용(TCO) 및 처리량(Throughput) 측면에서 최대 1.7배의 개선이 입증되었습니다. 특히 Intel과 Hugging Face가 협력하여 전문가 실행 최적화 기능을 구현함으로써 FLOPs 낭비를 제거하고 효율성을 크게 높인 것이 핵심 성공 요인입니다.

핵심 포인트

  • C4 VM (Intel Xeon 6)은 C3 VM 대비 LLM 추론 성능 및 TCO 측면에서 최대 1.7배의 개선을 제공합니다.
  • MoE(Mixture of Experts) 모델은 전체 파라미터 크기에 비해 활성화되는 전문가가 적어 CPU 추론이 가능하며, 효율적인 확장성을 가집니다.
  • Intel과 Hugging Face는 전문가 실행 최적화 기능을 통합하여 불필요한 계산을 제거하고 LLM의 전반적인 효율성을 높였습니다.
  • 벤치마킹은 고정된 시퀀스 길이와 배치 크기 증가에 초점을 맞추어 안정 상태 디코딩 및 엔드 투 엔드 처리량을 측정했습니다.

C4

Intel® Xeon® 6 프로세서 (코드명: Granite Rapids (GNR)) 에서 실행되는 가상 머신 (VM). 우리는 OpenAI GPT OSS 대형 언어 모델 (LLM) 의 텍스트 생성 성능 개선을 벤치마킹하고 싶었습니다.

결과가 나왔고, 이전 세대 Google C3 VM 인스턴스 대비 총 소유 비용 (TCO) 에서 1.7 배 개선이 입증되었습니다. Google Cloud C4 VM 인스턴스는 다음과 같은 결과를 더 달성했습니다:

  • 1.4 배에서 1.7 배의 TPOT throughput/vCPU/달러
  • C3 VM 보다 시간당 낮은 가격

GPT OSS 는 OpenAI 에서 공개한 오픈 소스 혼합 전문가 (MoE) 모델의 일반적인 이름입니다. MoE 모델은 특정 "전문가" 서브 네트워크와 "게이트 네트워크" 를 사용하여 입력에 대해 어떤 전문가를 사용할지 결정하는 심층 신경망 아키텍처입니다. MoE 모델은 컴퓨트 비용을 선형적으로 확장하지 않고 모델 용량을 효율적으로 확장할 수 있게 합니다. 또한, 서로 다른 "전문가" 가 다양한 기술을 학습하여 다양한 데이터 분포에 적응할 수 있는 전문화 (specialization) 를 가능하게 합니다.

매우 큰 파라미터를 가지고 있음에도 불구하고, 토큰 당 활성화되는 전문가의 소수 subset 만 사용되므로 CPU 추론이 가능합니다.

Intel 과 Hugging Face 는 각 전문가가 모든 토큰을 처리하는 경우 불필요한 계산을 제거하기 위해 전문가 실행 최적화 (PR #40304) 를 병합했습니다. 이 최적화는 각 전문가를 라우팅된 토큰에서만 실행하도록 지시하여 FLOPs 낭비를 제거하고 효율성을 개선했습니다.

우리는 GPT OSS 를 제어 가능한, 반복 가능한 생성 작업 하에서 벤치마킹하여 아키텍처 차이 (GCP C4 VMs on Intel Xeon 6 프로세서 (GNR) vs GCP C3 VMs on 4th Gen Intel Xeon Processors (SPR)) 와 MoE 실행 효율성을 분리했습니다. 초점인 것은 고정된 시퀀스 길이로 배치 크기를 증가시키면서 안정 상태 디코딩 (per-token latency) 과 엔드 투 엔드 정규화된 throughput 입니다. 모든 실행은 결정성을 위해 정적 KV cache 와 SDPA attention 을 사용합니다.

  • 모델: unsloth/gpt-oss-120b-BF16

  • 정밀도: bfloat16

  • 작업: 텍스트 생성

  • 입력 길이: 1024 토큰 (왼쪽 패딩)

  • 출력 길이: 1024 토큰

  • 배치 크기: 1, 2, 4, 8, 16, 32, 64

  • 활성화된 기능:

  • 정적 KV cache

  • SDPA attention 백엔드

  • 보고된 지표:

  • Throughput (배치 전체에 걸쳐 집계된 총 생성 토큰 수/초)

인스턴스아키텍처vCPUs
C3
4th Gen Intel Xeon 프로세서 (SPR)172
C4
Intel Xeon 6 프로세서 (GNR)144

Google Cloud Console 을 방문하고 프로젝트 하에 create a VM 을 클릭하세요. 아래 단계를 따라 176 vCPU 인스턴스를 생성하세요.

  • Machine configuration 에서 C3 를 선택하고 Machine type 을 c3-standard-176 으로 지정합니다. 또한 CPU platform 을 설정하고 성능을 더 안정적으로 만들기 위해 all-core turbo 를 켜야 합니다:
  • OS 와 storage 탭을 아래로 구성하세요:
  • 다른 설정은 기본값으로 유지하세요.
  • Create 버튼을 클릭하세요.

Google Cloud Console 을 방문하고 프로젝트 하에 create a VM 을 클릭하세요. 아래 단계를 따라 144 vCPU 인스턴스를 생성하세요.

  • Machine configuration 탭에서 C4 를 선택하고 Machine type 을 c4-standard-144 로 지정합니다. 성능을 더 안정적으로 만들기 위해 CPU platform 을 설정하고 all-core turbo 를 켤 수 있습니다:
  • OS 와 storage 탭을 C3 에 필요한 대로 구성하세요.
  • 다른 설정은 기본값으로 유지하세요.
  • Create 버튼을 클릭하세요.

SSH 로 인스턴스를 로그인한 후 docker 를 설치합니다. 환경을 설정하기 위해 아래 단계를 따르세요. 재현성을 위해 명령어에서 사용하는 버전과 커밋을 나열합니다.

$ git clone https://github.com/huggingface/transformers.git

$ cd transformers/

$ git checkout 26b65fb5168f324277b85c558ef8209bfceae1fe

$ cd docker/transformers-intel-cpu/

$ sudo docker build . -t <your_docker_image_tag>

$ sudo docker run -it --rm --privileged -v /home/<your_home_folder>:/workspace <your_docker_image_tag> /bin/bash

이제 컨테이너에 있으므로 다음 단계를 수행하세요.

$ pip install git+https://github.com/huggingface/transformers.git@26b65fb5168f324277b85c558ef8209bfceae1fe

$ pip install torch==2.8.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

각 배치 크기 (batch size) 에 대해

  • 고정 길이 1024 토큰 왼쪽 패딩된 배치 구축.
  • 단일 warm-up 라운드 실행.
  • max_new_tokens=1024 설정

및 총 지연 시간 측정 후 .

Run numactl -l python benchmark.py

다음 코드에 대해 수행하세요.

import os
import time
import torch
...

배치 크기 64 까지 Intel Xeon 6 프로세서 기반 C4 VM 은

C3 VM 보다

1.4x 에서 1.7× vCPU당 throughput 으로 일관되게 우월합니다. 공식은:

배치 크기 64 에서, C4

C3

vCPU 당 throughput 의 1.7 배를 제공합니다. vCPU 당 가격 (시간당 비용이 vCPU 개수에 선형적으로 비례) 은 거의 동일하므로, 이는 TCO(총 소유 비용) 우위 1.7 배를 의미합니다 (C3 는 동일한 생성 토큰 볼륨을 위해 1.7 배의 지출이 필요함).

vCPU당 throughput 비율:

Google Cloud C4 VM 은 Intel Xeon 6 프로세서 (GNR) 로 구동되며, 이전 세대 Google Cloud C3 VM(4 세기 Intel Xeon 프로세서 구동) 에 비해 인상적인 성능 향상과 더 나은 비용 효율성을 제공합니다. GPT OSS MoE 추론에서 우리는 높은 combined throughput, 낮은 지연 시간, 그리고 감소된 비용을 관찰했습니다. 이러한 결과는 Intel 와 Hugging Face 의 타겟ted 프레임워크 최적화에 감사하여 대규모 MoE 모델이 차세대 일반 목적 CPU 에서 효율적으로 서비스될 수 있음을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0