HuggingFace헤드라인2026. 05. 07. 01:21

Google Cloud C4, Intel Xeon 6 및 Hugging Face 와의 GPT OSS TCO 개선

요약

본 기술 기사는 Google Cloud의 최신 C4 VM 인스턴스와 Intel Xeon 6 프로세서(Granite Rapids)를 활용하여 GPT OSS와 같은 MoE 기반 LLM의 추론 성능을 벤치마킹한 결과를 다룹니다. 그 결과, 이전 세대 C3 VM 대비 총 소유 비용(TCO) 및 처리량(Throughput) 측면에서 최대 1.7배의 개선이 입증되었습니다. 특히 Intel과 Hugging Face가 협력하여 전문가 실행 최적화 기능을 구현함으로써 FLOPs 낭비를 제거하고 효율성을 크게 높인 것이 핵심 성공 요인입니다.

핵심 포인트

C4 VM (Intel Xeon 6)은 C3 VM 대비 LLM 추론 성능 및 TCO 측면에서 최대 1.7배의 개선을 제공합니다.
MoE(Mixture of Experts) 모델은 전체 파라미터 크기에 비해 활성화되는 전문가가 적어 CPU 추론이 가능하며, 효율적인 확장성을 가집니다.
Intel과 Hugging Face는 전문가 실행 최적화 기능을 통합하여 불필요한 계산을 제거하고 LLM의 전반적인 효율성을 높였습니다.
벤치마킹은 고정된 시퀀스 길이와 배치 크기 증가에 초점을 맞추어 안정 상태 디코딩 및 엔드 투 엔드 처리량을 측정했습니다.

Intel® Xeon® 6 프로세서 (코드명: Granite Rapids (GNR)) 에서 실행되는 가상 머신 (VM). 우리는 OpenAI GPT OSS 대형 언어 모델 (LLM) 의 텍스트 생성 성능 개선을 벤치마킹하고 싶었습니다.

결과가 나왔고, 이전 세대 Google C3 VM 인스턴스 대비 총 소유 비용 (TCO) 에서 1.7 배 개선이 입증되었습니다. Google Cloud C4 VM 인스턴스는 다음과 같은 결과를 더 달성했습니다:

1.4 배에서 1.7 배의 TPOT throughput/vCPU/달러
C3 VM 보다 시간당 낮은 가격

GPT OSS 는 OpenAI 에서 공개한 오픈 소스 혼합 전문가 (MoE) 모델의 일반적인 이름입니다. MoE 모델은 특정 "전문가" 서브 네트워크와 "게이트 네트워크" 를 사용하여 입력에 대해 어떤 전문가를 사용할지 결정하는 심층 신경망 아키텍처입니다. MoE 모델은 컴퓨트 비용을 선형적으로 확장하지 않고 모델 용량을 효율적으로 확장할 수 있게 합니다. 또한, 서로 다른 "전문가" 가 다양한 기술을 학습하여 다양한 데이터 분포에 적응할 수 있는 전문화 (specialization) 를 가능하게 합니다.

매우 큰 파라미터를 가지고 있음에도 불구하고, 토큰 당 활성화되는 전문가의 소수 subset 만 사용되므로 CPU 추론이 가능합니다.

Intel 과 Hugging Face 는 각 전문가가 모든 토큰을 처리하는 경우 불필요한 계산을 제거하기 위해 전문가 실행 최적화 (PR #40304) 를 병합했습니다. 이 최적화는 각 전문가를 라우팅된 토큰에서만 실행하도록 지시하여 FLOPs 낭비를 제거하고 효율성을 개선했습니다.

우리는 GPT OSS 를 제어 가능한, 반복 가능한 생성 작업 하에서 벤치마킹하여 아키텍처 차이 (GCP C4 VMs on Intel Xeon 6 프로세서 (GNR) vs GCP C3 VMs on 4th Gen Intel Xeon Processors (SPR)) 와 MoE 실행 효율성을 분리했습니다. 초점인 것은 고정된 시퀀스 길이로 배치 크기를 증가시키면서 안정 상태 디코딩 (per-token latency) 과 엔드 투 엔드 정규화된 throughput 입니다. 모든 실행은 결정성을 위해 정적 KV cache 와 SDPA attention 을 사용합니다.

모델: unsloth/gpt-oss-120b-BF16
정밀도: bfloat16
작업: 텍스트 생성
입력 길이: 1024 토큰 (왼쪽 패딩)
출력 길이: 1024 토큰
배치 크기: 1, 2, 4, 8, 16, 32, 64
활성화된 기능:
정적 KV cache
SDPA attention 백엔드
보고된 지표:
Throughput (배치 전체에 걸쳐 집계된 총 생성 토큰 수/초)

인스턴스	아키텍처	vCPUs
`C3`
4th Gen Intel Xeon 프로세서 (SPR)	172
`C4`
Intel Xeon 6 프로세서 (GNR)	144

Google Cloud Console 을 방문하고 프로젝트 하에 create a VM 을 클릭하세요. 아래 단계를 따라 176 vCPU 인스턴스를 생성하세요.

Machine configuration 에서 C3 를 선택하고 Machine type 을 c3-standard-176 으로 지정합니다. 또한 CPU platform 을 설정하고 성능을 더 안정적으로 만들기 위해 all-core turbo 를 켜야 합니다:
OS 와 storage 탭을 아래로 구성하세요:
다른 설정은 기본값으로 유지하세요.
Create 버튼을 클릭하세요.

Google Cloud Console 을 방문하고 프로젝트 하에 create a VM 을 클릭하세요. 아래 단계를 따라 144 vCPU 인스턴스를 생성하세요.

Machine configuration 탭에서 C4 를 선택하고 Machine type 을 c4-standard-144 로 지정합니다. 성능을 더 안정적으로 만들기 위해 CPU platform 을 설정하고 all-core turbo 를 켤 수 있습니다:
OS 와 storage 탭을 C3 에 필요한 대로 구성하세요.
다른 설정은 기본값으로 유지하세요.
Create 버튼을 클릭하세요.

SSH 로 인스턴스를 로그인한 후 docker 를 설치합니다. 환경을 설정하기 위해 아래 단계를 따르세요. 재현성을 위해 명령어에서 사용하는 버전과 커밋을 나열합니다.

$ git clone https://github.com/huggingface/transformers.git

$ cd transformers/

$ git checkout 26b65fb5168f324277b85c558ef8209bfceae1fe

$ cd docker/transformers-intel-cpu/

$ sudo docker build . -t <your_docker_image_tag>

$ sudo docker run -it --rm --privileged -v /home/<your_home_folder>:/workspace <your_docker_image_tag> /bin/bash

이제 컨테이너에 있으므로 다음 단계를 수행하세요.

$ pip install git+https://github.com/huggingface/transformers.git@26b65fb5168f324277b85c558ef8209bfceae1fe

$ pip install torch==2.8.0 torchvision torchaudio --index-url https://download.pytorch.org/whl/cpu

각 배치 크기 (batch size) 에 대해

고정 길이 1024 토큰 왼쪽 패딩된 배치 구축.
단일 warm-up 라운드 실행.
max_new_tokens=1024 설정

및 총 지연 시간 측정 후 .

Run numactl -l python benchmark.py

다음 코드에 대해 수행하세요.

import os
import time
import torch
...

배치 크기 64 까지 Intel Xeon 6 프로세서 기반 C4 VM 은

C3 VM 보다

1.4x 에서 1.7× vCPU당 throughput 으로 일관되게 우월합니다. 공식은:

배치 크기 64 에서, C4 는

C3 의

vCPU 당 throughput 의 1.7 배를 제공합니다. vCPU 당 가격 (시간당 비용이 vCPU 개수에 선형적으로 비례) 은 거의 동일하므로, 이는 TCO(총 소유 비용) 우위 1.7 배를 의미합니다 (C3 는 동일한 생성 토큰 볼륨을 위해 1.7 배의 지출이 필요함).

vCPU당 throughput 비율:

Google Cloud C4 VM 은 Intel Xeon 6 프로세서 (GNR) 로 구동되며, 이전 세대 Google Cloud C3 VM(4 세기 Intel Xeon 프로세서 구동) 에 비해 인상적인 성능 향상과 더 나은 비용 효율성을 제공합니다. GPT OSS MoE 추론에서 우리는 높은 combined throughput, 낮은 지연 시간, 그리고 감소된 비용을 관찰했습니다. 이러한 결과는 Intel 와 Hugging Face 의 타겟ted 프레임워크 최적화에 감사하여 대규모 MoE 모델이 차세대 일반 목적 CPU 에서 효율적으로 서비스될 수 있음을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Google Cloud C4, Intel Xeon 6 및 Hugging Face 와의 GPT OSS TCO 개선

요약

핵심 포인트

댓글