Reddit요약2026. 05. 03. 12:51

H100 에서 Qwen 3.6 27B, Qwen 3.6 35B A3B 및 Gemma 4 모델의 Throughput 과 TTFT 비교

요약

본 기사는 단일 H100 GPU 환경에서 다양한 크기와 구조의 LLM(Qwen 3.6, Gemma 4 등)을 vLLM으로 테스트하고 Throughput과 TTFT를 비교 분석한 결과를 담고 있습니다. 주요 발견 사항으로는 소형 전문 모델인 Gemma 4 E2B-it가 압도적인 성능을 보여주었으며, FP8 양자화는 특히 MoE 구조에서 큰 속도 향상을 가져와 단순 메모리 절약 이상의 가치를 입증했습니다. 또한, 대규모 Dense 모델(Gemma 31B)은 높은 동시성 환경에서 성능 저하가 심각하여, 실시간 서비스에는 SLM이나 MoE 기반의 경량화된 아키텍처를 사용하는 것이 필수적임을 강조합니다.

핵심 포인트

소형 전문 모델(SLM)인 Gemma 4 E2B-it는 대규모 Dense 모델 대비 압도적인 Throughput과 낮은 TTFT를 보여주어 실시간 채팅 서비스에 가장 적합하다.
FP8 양자화는 특히 MoE 구조에서 메모리 절약 이상의 가치를 제공하며, H100 환경에서 속도를 크게 향상시킨다.
대규모 Dense 모델(예: Gemma 31B)은 높은 동시성 부하가 걸릴 경우 성능이 급격히 저하되므로, 실시간 서비스에는 MoE 또는 SLM을 사용해야 한다.
최적의 균형점은 FP8 양자화된 Qwen 3.6 35B-A3B로, 합리적인 지연 시간과 높은 처리량을 제공한다.

새로운 소형 및 중형 모델 중 실제로 단일 H100 에서 실행할 가치가 있는 모델을 파악하고 싶었기 때문에 8 가지 모델을 정식 vLLM 벤치마크를 통해 테스트하고 결과를 기록했습니다.

설치는 간단했습니다. 하나의 H100 80GB, vLLM 0.19.1, 내장된 vllm bench serve 도구, 실행당 100 개의 프롬프트, 입력 토큰 128 개, 출력 토큰 128 개를 사용했습니다. 각 모델을 4 가지 다른 동시성 수준 (동시에 1, 4, 8, 16 개의 요청) 에서 실행하고 두 가지 지표를 측정했습니다:

초당 토큰 수로 나타나는 Throughput: 요청이 흐르기 시작하면 GPU 가 전체적으로 생산할 수 있는 양을 알려줍니다.
밀리초 단위의 첫 번째 토큰까지의 시간 (TTFT): 사용자가 아무것도 나타나기 전에 기다리는 시간입니다. 이것이 채팅이 민첩하게 느껴지거나 느리게 느껴지게 만드는 요소입니다.

주요 발견 사항은 소형 Gemma 전문 모델이 압도적으로 우수하다는 것입니다. 16 개의 동시 사용자 환경에서 Gemma 4 E2B-it 는 3,180 TPS 를 기록한 반면, 동일한 GPU 에서 Gemma 4 31B dense 는 단 226 만 기록했습니다. 이는 크기의 1/15 에 불과한 모델이 약 14 배 더 높은 Throughput 을 낸 것입니다. TTFT 격차도 훨씬 컸습니다. 55 ms 대 4.1 초입니다. 즉각적으로 느껴지는 제품과 고장 난 것처럼 느껴지는 제품의 차이입니다.

FP8 양자화는 두 번째로 눈에 띄는 성과였습니다. FP8 의 Qwen 3.6 35B MoE 는 BF16 대비 73% 빠르고 TTFT 도 낮았습니다. Dense Qwen 27B 쌍은 FP8 에서 27% 만 개선되어 사람들이 일반적으로 기대하는 수준에 가깝습니다. MoE 는 전문적 가중치를 메모리를 통해 이동시키는 데 병목 현상이 발생하므로 FP8 이 그 트래픽을 절반으로 줄여주어 훨씬 더 많은 혜택을 봅니다. 따라서 FP8 은 이제 단순한 메모리 절약 수단이 아닙니다. H100 에서의 MoE 에서는 일반적인 사용 환경에서 실제 속도가 빨라지고 실질적인 단점은 없습니다.

알려져야 할 세 번째 사항은 Gemma 31B dense 가 단일 GPU 에서 부하가 걸리면 성능이 급격히 떨어진다ということです. 낮은 동시성에서는 문제없지만, 4 개 이상의 사용자 이후에는 지연 시간이 폭발적으로 증가합니다. 하나의 H100 에서 30B 급 모델을 서비스하려면 MoE 를 사용하세요. Dense 31B 는 배치 모델로 취급하세요.

현재 모델을 선택하려는 분들을 위해 제 의견을 정리하면 다음과 같습니다:

지연 시간에 민감한 채팅: Gemma 4 E2B-it. 다른 모델은 이에 버금가지 못합니다.
높은 Throughput 또는 배치 처리: Gemma 4 E2B-it, 더 많은 기능이 필요하면 E4B 로 업그레이드하세요.
품질과 속도의 가장 좋은 균형: FP8 의 Qwen 3.6 35B-A3B. 합리적인 지연 시간에서 약 1,200 tok/s 입니다.
피하기: Dense 27B 와 31B. 동일한 하드웨어에서 그들의 MoE 와 FP8 버전보다 밀리미터 (outclassed) 됩니다.

공개 사항: 전체 실험 환경, 평가 및 분석은 제 초기 작업 프롬프트를 기반으로 Neo AI Engineer 가 처음부터 끝까지 수행했으며, 이후 제가 수동으로 평가했습니다.

현재 지연 시간에 민감한 작업을 위해 배포 중인 SLM 은 무엇인지 공유해 주시겠습니까?

AI 자동 생성 콘텐츠

원문 바로가기

H100 에서 Qwen 3.6 27B, Qwen 3.6 35B A3B 및 Gemma 4 모델의 Throughput 과 TTFT 비교

요약

핵심 포인트

댓글