V100을 사용한 Qwen3.6 27B 모델의 1000 TPS 생성 성능
요약
NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델의 생성 성능을 테스트한 결과입니다. 단일 사용자 기준 생성 속도 80t/s, 처리 속도 3000t/s라는 높은 성능을 기록했습니다.
핵심 포인트
- V100 GPU 기반 Qwen3.6 27B 모델 성능 측정
- 단일 사용자 기준 생성 속도 약 80t/s 달성
- 처리(Processing) 속도 3000t/s 기록
- MTP 미사용 조건에서의 벤치마크 결과
이 설정에서 생성 (generation) 성능의 절대적인 최상의 시나리오가 무엇인지 확인하고 싶었는데, 결과는 실망스럽지 않았습니다. 128개의 동시 요청 (concurrent requests)은 현재 제가 필요한 수준과는 매우 거리가 멀지만, 이렇게 큰 숫자를 보는 것은 즐거운 일이네요. 단일 사용자 (배치 1, 128이 아님)의 경우, MTP (Multi-Token Prediction) 없이도 생성 속도는 약 80t/s, 처리 (processing) 속도는 3000 t/s를 기록했습니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기