본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 25. 16:52

V100을 사용한 Qwen3.6 27B 모델의 1000 TPS 생성 성능

요약

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델의 생성 성능을 테스트한 결과입니다. 단일 사용자 기준 생성 속도 80t/s, 처리 속도 3000t/s라는 높은 성능을 기록했습니다.

핵심 포인트

  • V100 GPU 기반 Qwen3.6 27B 모델 성능 측정
  • 단일 사용자 기준 생성 속도 약 80t/s 달성
  • 처리(Processing) 속도 3000t/s 기록
  • MTP 미사용 조건에서의 벤치마크 결과

이 설정에서 생성 (generation) 성능의 절대적인 최상의 시나리오가 무엇인지 확인하고 싶었는데, 결과는 실망스럽지 않았습니다. 128개의 동시 요청 (concurrent requests)은 현재 제가 필요한 수준과는 매우 거리가 멀지만, 이렇게 큰 숫자를 보는 것은 즐거운 일이네요. 단일 사용자 (배치 1, 128이 아님)의 경우, MTP (Multi-Token Prediction) 없이도 생성 속도는 약 80t/s, 처리 (processing) 속도는 3000 t/s를 기록했습니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0