r/LocalLLaMA분석2026. 05. 25. 16:52

V100을 사용한 Qwen3.6 27B 모델의 1000 TPS 생성 성능

원문 발행 2026. 05. 25. 13:42원문 언어 영어AI 한국어 번역r/LocalLLaMA 원문 보기

요약

NVIDIA V100 GPU 환경에서 Qwen3.6 27B 모델의 생성 성능을 테스트한 결과입니다. 단일 사용자 기준 생성 속도 80t/s, 처리 속도 3000t/s라는 높은 성능을 기록했습니다.

핵심 포인트

V100 GPU 기반 Qwen3.6 27B 모델 성능 측정
단일 사용자 기준 생성 속도 약 80t/s 달성
처리(Processing) 속도 3000t/s 기록
MTP 미사용 조건에서의 벤치마크 결과

이 설정에서 생성 (generation) 성능의 절대적인 최상의 시나리오가 무엇인지 확인하고 싶었는데, 결과는 실망스럽지 않았습니다. 128개의 동시 요청 (concurrent requests)은 현재 제가 필요한 수준과는 매우 거리가 멀지만, 이렇게 큰 숫자를 보는 것은 즐거운 일이네요. 단일 사용자 (배치 1, 128이 아님)의 경우, MTP (Multi-Token Prediction) 없이도 생성 속도는 약 80t/s, 처리 (processing) 속도는 3000 t/s를 기록했습니다!

AI 자동 생성 콘텐츠

원문 바로가기

Insights

V100을 사용한 Qwen3.6 27B 모델의 1000 TPS 생성 성능

요약

핵심 포인트

댓글

서비스 메시를 위한 Consul vs Overlay Network: 결정을 좌우하는 가설

이번 주의 AI: 안전성 확보를 위한 분투와 현실 점검 (2026년 7월 28일~8월 3일)

Wayland 배경 흐림(Background Blur) 및 프레임 스케줄링(Frame Scheduling) 개선을 포함한 GNOME

AI Agent로 코딩과 작업 수행 시 반복되는 실수 방지하기