Qwen3.6 27b 모델의 추론 속도는 어느 정도인가요?

요약

본 기술 기사는 Qwen3.6 27B 모델을 특정 하드웨어 구성(RTX 2060 Super, RTX 5060 Ti)과 llama.cpp 환경에서 구동했을 때의 추론 속도(13 토큰/초)를 공유하고 있습니다. 이 설정은 Q8_0 정밀도를 사용하며, 컨텍스트 윈도우는 128,000입니다. 작성자는 해당 성능이 적절한 수준인지에 대한 검토를 요청하고 있습니다.

핵심 포인트

Qwen3.6 27B 모델의 추론 속도는 Q8_0 정밀도로 약 13 토큰/초(tps)로 측정되었습니다.
사용된 하드웨어는 RTX 2060 Super와 RTX 5060 Ti 두 개를 포함한 총 3개의 GPU입니다.
모델은 llama.cpp 프레임워크를 통해 실행되었으며, 컨텍스트 윈도우 크기는 128,000으로 설정되었습니다.
작성자는 제시된 추론 속도가 일반적인 기대치에 부합하는지 검토가 필요합니다.

~13 토크/초 (tps) 의 속도를 Q8_0 정밀도로 얻고 있습니다. 컨텍스트 윈도우는 128,000이며, K와 V 캐시 모두 Q8_0을 사용하고 있습니다.

이 설정은 3 개의 GPU(1 개: RTX 2060 Super 8GB, 2 개: RTX 5060 Ti 16GB) 를 사용하여 llamacpp 를 통해 실행되었습니다.

이 속도가 느린 것인지, 아니면 예상되는 수준인지 확실하지 않습니다.

*/llama-server --port 8080 --model */llama.cpp/Qwen3.6-27B-Q8_0/Qwen3.6-27B-Q8_0.gguf -mm */Qwen3.6-27B-Q8_0/mmproj-BF16.gguf -np 1 --temperature 1.0 --top-p 0.95 --top-k 20 --min-p 0.0 --presence-penalty 1.5 --repeat-penalty 1.0 --chat-template-kwargs '{

AI 자동 생성 콘텐츠

원문 바로가기

Qwen3.6 27b 모델의 추론 속도는 어느 정도인가요?

요약

핵심 포인트

댓글