Reddit요약2026. 05. 04. 17:15

Qwen 27B 로 Reddit 숫자 복제 불가: 3090TI 를 사용한 실험 결과 분석

요약

작성자는 3090 GPU 환경에서 Qwen 27B와 같은 대규모 언어 모델(LLM)의 추론 속도에 대한 높은 성능 수치를 보고하는 다른 사용자들과 자신의 결과를 비교하며 어려움을 겪고 있습니다. 그는 llama.cpp를 사용하여 다양한 GGUF 설정과 컨텍스트 길이(50k)에서 테스트를 진행했으며, 특정 최적화된 조합을 통해 약 18~19 tok/s의 성능을 달성했습니다. 이후 Claude Sonnet 4.6에 로그 분석을 의뢰한 결과, 실제 병목 지점은 GPU가 아니라 각 토큰 생성 단계마다 발생하는 CPU 측의 SSM 상태 회귀(State Recursion) 및 데이터 동기화 작업이 핵심이며, 이를 가속하기 위해서는 AVX-VNNI/AVX-512와 같은 최신 SIMD 명령어 세트를 활용하는 것이 중요하다고 분석되었습니다.

핵심 포인트

Qwen 27B 모델을 3090 GPU에서 구동할 때, 높은 추론 속도(tok/s)를 달성하기 위해서는 단순한 VRAM 용량 확보 이상의 복잡한 최적화가 필요합니다.
50k 컨텍스트 길이와 같은 대규모 입력 처리 시, 성능은 주로 CPU 측의 SSM 상태 회귀 및 데이터 동기화 작업에 의해 제한됩니다.
llama.cpp 기반 추론에서 병목 현상의 주범은 GPU 연산 자체가 아니라, 각 토큰 생성 단계마다 발생하는 CPU의 순차적 컴퓨트 버퍼(Compute Buffer) 처리입니다.
이러한 CPU 측 작업을 가속하기 위해서는 AVX-VNNI/AVX-512와 같은 최신 SIMD 명령어 세트를 활용하는 것이 필수적이며, 이것이 성능 향상의 핵심 열쇠입니다.

나는 정신병에 걸린 것 같은 느낌이 든다. 여기 사람들은 30~100+ tok/s (추측적 디코딩 사용 시 100+) 의 성능을 3090 GPU 에서 Qwen 3.6 27B 로 보고 있다. 나는 이를 복제하려고 시도하지만, 내 성능 숫자는 그들과 비교해 볼 수 없다.

나는 llama.cpp 를 Unsloth 의 Q4XL 과 Q4_K_M GGUF 와 함께 사용했다. 이 설정에서 50k 컨텍스트 길이는 약 10 tok/s 를 얻었다. 또한 ik_llama.cpp 를 더 작은 GGUF (https://huggingface.co/sokann/Qwen3.6-27B-GGUF-5.076bpw) 와 함께 사용했다. 이는 Unsloth 의 GGUF 보다 약 1GB 작으며, 이 조합에서는 50k 컨텍스트 길이를 기준으로 약 18~19 tok/s 를 얻었다. (참고: 두 설정 모두 VRAM 에 모든 것이 들어간다.)

나는 ik_llama.cpp 로그를 Claude Sonnet 4.6 에 제출했고, 다음과 같은 분석을 제시했다:

로그의 두 컴퓨트 버퍼를 보라:

CUDA0 compute buffer size = 2020.00 MiB ← GPU
CUDA_Host compute buffer size = 552.05 MiB ← CPU
graph splits = 2

graph splits = 2 는 각 생성된 토큰마다 다음이 필요함을 의미한다:

CPU 로 동기화 → CPU 가 SSM 회귀 상태 업데이트 계산 (CPU 측 작업 552 MiB)

GPU 로 동기화 → GPU 가 완료

CUDA_Host compute buffer 는 단순 데이터 전송용 메모리가 아니라, 각 토큰 단계에서 CPU 가 연산을 실행하는 실제 컴퓨트 버퍼이다. SSM 상태 회귀 (ssm_d_state = 128, ssm_d_inner = 6144) 는 정적 CUDA 그래프로 표현할 수 없으며, CPU 측에서 순차적으로 수행되어야 한다.

이것이 HAVE_FANCY_SIMD 가 중요한 이유이다: 이 552 MiB 의 CPU 작업은 AVX-VNNI/AVX-512 와 함께 훨씬 빠른 디양화 코어 (iq4_ks, q6_0) 를 사용한다. 이를 사용하지 않으면 CPU 부분이 병목이 되지, GPU 가 아니다.

모델은 가중치 저장 측면에서

AI 자동 생성 콘텐츠

원문 바로가기

Qwen 27B 로 Reddit 숫자 복제 불가: 3090TI 를 사용한 실험 결과 분석

요약

핵심 포인트

댓글