Qwen3.6 27B와 llama.cpp 활용 후기
요약
llama.cpp를 사용하여 Qwen3.6 27B 모델을 로컬 환경에서 구동한 성능 및 활용 후기입니다. RX 9070 XT GPU 환경에서 높은 응답성과 에이전트적 능력을 확인했으며, 복잡한 디버깅 작업에서 뛰어난 코드 분석 성능을 보여주었습니다.
핵심 포인트
- Qwen3.6 27B 모델의 강력한 에이전트적 능력 확인
- llama.cpp와 ROCm을 활용한 로컬 GPU 가속 설정
- 복잡한 백엔드 서비스 디버깅 및 코드 모킹 수행 가능
- 높은 토큰 생성 속도와 효율적인 추론 성능 입증
서론적으로 제 설정을 공유하자면 다음과 같습니다:
llama-server \
--host 0.0.0.0 \
--port 1235 \
--models-preset %h/Software/models.ini \
--models-max 1 \
--sleep-idle-seconds 3600 \
--timeout 3600 \
--parallel 1 \
--device ROCm0,ROCm1
[*]
flash-attn = on
jinja = true
fit = true
ctxcp = 5
offline = true
mmproj-offload = false
mmap = false
; ... 여기에 다른 많은 모델들이 있습니다 ...
[tp-go-brrr-WORK-CODE]
hf = unsloth/Qwen3.6-27B-MTP-GGUF:UD-Q5_K_XL
ctx-size = 131072
temp = 0.6
top-p = 0.95
top-k = 20
presence-penalty = 0.0
min-p = 0.00
fitt = 1024,1024,0
spec-type = draft-mtp
spec-draft-n-max = 2
chat-template-kwargs = {"preserve_thinking": true}
sm = tensor
이 설정으로 최소한의 Pi 구성에서 정말 즐거운 시간을 보냈습니다.
저는 두 개의 RX 9070 XT (PCIe 5.0 x8/x8)를 사용하고 있으며, 둘 다 약 235W로 전력 제한을 걸고 실제 작업에 활용했습니다. 양자화(quant) 수준이 제가 원하는 것보다는 조금 낮지만, 속도, 지능, 그리고 결과의 방향성 제어 능력은 현재 제 환경에서 사용할 수 있는 최고의 성능이라고 느낍니다.
저는 백엔드 서비스 몇 개가 3개의 다른 설정으로 배포된 인스턴스 간의 상호 작용을 모델이 분석하고, 이 과정에서 네트워크 복잡성을 피하도록 하는 장시간 디버깅 세션을 진행했습니다.
그럼에도 불구하고, 5비트(bit) 수준에서 약간의 거친 부분이 나타나긴 했지만, 제가 요청한 모든 것을 큰 문제 없이 수행했습니다. 상황에 대한 충분한 제어력을 갖추자, 이 모델의 에이전트적 능력(agentic capabilities)은 엄청납니다. 로깅을 추가하고, 서비스를 로컬로 실행하며, 요청을 처리하고 (로컬 및 원격 인스턴스로), 반복하고, 재현성을 위해 실제로 중요한 코드는 건드리지 않으면서 중요하지 않은 부분을 성공적으로 모킹하여, 이 모든 과정에서 높은 응답성과 속도를 유지하면서 밀도 높은 모델임에도 불구하고 많은 막연한 문제들을 구체적인 코드 라인까지 정확히 찾아냈습니다. 몇 가지 예시는 다음과 같습니다:
prompt eval time = 845.93 ms / 337 tokens ( 2.51 ms per token, 398.38 tokens per second)
eval time = 5863.80 ms / 275 tokens ( 21.32 ms per token, 46.90 tokens per second)
total time = 6709.73 ms / 612 tokens
draft acceptance rate = 0.83981 ( 173 accepted / 206 generated)
prompt eval time = 1429.61 ms / 618 tokens ( 2.31 ms per token, 432.29 tokens per second)
eval time = 3862.16 ms / 175 tokens ( 22.07 ms per token, 45.31 tokens per second)
total time = 5291.77 ms / 793 tokens
draft acceptance rate = 0.80597 ( 108 accepted / 134 generated)
prompt eval time = 1275.30 ms / 543 tokens ( 2.35 ms per token, 425.78 tokens per second)
eval time = 3287.57 ms / 151 tokens ( 21.77 ms per token, 45.93 tokens per second)
total time = 4562.87 ms / 694 tokens
draft acceptance rate = 0.82456 ( 94 accepted / 114 generated)
prompt eval time = 318.94 ms / 45 tokens ( 7.09 ms per token, 141.09 tokens per second)
eval time = 15105.91 ms / 784 tokens ( 19.27 ms per token, 51.90 tokens per second)
total time = 15424.84 ms / 829 tokens
draft acceptance rate = 0.98859 ( 520 accepted / 526 generated)
prompt eval time = 2151.53 ms / 960 tokens ( 2.24 ms per token, 446.19 tokens per second)
eval time = 2084.82 ms / 104 tokens ( 20.05 ms per token, 49.88 tokens per second)
total time = 4236.35 ms / 1064 tokens
draft acceptance rate = 0.94444 ( 68 accepted / 72 generated)
제가 특히 중요하게 생각하는 것은 프라이버시입니다. Gemini와 같은 곳에 무언가를 유출하고 있다는 걱정 없이 사적인 환경에서도 안전하게 사용할 수 있습니다.
완벽하지는 않지만, 높은 속도 덕분에 모델이 벗어나기 시작할 때 올바른 방향으로 안내하기가 매우 쉽습니다.
R9700을 한 개, 혹은 두 개라도 손에 넣을 날이 너무나 기다려집니다. 더 높은 양자화 (Quantization) 수준과 더 큰 컨텍스트 (Context) 창은 모두 모델의 활용성을 더욱 높여줄 것입니다. 다만 우선 새로운 UPS (무정전 전원 장치)를 먼저 구매해야 합니다. 현재 사용 중인 UPS는 제가 자리를 비운 사이 텐서 병렬화 (Tensor Parallelism)로 인해 이미 한 번 차단기가 내려간 적이 있기 때문입니다. 그래서 전력 제한 (Power limits) 문제가 생기네요 😅
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기