Qwen 3.6 27B와 Openclaw를 16GB VRAM에서 구동하기
요약
16GB VRAM 환경에서 Qwen 3.6 27B 모델과 Openclaw를 안정적으로 구동하기 위한 설정 방법을 공유합니다. VRAM 확보를 위한 스크립트 활용과 llama-server의 구체적인 실행 옵션을 통해 도구 호출(tool calling) 문제를 해결한 사례입니다.
핵심 포인트
- 16GB VRAM에서 Qwen 3.6 27B 모델 활용
- VRAM 확보를 위한 프로세스 종료 스크립트 사용
- Openclaw의 도구 호출 안정성 확보
- llama-server를 이용한 최적화된 실행 옵션 공유
안녕하세요, 방금 그래픽 카드를 5070ti로 업그레이드했고 VRAM은 16GB입니다.
이번 업그레이드의 목표는 Openclaw를 로컬에서 실행하는 것이었습니다. Qwen 3.6 27B가 Openclaw 같은 것을 구동하는 데 필요한 최소한의 사양이라는 것을 알고 있습니다. 제한된 VRAM 때문에 처음에는 Qwen 3.6 35B를 시도했는데, 일반적인 채팅에서는 잘 작동하지만 Openclaw와 사용할 때 도구 호출(tool calling)에서 많은 문제가 발생하고 루프에 빠지는 경우가 많았습니다.
llama를 시작하기 전에 저는 모든 프로그램을 종료하여 가능한 한 많은 VRAM을 확보하려는 작은 스크립트를 사용합니다. 이렇게 하면 약 15.2 GB가 확보되고, 모델을 로드한 후에도 약 800MB의 여유 공간이 생깁니다. 즉, 시스템을 헤드리스(headless)로 구동해야 합니다. 저는 컴퓨터를 사용하지 않을 때 이 설정을 켜서 Telegram을 통해 Openclaw와 채팅할 수 있습니다.
@echo off start "llama-server Backend" /min llama-server ^ -m "c:\models\Qwen3.6-27B-4bpw-16GB-VRAM.gguf" ^ -c 100000 ^ -ngl 99 ^ -t 10 ^ -ub 512 ^ -np 1 ^ --spec-type ngram-mod ^ --spec-ngram-mod-n-match 24 ^ --spec-ngram-mod-n-min 12 ^ --spec-ngram-mod-n-max 48 ^ --kv-unified ^ --kv-offload ^ --mlock ^ --no-mmap ^ -fa on ^ -ctk q4_0 ^ -ctv q4_0 ^ --temp 0.6 ^ --top-p 0.95 ^ --top-k 20 ^ --min-p 0 ^ --repeat-penalty 1.0 ^ --presence-penalty 0.0 ^ --port 1235
지금까지는 시스템이 안정적으로 보이고 도구 호출도 잘 작동합니다. Openclaw를 약 2시간 동안 테스트했기 때문에 아직 장기적인 안정성에 대한 피드백은 드릴 수 없습니다. 다른 분들도 이 설정을 시도해 보고 싶을까 봐 제 구성을 공유하고 싶었습니다.
제공자 /u/mr_christer
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기