Qwen 3.6 27B와 Openclaw를 16GB VRAM에서 구동하기

안녕하세요, 방금 그래픽 카드를 5070ti로 업그레이드했고 VRAM은 16GB입니다.

이번 업그레이드의 목표는 Openclaw를 로컬에서 실행하는 것이었습니다. Qwen 3.6 27B가 Openclaw 같은 것을 구동하는 데 필요한 최소한의 사양이라는 것을 알고 있습니다. 제한된 VRAM 때문에 처음에는 Qwen 3.6 35B를 시도했는데, 일반적인 채팅에서는 잘 작동하지만 Openclaw와 사용할 때 도구 호출(tool calling)에서 많은 문제가 발생하고 루프에 빠지는 경우가 많았습니다.

llama를 시작하기 전에 저는 모든 프로그램을 종료하여 가능한 한 많은 VRAM을 확보하려는 작은 스크립트를 사용합니다. 이렇게 하면 약 15.2 GB가 확보되고, 모델을 로드한 후에도 약 800MB의 여유 공간이 생깁니다. 즉, 시스템을 헤드리스(headless)로 구동해야 합니다. 저는 컴퓨터를 사용하지 않을 때 이 설정을 켜서 Telegram을 통해 Openclaw와 채팅할 수 있습니다.
@echo off start "llama-server Backend" /min llama-server ^ -m "c:\models\Qwen3.6-27B-4bpw-16GB-VRAM.gguf" ^ -c 100000 ^ -ngl 99 ^ -t 10 ^ -ub 512 ^ -np 1 ^ --spec-type ngram-mod ^ --spec-ngram-mod-n-match 24 ^ --spec-ngram-mod-n-min 12 ^ --spec-ngram-mod-n-max 48 ^ --kv-unified ^ --kv-offload ^ --mlock ^ --no-mmap ^ -fa on ^ -ctk q4_0 ^ -ctv q4_0 ^ --temp 0.6 ^ --top-p 0.95 ^ --top-k 20 ^ --min-p 0 ^ --repeat-penalty 1.0 ^ --presence-penalty 0.0 ^ --port 1235

지금까지는 시스템이 안정적으로 보이고 도구 호출도 잘 작동합니다. Openclaw를 약 2시간 동안 테스트했기 때문에 아직 장기적인 안정성에 대한 피드백은 드릴 수 없습니다. 다른 분들도 이 설정을 시도해 보고 싶을까 봐 제 구성을 공유하고 싶었습니다.

제공자 /u/mr_christer

[link] [comments]

Insights

Qwen 3.6 27B와 Openclaw를 16GB VRAM에서 구동하기

요약

핵심 포인트

댓글

Olix, 33억 달러 기업 가치로 유럽 최대 규모의 칩 투자 유치

TotalEnergies, Shell 및 KKR과 유럽 재생 에너지 계약 체결

KKR, 역대 최대 규모 인프라 펀드 조성 위해 192억 달러 조달

파일럿 에이전트(Pilot Agent)란 무엇인가? 브라우저, 기계, 워크플로우를 제어하는 AI 에이전트 클래스

Olix, 33억 달러 기업 가치로 유럽 최대 규모의 칩 투자 유치

TotalEnergies, Shell 및 KKR과 유럽 재생 에너지 계약 체결

KKR, 역대 최대 규모 인프라 펀드 조성 위해 192억 달러 조달

파일럿 에이전트(Pilot Agent)란 무엇인가? 브라우저, 기계, 워크플로우를 제어하는 AI 에이전트 클래스