본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 15. 03:53

Qwen 3.6 27B와 Openclaw를 16GB VRAM에서 구동하기

요약

16GB VRAM 환경에서 Qwen 3.6 27B 모델과 Openclaw를 안정적으로 구동하기 위한 설정 방법을 공유합니다. VRAM 확보를 위한 스크립트 활용과 llama-server의 구체적인 실행 옵션을 통해 도구 호출(tool calling) 문제를 해결한 사례입니다.

핵심 포인트

  • 16GB VRAM에서 Qwen 3.6 27B 모델 활용
  • VRAM 확보를 위한 프로세스 종료 스크립트 사용
  • Openclaw의 도구 호출 안정성 확보
  • llama-server를 이용한 최적화된 실행 옵션 공유

안녕하세요, 방금 그래픽 카드를 5070ti로 업그레이드했고 VRAM은 16GB입니다.

이번 업그레이드의 목표는 Openclaw를 로컬에서 실행하는 것이었습니다. Qwen 3.6 27B가 Openclaw 같은 것을 구동하는 데 필요한 최소한의 사양이라는 것을 알고 있습니다. 제한된 VRAM 때문에 처음에는 Qwen 3.6 35B를 시도했는데, 일반적인 채팅에서는 잘 작동하지만 Openclaw와 사용할 때 도구 호출(tool calling)에서 많은 문제가 발생하고 루프에 빠지는 경우가 많았습니다.

llama를 시작하기 전에 저는 모든 프로그램을 종료하여 가능한 한 많은 VRAM을 확보하려는 작은 스크립트를 사용합니다. 이렇게 하면 약 15.2 GB가 확보되고, 모델을 로드한 후에도 약 800MB의 여유 공간이 생깁니다. 즉, 시스템을 헤드리스(headless)로 구동해야 합니다. 저는 컴퓨터를 사용하지 않을 때 이 설정을 켜서 Telegram을 통해 Openclaw와 채팅할 수 있습니다.
@echo off start "llama-server Backend" /min llama-server ^ -m "c:\models\Qwen3.6-27B-4bpw-16GB-VRAM.gguf" ^ -c 100000 ^ -ngl 99 ^ -t 10 ^ -ub 512 ^ -np 1 ^ --spec-type ngram-mod ^ --spec-ngram-mod-n-match 24 ^ --spec-ngram-mod-n-min 12 ^ --spec-ngram-mod-n-max 48 ^ --kv-unified ^ --kv-offload ^ --mlock ^ --no-mmap ^ -fa on ^ -ctk q4_0 ^ -ctv q4_0 ^ --temp 0.6 ^ --top-p 0.95 ^ --top-k 20 ^ --min-p 0 ^ --repeat-penalty 1.0 ^ --presence-penalty 0.0 ^ --port 1235

지금까지는 시스템이 안정적으로 보이고 도구 호출도 잘 작동합니다. Openclaw를 약 2시간 동안 테스트했기 때문에 아직 장기적인 안정성에 대한 피드백은 드릴 수 없습니다. 다른 분들도 이 설정을 시도해 보고 싶을까 봐 제 구성을 공유하고 싶었습니다.

제공자 /u/mr_christer  

[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0