노트북에서 구동되는 Qwen3.6 35B-A3B: 나의 제로 투 원(Zero to One) 순간

요약

ASUS Zenbook Pro 14 환경에서 Qwen3.6 35B-A3B 모델을 로컬로 구동한 경험을 공유합니다. 개인정보 보호를 위해 클라우드 대신 로컬 모델을 '제2의 뇌'로 활용하며 얻은 성능과 설정 방법을 다룹니다.

핵심 포인트

RTX 4060 환경에서 256k 컨텍스트 기준 약 18TPS의 속도 구현
파일 읽기/쓰기, CLI 실행, git 사용 등 에이전트 기능 수행 가능
개인정보 보호를 위해 클라우드 모델 대신 로컬 모델 활용 권장
llama.cpp와 unsloth 양자화 모델을 활용한 최적화 설정

안녕하세요 여러분, 저는 이곳에 새로 왔습니다. 노트북만 가지고 있는데, 로컬 모델(local models)이 이제 실제로 충분히 훌륭하다는 것을 방금 깨달았기 때문입니다. 그래서 다른 분들에게 도움이 될 수도 있고, 이곳의 숙련된 분들로부터 배우기 위해서 제 경험을 공유하고자 합니다.

이 모델은 제 ASUS Zenbook Pro 14 (RTX 4060 8GB VRAM, 64GB RAM)에서 제대로 작동하는 첫 번째 모델입니다:

충분히 빠른 속도: 32k 컨텍스트 (context)에서 약 27TPS의 생성 속도, 또는 256k 컨텍스트에서 약 18TPS
충분히 똑똑함: 파일을 읽고 쓸 수 있으며, 기술(skills)을 사용하고, CLI 명령어를 실행하며, git을 사용하고, 지시사항을 따르며, 유용한 사고 파트너(thinking partner)로서 역할을 수행할 수 있습니다.

이것이 저에게 중요한 이유
저에게 이것이 중요한 이유는 제가 무의식적으로 선을 긋기로 결정한 지점이기 때문입니다. 즉, 클라우드 모델(cloud models, 심지어 TEE 모델이라 할지라도)에 개인 정보나 더 개인적인 생각을 공유하고 싶지 않다는 점입니다. 해킹을 당하거나 데이터가 유출될 수 있다는 점은 알고 있지만, 저에게는 첫 번째 프롬프트부터 데이터를 넘겨주는 것과는 다른 문제입니다. 그래서 처음으로, 저는 완전히 로컬(fully local)인 '제2의 뇌'를 갖게 되었습니다.

저에게 이것은 게임 체인저(game changer)입니다. 공개적인 작업이나 프로젝트를 위해서는 여전히 클라우드 모델을 사용하고 있지만, 브레인스토밍이나 간단한 개인 프로젝트를 위해서는 이제 로컬 모델로도 충분합니다. 또한 이제는 좀 더 본격적인 코딩을 할 수 있는 더 강력한 데스크톱 기기를 알아보고 있습니다. 맛을 보았으니 더 많은 것을 원하게 되네요 😄

이제 Claude의 검은 상자(black box)에 "✽ Envisioning… (41s · ↓ 2.9k tokens · thinking some more with high effort)"라고 뜨는 것을 볼 때마다 너무 답답합니다. 그것이 올바른 방향으로 가고 있는지 알 수가 없거든요. (이것이 일을 처리하는 "효율적인" 방식인지에 대해서는 별개의 문제입니다)

지금까지 Qwen3.6를 사용하며 느낀 문제점들
Qwen3.6 35B A3B가 완벽하지는 않습니다. 제가 관찰한 몇 가지 사소한 문제들이 있으며, 이는 제가 우회하여 해결할 수 있는 수준입니다:

실수를 하기도 하지만, 보통은 스스로 회복합니다.
아주 가끔 루프(loop)에 빠지기도 합니다.
어느 정도의 인간 모니터링(human monitoring)이 필요하지만, 저에게는 괜찮은 수준입니다.
때때로 기술(skill)을 완전히 읽지 못하거나, 컨텍스트(context)에 포함할 수 있음에도 최선의 결정을 내리지 못할 때가 있습니다.

때때로 "게으른(lazy)" 것처럼 보일 때가 있습니다. 매우 비결정론적(non-deterministic)입니다. 하지만 저는 여기서 별도의 튜닝을 하지 않았습니다 (보통은 제가 필요한 결과로 끝나기 때문입니다). 더 큰 양자화(quantization)를 사용한다면 이 중 일부가 개선될 수 있을 것 같습니다. 추론(inference)을 위한 제 설정은 unsloth의 Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf를 사용한 llama.cpp입니다. 하네스(harness)로는 pi-llama-cpp 확장이 설치된 Pi를 사용합니다. 하네스는 멀티패스(multipass)로 실행되며 llama.cpp가 실행 중인 호스트에 연결됩니다. 또한 E2EE Matrix 채팅(pi-messenger-bridge를 기반으로 직접 만든 커스텀 채팅)을 통해 제 휴대폰과도 연결했습니다. 다만 이 방식은 노트북을 항상 켜두어야 한다는 점이 번거롭습니다. 이것이 제가 24시간 내내 구동하기에 더 편한 다른 기기를 구매하려는 또 다른 이유이기도 합니다. 256k 컨텍스트(context)를 위한 llama.cpp 플래그(18tps): ./build/bin/llama-server -m Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 24 -np 1 -fa on -ctk q4_0 -ctv q4_0 -c 262144 --host 0.0.0.0 --port 8088 -ncmoe 32 --no-mmap --jinja 32k 컨텍스트를 위한 llama.cpp 플래그(27tps): ./build/bin/llama-server -m Qwen3.6-35B-A3B-UD-IQ3_XXS.gguf -ngl 99 -np 1 -fa on -ctk q4_0 -ctv q4_0 -c 32000 --host 0.0.0.0 --port 8088 -ncmoe 32 --no-mmap --jinja 당신의 제로 투 원(Zero to One) 순간은 언제였나요? /u/rolznz가 r/LocalLLaMA에 게시함 [link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

노트북에서 구동되는 Qwen3.6 35B-A3B: 나의 제로 투 원(Zero to One) 순간

요약

핵심 포인트

댓글