본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 30. 11:57

실제 코딩 작업에서 로컬 모델을 활용하는 방법

요약

평범한 노트북 사양에서 Qwen3.6 모델을 활용해 로컬 코딩 에이전트 환경을 구축하는 방법을 소개합니다. 로컬 모델과 클라우드 모델(GLM 5.2)을 혼합하여 비용 효율적으로 코드 리뷰 및 작업 계획을 수행하는 워크플로우를 공유합니다.

핵심 포인트

  • Qwen3.6-35B 모델을 활용한 로컬 코딩 에이전트 구축
  • 로컬(90%)과 클라우드(10%) 모델의 하이브리드 운영 방식
  • llama-server를 이용한 최적화된 모델 실행 설정
  • 모델의 지식 공백을 README에 기록하여 성능을 개선하는 피드백 루프

지난 1년 동안 수많은 시도 끝에, 마침내 제가 어느 정도 만족하며 유용하게 사용할 수 있는 환경을 구축하게 되어 이를 공유하고자 합니다.

저는 32GB RAM과 4070 8GB (노트북)를 보유하고 있으며, 매우 평범한 하드웨어를 사용 중입니다. Qwen3.6-35B-A3B 모델이 초당 약 15 토큰(tokens per second)*의 속도로 안정적으로 실행된다는 것을 발견했는데, 이는 느린 편이지만 다른 일을 하는 동안 유용한 작업을 수행하기에는 충분한 속도입니다.

저는 이 로컬 모델을 범위가 매우 명확하게 지정된 작업만 수행할 수 있는 "소규모 코딩 에이전트 (small coding agent)"로 취급합니다.

더 깊이 있는 코드 리뷰 (code review), 작업 생성 및 조직화를 위해서는 현재 OpenRouter에서 GLM 5.2를 사용하고 있습니다. 이 훨씬 더 똑똑한 모델이 제 코드베이스를 포괄적으로 살펴보고 Qwen3.6이 실행할 상세한 작업 계획을 생성하도록 하는 데 1달러 미만이 소요됩니다. 이는 환경이 100% 로컬은 아니라는 것을 의미합니다. 로컬과 클라우드의 비율이 약 90%-10% 정도로 나뉘지만, 실행 비용이 매우 저렴합니다.

구체적으로, 저는 pi-coding-agent와 llama-server**(llama.cpp 제공)를 실행합니다. Qwen3.6이 생성하는 모든 변경 사항을 제가 직접 검토합니다. 소형 모델이 코딩의 특정 측면에서 막히는 것을 발견하면, 사후 분석 (post-mortem)을 통해 모델의 지식 공백이 어디에 있는지 파악하고, 다음 에이전트가 참고할 수 있도록 README 파일에 유용한 팁을 추가합니다. 이것이 정말 큰 도움이 되며, 코드 품질이 향상되고 모델이 덜 막히는 것을 확인할 수 있습니다.

궁금한 점이 있다면 편하게 질문해 주세요.

  • 배터리 사용 중이거나 저전력 충전 중일 때 기준입니다. 풀 파워(full power) 시에는 초당 약 19 토큰(t/s) 정도 나옵니다.
    ** llama-server 설정:
    llama-server -m "C:***\models\unsloth\Qwen3.6-35B-A3B-GGUF\Qwen3.6-35B-A3B-UD-IQ4_NL_XL.gguf" -c 100000 -fa on -t 20 -b 4096 -ub 4096 --no-mmap --jinja -ctk q8_0 -ctv q8_0 -ngl 99 --n-cpu-moe 38 --no-mmproj --chat-template-kwargs '{"preserve_thinking": true}' --temp 1.0 --top-p 0.95 --top-k 64
    submitted by /u/Qxz3

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0