본문으로 건너뛰기

© 2026 Molayo

HN요약2026. 05. 21. 06:50

Show HN: Codellama를 사용하여 로컬 Copilot 대안을 구축했습니다

요약

Llama Coder는 Ollama와 CodeLlama를 활용하여 사용자의 로컬 하드웨어에서 실행되는 VS Code용 GitHub Copilot 대체제입니다. Apple Silicon 또는 NVIDIA RTX 4090 환경에서 최적의 성능을 발휘하며, 데이터 보안을 위해 텔레메트리나 추적을 포함하지 않는 셀프 호스팅 방식의 자동 완성 기능을 제공합니다.

핵심 포인트

  • Ollama와 CodeLlama를 기반으로 한 로컬 실행형 AI 코딩 어시스턴트
  • Apple Silicon(M1/M2/M3) 및 NVIDIA RTX 4090 하드웨어에 최적화
  • 데이터 프라이버시를 위해 텔레메트리 및 추적 기능 미포함
  • 로컬 설치 및 원격 엔드포인트 구성을 통한 원격 추론 지원
  • 다양한 양자화 모델(q4 등)을 지원하여 RAM/VRAM 용량에 따른 선택 가능

Llama Coder

Llama Coder는 VS Code를 위한 더 나은 셀프 호스팅 (self-hosted) Github Copilot 대체제입니다. Llama Coder는 Ollama와 codellama를 사용하여 사용자의 하드웨어에서 실행되는 자동 완성 (autocomplete) 기능을 제공합니다. Mac M1/M2/M3 또는 RTX 4090에서 가장 잘 작동합니다.

VS Code 플러그인

주요 기능

  • 🚀 Copilot만큼 뛰어난 성능
  • ⚡️ 빠름. 소비자용 GPU에서도 잘 작동합니다. 최상의 성능을 위해 Apple Silicon 또는 RTX 4090을 권장합니다.
  • 🔐 텔레메트리 (telemetry) 또는 추적 없음
  • 🔬 모든 프로그래밍 언어 또는 인간의 언어와 함께 작동합니다.

권장 하드웨어

최소 요구 RAM: 최소 16GB가 필요하며, 가장 작은 모델도 5GB의 RAM을 사용하므로 더 많을수록 좋습니다.
가장 좋은 방법: RTX 4090이 장착된 전용 머신을 사용하세요. 이 머신에 Ollama를 설치하고 확장 프로그램 설정에서 엔드포인트 (endpoint)를 구성하여 이 머신으로 작업을 오프로드 (offload) 하세요.
두 번째로 좋은 방법: 충분한 RAM을 갖춘 MacBook M1/M2/M3에서 실행하세요 (많을수록 좋지만, 10GB 정도 추가되면 충분합니다).
Windows 노트북의 경우: 괜찮은 GPU가 있다면 잘 작동하지만, 좋은 GPU가 장착된 전용 머신을 권장합니다. 전용 게이밍 PC가 있다면 완벽합니다.

로컬 설치

로컬 머신에 Ollama를 설치한 다음 VSCode에서 확장 프로그램을 실행하면 모든 것이 그대로 작동해야 합니다.

원격 설치

전용 머신에 Ollama를 설치하고 확장 프로그램 설정에서 해당 엔드포인트를 구성하세요. Ollama는 보통 11434 포트를 사용하며 127.0.0.1에 바인딩됩니다.

이를 변경하려면 OLLAMA_HOST0.0.0.0으로 설정해야 합니다.

모델

현재 Llama Coder는 Codellama만 지원합니다. 모델은 다양한 방식으로 양자화 (quantized) 되지만, 테스트 결과 q4가 네트워크를 실행하는 최적의 방식임을 확인했습니다. 모델을 선택할 때 모델의 크기가 클수록 성능이 더 좋아집니다. 항상 사용자의 머신에서 가장 큰 크기와 가능한 가장 큰 양자화 수준을 가진 모델을 선택하세요. 기본값은 stable-code:3b-code-q4_0이며, 어디서나 작동해야 하고 대부분의 다른 모델보다 성능이 뛰어납니다.

이름RAM/VRAM비고
stable-code:3b-code-q4_03GB
codellama:7b-code-q4_K_M5GB
codellama:7b-code-q6_K6GBm
codellama:7b-code-fp1614GBg
codellama:13b-code-q4_K_M10GB
codellama:13b-code-q6_K14GBm
codellama:34b-code-q4_K_M24GB
codellama:34b-code-q6_K32GBm
  • m - MacOS에서 느림
  • g - 구형 NVidia 카드(30xx 이전 모델)에서 느림

문제 해결 (Troubleshooting)

대부분의 문제는 VS Code 확장 프로그램 출력(extension output)의 플러그인 출력에서 확인할 수 있습니다.

변경 이력 (Changelog)

[0.0.14]

  • 자동 완성 일시 중지 기능 추가 (by @bkyle)
  • 원격 추론 (remote inference)을 위한 Bearer 토큰 지원 (by @Sinan-Karakaya)

[0.0.13]

[0.0.12]

  • 원격 지원 (Remote support)
  • codellama 프롬프트 준비 과정 수정
  • 트리거 지연 (trigger delay) 추가
  • Jupyter Notebook 지원 추가

[0.0.11]

  • Stable Code 모델 추가
  • 모든 모델 대신 특정 모델에 대해서만 다운로드 일시 중지 기능 추가

[0.0.10]

  • 커스텀 모델 선택 기능 추가
  • 모델이 사용 불가능할 경우 사용자에게 다운로드 여부 확인

[0.0.9]

  • DeepSeek 1b 모델 추가 및 기본값으로 설정

[0.0.8]

  • DeepSeek 지원 및 언어 감지 개선

[0.0.7]

  • DeepSeek 지원 추가
  • Temperature 및 Top p 변경 기능 추가
  • 일부 버그 수정

[0.0.6]

  • ollama 링크 수정
  • 더 많은 모델 추가

[0.0.4]

  • Llama Coder의 초기 출시

AI 자동 생성 콘텐츠

본 콘텐츠는 HN Code Generation의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0