
Visual Studio Code의 AI 확장 기능 continue와 로컬 LLM(Ollama + Gemma4 12b)을 사용하여 로컬에서
요약
VS Code 확장 기능인 Continue와 Ollama를 활용하여 로컬 환경에서 Gemma4 12b 모델 기반의 AI 코딩 에이전트를 구축하는 방법을 소개합니다. GitHub Copilot의 제한을 피하기 위해 로컬 LLM을 사용하여 개인화된 개발 환경을 구성할 수 있습니다.
핵심 포인트
- Continue 확장 기능과 Ollama를 결합한 로컬 AI 에이전트 구축
- Gemma4 12b 모델을 활용한 효율적인 로컬 추론 환경 구성
- RTX 5070Ti 환경에서 준수한 응답 속도 및 스트리밍 성능 확인
- 오픈 소스 라이선스를 활용한 비용 효율적인 개발 도구 구성
최근 GitHub Copilot의 크레딧 제한이 매우 엄격해졌기 때문에, 로컬 LLM으로 에이전트(Agent)를 만들어 보았습니다.
-
Visual Studio Code(이하 VS Code)의 확장 기능인 continue(AI를 구동하기 위한 확장)를 사용하여 에이전트를 만든다
-
로컬 LLM을 실행하는 플랫폼인 Ollama에 Gemma4:12b라는 모델을 넣어 실행
-
Gemma4 12b는 2026/6/3에 발표된 새로운 모델. 파라미터(Parameter)가 12B로 비교적 소규모임에도 불구하고, 이전 세대의 2배 이상 파라미터가 많은 모델에 필적하는 성능이라고 한다. 상세 내용은 여기를 참조
-
Gemma4 12b는 2026/6/3에 발표된 새로운 모델. 파라미터(Parameter)가 12B로 비교적 소규모임에도 불구하고, 이전 세대의 2배 이상 파라미터가 많은 모델에 필적하는 성능이라고 한다. 상세 내용은 여기를 참조
-
Agent의 일부 명령이 실패하는 등 동작이 약간 불안정했지만 만들 수 있었다
-
GeForce RTX5070Ti와 Gemma4:12b의 조합이라면 응답 속도는 생각보다 빠르다. 입력을 마친 후 답변이 시작될 때까지 몇 초 정도 걸리며, 그 이후의 스트리밍(Streaming)도 1초에 10자 이상 진행되므로 그리 답답하지는 않았다
모두 상용 이용 가능
| 제품 | 라이선스 |
|---|---|
| continue | Apache License 2.0 |
| ... | |
| 항목 | 제품 |
| --- | --- |
| GPU | GeForce RTX 5070Ti (VRAM 16GB) |
| ... |
- Ollama를 설치
Windows PC의 경우 다음 명령을 실행
irm https://ollama.com/install.ps1 | iex
Gemma4:12b는 새로운 Ollama 버전이 아니면 사용할 수 없으므로, 반드시 최신 버전으로 해주세요.
이미 설치된 사람도 위의 명령으로 최신 버전으로 업데이트할 수 있습니다.
Mac 등 다른 환경은 공식 사이트 참조
- Ollama에서 Gemma4를 다운로드해 둔다
GUI를 열고 오른쪽 하단의 모델이 적힌 풀다운(Pull-down) 메뉴를 열어, Find model... 부분에
gemma4:12b
을 입력
잠시 기다리면 gemma4:12b 선택지가 아래에 나오므로 그것을 클릭

아직 모델이 다운로드되지 않았으므로, 한 번 임의의 프롬프트(Prompt)를 던져주세요. 모델 다운로드가 시작됩니다.

- VS Code의 확장 기능에서
continue라고 입력하여 나오는Continue - open-source AI code agent를 설치

- VS Code 왼쪽 탭에서 continue 마크를 누르고, Local Config → Local Config 옆의 톱니바퀴 마크를 누른다

- 나타난
config.yaml의 models 안에 다음과 같이 추가.
이번에는 지정한 요구사항으로부터 요구정의서나 사양을 만들어 주는 에이전트로 설정했습니다.
여기에 에이전트용 시스템 프롬프트(System Prompt)를 기재했지만, 적어도 Gemma4 12B에서는 반영되지 않는 것 같습니다.
따라서 여기서는 단순히 로컬 LLM으로 Agent를 구동한다는 점만 확인하고 있습니다.
조금 더 세밀한 에이전트의 동작에 대해서는 후속 기사를 참고해 주세요.
- name: make-design
provider: ollama
model: Gemma4:12b
...
편집 후 저장.
채팅 화면으로 돌아와서, 채팅창 아래에 있는 모드를 Agent로 바꾸고, 그 오른쪽 풀다운 메뉴에서 방금 추가한 make-design을 선택한다.

make-design이 없다면 config.yaml을 저장하지 않았을 가능성이 있습니다. 저장했다면 즉시 이 풀다운 메뉴에 추가됩니다.
프롬프트에 적당한 내용을 작성하여 호출
적절히 명령 실행 시 허용할 것인지 확인 창이 뜨므로, 문제없다면 차례대로 Accept
가끔 명령 실행에 실패하는 경우가 있지만, 곧바로 다른 명령으로 시도하려고 하므로 그것도 계속해서 Accept 해 나가면 됩니다.
기본 설계서가 출력되었습니다.
다만 내용이 상당히 개략적이므로, 여기서부터 더욱 요구사항을 구체화해 나가면 좋을 것 같습니다.
- 프롬프트를 입력한 후 응답이 시작될 때까지 1초에서 길어도 4초 정도 소요됩니다. 꽤 빠릅니다.
- 스트리밍 (Streaming) 속도는 1초에 10자 이상은 나오고 있다는 인상입니다.
- 3개의 문서를 모두 생성 완료할 때까지의 시간은, 사용자의 명령 승인을 기다리는 시간을 제외하면 약 50초였습니다.
원래 프롬프트가 대략적이었던 점도 있어, 첫 번째 출력물은 상당히 거친 결과물이 나왔습니다.
다만 프롬프트를 계속해서 입력할 수 있으므로, 브러시업 (Brush-up) 하기는 쉬워 보입니다.
명령어를 자주 틀리기는 하지만, 즉시 정정하려고 시도하므로 기본적으로는 Accept를 연타해도 문제없습니다.
- 생각보다 간단하게 만들 수 있었고, 응답 속도도 충분히 빨랐습니다.
다소 정밀도가 낮더라도 이 정도의 속도감이라면 수정하기도 쉬울 것 같아, 충분히 사용할 수 있지 않을까 생각합니다. - 에이전트 (Agent)를 여러 개 만들 수 있고, 에이전트마다 사용하는 모델도 변경할 수 있어, 코딩이라면 코딩에 특화된 모델을 사용하는 식의 구분 사용이 가능하므로 꽤 유연성도 있다고 생각합니다.
- 한 번 에이전트가 명령어를 틀렸을 때, 몇 번을 수정하게 해도 계속 같은 명령어를 입력하는 현상이 있었습니다.
- 설정 파일 (Config file)은 각 사용자의 홈 디렉토리 하위(
C:\Users\【사용자명】\.continue\config.yaml)에 생성됩니다.
어디까지나 사용자 단위의 것이라, 프로젝트의 워크스페이스 (Workspace)와 별도로 관리된다는 점이 신경 쓰였습니다.
설정 항목에는 Remote Config Server Url이라는 것이 있으므로, 그 부분을 적절히 운용한다면 업무에서도 사용할 수 있을지도 모릅니다.
이 글을 작성한 후 조금 더 사용해 본 결과, 사실 에이전트의 baseAgentSystemPrompt가 적용되지 않고 있다는 사실이 밝혀졌습니다.
그렇다면 커스텀 에이전트 (Custom Agent)처럼 사용할 수 없지 않느냐는 생각에, 조금 더 조사해 본 내용이 다음 기사입니다.
또한 Gemma4 12B의 양자화 (Quantization)를 통한 경량화에 대해서도 다루고 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기