Visual Studio Code의 AI 확장 기능 continue와 로컬 LLM(Ollama + Gemma4 12b)을 사용하여 로컬에서

최근 GitHub Copilot의 크레딧 제한이 매우 엄격해졌기 때문에, 로컬 LLM으로 에이전트(Agent)를 만들어 보았습니다.

Visual Studio Code(이하 VS Code)의 확장 기능인 continue(AI를 구동하기 위한 확장)를 사용하여 에이전트를 만든다
로컬 LLM을 실행하는 플랫폼인 Ollama에 Gemma4:12b라는 모델을 넣어 실행
Gemma4 12b는 2026/6/3에 발표된 새로운 모델. 파라미터(Parameter)가 12B로 비교적 소규모임에도 불구하고, 이전 세대의 2배 이상 파라미터가 많은 모델에 필적하는 성능이라고 한다. 상세 내용은 여기를 참조
Gemma4 12b는 2026/6/3에 발표된 새로운 모델. 파라미터(Parameter)가 12B로 비교적 소규모임에도 불구하고, 이전 세대의 2배 이상 파라미터가 많은 모델에 필적하는 성능이라고 한다. 상세 내용은 여기를 참조
Agent의 일부 명령이 실패하는 등 동작이 약간 불안정했지만 만들 수 있었다
GeForce RTX5070Ti와 Gemma4:12b의 조합이라면 응답 속도는 생각보다 빠르다. 입력을 마친 후 답변이 시작될 때까지 몇 초 정도 걸리며, 그 이후의 스트리밍(Streaming)도 1초에 10자 이상 진행되므로 그리 답답하지는 않았다

모두 상용 이용 가능

제품	라이선스
continue	Apache License 2.0
...
항목	제품
---	---
GPU	GeForce RTX 5070Ti (VRAM 16GB)
...

Ollama를 설치

Windows PC의 경우 다음 명령을 실행

irm https://ollama.com/install.ps1 | iex

Gemma4:12b는 새로운 Ollama 버전이 아니면 사용할 수 없으므로, 반드시 최신 버전으로 해주세요.

이미 설치된 사람도 위의 명령으로 최신 버전으로 업데이트할 수 있습니다.

Mac 등 다른 환경은 공식 사이트 참조

Ollama에서 Gemma4를 다운로드해 둔다

GUI를 열고 오른쪽 하단의 모델이 적힌 풀다운(Pull-down) 메뉴를 열어, Find model... 부분에

gemma4:12b

을 입력

잠시 기다리면 gemma4:12b 선택지가 아래에 나오므로 그것을 클릭

아직 모델이 다운로드되지 않았으므로, 한 번 임의의 프롬프트(Prompt)를 던져주세요. 모델 다운로드가 시작됩니다.

VS Code의 확장 기능에서 continue라고 입력하여 나오는 Continue - open-source AI code agent를 설치

VS Code 왼쪽 탭에서 continue 마크를 누르고, Local Config → Local Config 옆의 톱니바퀴 마크를 누른다

나타난 config.yaml의 models 안에 다음과 같이 추가.

이번에는 지정한 요구사항으로부터 요구정의서나 사양을 만들어 주는 에이전트로 설정했습니다.

여기에 에이전트용 시스템 프롬프트(System Prompt)를 기재했지만, 적어도 Gemma4 12B에서는 반영되지 않는 것 같습니다.

따라서 여기서는 단순히 로컬 LLM으로 Agent를 구동한다는 점만 확인하고 있습니다.

조금 더 세밀한 에이전트의 동작에 대해서는 후속 기사를 참고해 주세요.

- name: make-design
  provider: ollama
  model: Gemma4:12b
...

편집 후 저장.

채팅 화면으로 돌아와서, 채팅창 아래에 있는 모드를 Agent로 바꾸고, 그 오른쪽 풀다운 메뉴에서 방금 추가한 make-design을 선택한다.

make-design이 없다면 config.yaml을 저장하지 않았을 가능성이 있습니다. 저장했다면 즉시 이 풀다운 메뉴에 추가됩니다.

프롬프트에 적당한 내용을 작성하여 호출

적절히 명령 실행 시 허용할 것인지 확인 창이 뜨므로, 문제없다면 차례대로 Accept

가끔 명령 실행에 실패하는 경우가 있지만, 곧바로 다른 명령으로 시도하려고 하므로 그것도 계속해서 Accept 해 나가면 됩니다.

기본 설계서가 출력되었습니다.

다만 내용이 상당히 개략적이므로, 여기서부터 더욱 요구사항을 구체화해 나가면 좋을 것 같습니다.

프롬프트를 입력한 후 응답이 시작될 때까지 1초에서 길어도 4초 정도 소요됩니다. 꽤 빠릅니다.
스트리밍 (Streaming) 속도는 1초에 10자 이상은 나오고 있다는 인상입니다.
3개의 문서를 모두 생성 완료할 때까지의 시간은, 사용자의 명령 승인을 기다리는 시간을 제외하면 약 50초였습니다.

원래 프롬프트가 대략적이었던 점도 있어, 첫 번째 출력물은 상당히 거친 결과물이 나왔습니다.

다만 프롬프트를 계속해서 입력할 수 있으므로, 브러시업 (Brush-up) 하기는 쉬워 보입니다.

명령어를 자주 틀리기는 하지만, 즉시 정정하려고 시도하므로 기본적으로는 Accept를 연타해도 문제없습니다.

생각보다 간단하게 만들 수 있었고, 응답 속도도 충분히 빨랐습니다.

다소 정밀도가 낮더라도 이 정도의 속도감이라면 수정하기도 쉬울 것 같아, 충분히 사용할 수 있지 않을까 생각합니다. - 에이전트 (Agent)를 여러 개 만들 수 있고, 에이전트마다 사용하는 모델도 변경할 수 있어, 코딩이라면 코딩에 특화된 모델을 사용하는 식의 구분 사용이 가능하므로 꽤 유연성도 있다고 생각합니다.

한 번 에이전트가 명령어를 틀렸을 때, 몇 번을 수정하게 해도 계속 같은 명령어를 입력하는 현상이 있었습니다.
설정 파일 (Config file)은 각 사용자의 홈 디렉토리 하위(C:\Users\【사용자명】\.continue\config.yaml)에 생성됩니다.

어디까지나 사용자 단위의 것이라, 프로젝트의 워크스페이스 (Workspace)와 별도로 관리된다는 점이 신경 쓰였습니다.

설정 항목에는 Remote Config Server Url이라는 것이 있으므로, 그 부분을 적절히 운용한다면 업무에서도 사용할 수 있을지도 모릅니다.

이 글을 작성한 후 조금 더 사용해 본 결과, 사실 에이전트의 baseAgentSystemPrompt가 적용되지 않고 있다는 사실이 밝혀졌습니다.

그렇다면 커스텀 에이전트 (Custom Agent)처럼 사용할 수 없지 않느냐는 생각에, 조금 더 조사해 본 내용이 다음 기사입니다.

또한 Gemma4 12B의 양자화 (Quantization)를 통한 경량화에 대해서도 다루고 있습니다.

Insights

Visual Studio Code의 AI 확장 기능 continue와 로컬 LLM(Ollama + Gemma4 12b)을 사용하여 로컬에서

요약

핵심 포인트

댓글

RAG 애플리케이션을 위한 컨텍스트로 Google 검색 결과 활용하는 방법

병행 실행되는 여러 Claude가 중복 실행 및 누락을 일으키다 ── 지휘자 없는 장부로 충돌을 방지한 17일간

RVM과 MatAnyone2의 비디오 매팅(Video Matting) 헤일로(halo)는 '촬영 유래'인가 '코드 유래'인가 구분하기

뉴스 영상을 전자동으로 생성하는 파이프라인을 만든 이야기 ― TTS와 LLM에서 빠졌던 함정

병행 실행되는 여러 Claude가 중복 실행 및 누락을 일으키다 ── 지휘자 없는 장부로 충돌을 방지한 17일간

RVM과 MatAnyone2의 비디오 매팅(Video Matting) 헤일로(halo)는 '촬영 유래'인가 '코드 유래'인가 구분하기

뉴스 영상을 전자동으로 생성하는 파이프라인을 만든 이야기 ― TTS와 LLM에서 빠졌던 함정