로컬 LLM으로 GitHub Copilot을 구동해 보았다

요약

GitHub Copilot의 BYOK(Bring Your Own Key) 기능을 활용하여 Ollama로 구동되는 로컬 LLM을 연결하는 방법을 소개합니다. Gemma4와 Qwen 모델을 사용하여 비용 부담 없이 로컬 환경에서 코딩 어시스턴트를 사용하는 과정을 다룹니다.

핵심 포인트

GitHub Copilot의 BYOK 기능을 통해 로컬 LLM 엔드포인트 지정 가능
Ollama를 활용하여 Gemma4, Qwen 등 다양한 모델 구동
개인 PC 사양(RTX 3080 등)에 맞춘 컨텍스트 파라미터 조정 필요
구독 비용 부담을 줄이는 로컬 기반 AI 코딩 환경 구축

서론

6월부터 GitHub Copilot이 프리미엄 요청제에서 AI 크레딧제로 변경되면서, 과금량이 크게 늘어나 곤란하다는 목소리를 자주 듣게 됩니다.

실제로 저 자신도 어떻게 해야 하나 고민하던 중, 문득 GitHub Copilot의 어떤 기능을 떠올렸습니다.

그것이 바로 BYOK(Bring Your Own Key) 입니다.

여기서는 Ollama가 지원되고 있으며, 엔드포인트(Endpoint)를 지정함으로써 GitHub Copilot이 사용하는 모델의 방향을 로컬 LLM으로 설정할 수 있습니다.

그래서 바로 테스트해 보았습니다.

나의 환경

메모리는 32GB, GPU는 GeForce RTX 3080 10GB입니다.

그럭저럭 평범한 게이밍 PC의 사양입니다.

GitHub Copilot 측 설정

평소 저는 VSCode에서 GitHub Copilot을 이용하고 있으므로, 그곳에서의 설정으로 진행합니다.

(Copilot CLI 파를 사용하시는 분들께는 죄송합니다(?))

먼저 GitHub Copilot의 모델 선택 화면에서 설정 버튼을 누릅니다.

모델 관리 화면이 나오므로, 모델 추가 > Ollama를 선택합니다.

이때 이름은 자유롭게 선택해도 괜찮습니다.

Ollama 측의 엔드포인트는 기본적으로 11434 포트에서 대기하고 있으므로, 변경하지 않을 경우 그대로 두면 됩니다.

추가에 성공하면 이런 느낌이 될 것입니다.

이것만으로 GitHub Copilot 측의 설정은 완료입니다.

Ollama로 모델 구동하기

그럼 바로 Ollama로 모델을 구동해 봅시다.

이번에는 검증도 겸하여 두 가지 모델을 사용합니다.

gemma4:26b
qwen3.6:latest

둘 다 최근 화제가 되고 있는 메이저한 로컬 LLM(Local LLM)이라서 선택해 보았습니다.

구동은 ollama run <모델명>

명령어로 할 수 있습니다.

모델이 로컬에 없는 경우 알아서 다운로드해 주는 점이 편리하네요.

대략 구동 전에는 이런 느낌입니다.

Gemma4를 구동하니 이 정도가 되었습니다.

ollama ps

명령어로 확인하면 이런 느낌입니다.

PC 사정에 맞춰 컨텍스트(Context) 파라미터를 조정해 나가는 것이 좋을 것 같습니다.

gemma4는 어느 정도 여유가 있어 보여서 컨텍스트를 넉넉히 잡았고, Qwen3.6은 약간 여유가 없는 느낌이었습니다.

GitHub Copilot으로 구동해 보기

그럼 구동해 봅시다.

사용법은 평소의 GitHub Copilot과 다를 바 없습니다.

이번에는 테스트 삼아 이런 느낌의 프롬프트(Prompt)를 던져보겠습니다.

Gemma4는 이런 느낌입니다.

제대로 추론을 해주고 있습니다.

다만, 컨텍스트 256k로 진행하니 역시나 GPU가 한계에 도달하여 CPU를 사용하게 되었습니다.

확연히 응답 속도도 떨어졌으므로 조정이 필요한 포인트입니다.

최종적으로는 이런 답변이 나왔습니다.

페이지의 모습도 이런 느낌이라, 꽤 단순한 요청만으로도 멋진 결과물이 나오는구나 싶었습니다.

일본어로 해줘! 라고 하니 제대로 대응해 주었습니다.

이런 것을 보면 역시 AI스러운 말투라고 느껴집니다.

같은 내용을 Qwen3.6에 던지면 이런 느낌입니다.

Gemma4는 최소한의 2개 파일뿐이었지만, 이쪽은 향후 프로젝트 관리까지 고려한 듯한 초기 셋업을 수행했습니다.

배포 절차까지 보여주는 것도 약간 참견이 심한 느낌이네요.

실제 페이지는 이런 느낌입니다.

이쪽이 더 AI 같은 인상입니다.

다만 애니메이션이 붙어 있거나 페이지 전환이 있는 등 그 부분이 잘 만들어져 있었습니다.

마치며

의외로 평범한 게이밍 PC 정도로도 이 정도까지는 구동할 수 있다는 인상을 받았습니다.

다만, 아무래도 컨텍스트가 평소 사용하는 것에 비하면 적어집니다.

처음에 Ollama 기본 컨텍스트 길이인 4k로 구동했더니, GitHub Copilot에 내장된 툴조차 제대로 읽지 못하거나, 읽더라도 정체불명의 HTML을 생성하고 끝나버려서(파일 편집까지는 못함), 프로젝트 규모가 커지거나 MCP를 늘려감에 따라 꽤 어려운 부분이 있지 않을까 생각했습니다.

시행착오를 거치며 작동시켜 보았기 때문에, 설정에서 무언가 치명적인 실수를 했을 가능성이 있습니다!

혹시 그런 부분이 있다면 댓글 등으로 편하게 지적해 주시면 감사하겠습니다.

이상입니다. 시청해 주셔서 감사합니다.

Discussion

AI 자동 생성 콘텐츠

원문 바로가기