JetBrains IDE 통합 및 브라우저 UI를 활용한 빠르고 쉬운 로컬 AI RAG 설정

요약

Ollama와 Open WebUI를 활용하여 비용 없이 로컬 환경에서 RAG 시스템을 구축하는 방법을 소개합니다. Gemma4 모델을 사용하여 개인의 데이터를 안전하게 처리할 수 있는 오픈 소스 기반의 워크플로우를 단계별로 안내합니다.

핵심 포인트

Ollama를 통한 로컬 LLM(Gemma4)의 간편한 설치 및 실행
Open WebUI를 활용한 ChatGPT 스타일의 로컬 인터페이스 구축
Docker를 이용한 GPU 가속 및 환경 설정 최적화
클라우드 구독 없이 무료 오픈 소스 도구만으로 RAG 구현

새로운 기술이나 워크플로우(workflow)를 도입하려고 할 때 가장 어려운 질문은 "어떻게 시작해야 하는가?"입니다. 그 질문에 대한 답을 찾는 것은 이제 그 어느 때보다 어려워졌습니다. AI와 관련된 모든 것은, 짐작하시겠지만... AI가 생성한 쓰레기(slop)로 오염되어 있습니다. 가짜 AI 생성 YouTube 튜토리얼부터 AI 생성 블로그 및 검색 결과까지 말이죠. 물론, 그중 대부분은 제대로 작동하지 않는 순수한 쓰레기일 뿐입니다.

실제 인간의 개인적인 경험을 찾기는 어렵기에, 제가 여러분과 이를 공유하고자 합니다. 작동하는 시스템의 예시를 제공하기 위해, 처음부터 끝까지 저의 설정 과정을 여기에 게시하겠습니다. 여러분은 각 단계를 자신의 선호에 맞게 자유롭게 조정할 수 있습니다.

중요: 여기에 나열된 모든 소프트웨어는 무료이며, 오픈 소스(open source)이고, 로컬(locally)에서 실행됩니다. 왜냐하면 저는 솔직히 한 가지 목적, 즉 자신들의 클라우드 호스팅 구독 기반 도구를 사용하도록 유인하기 위한 기사나 튜토리얼들에 진절머리가 났기 때문입니다.

전제 조건 및 나의 하드웨어

Windows
Docker (선택 사항, 웹 UI용... 로컬 Python을 사용하고 싶다면 건너뛸 수 있습니다)

나의 하드웨어:

Ryzen 9 5950X
64GB DDR4
RTX 3080 12GB

하드웨어 구성을 나열하는 것이 관련이 있을 수도 있고, 없을 수도 있습니다. 저는 단지 저의 5년 된 작업용 컴퓨터가 현재 하드웨어보다 2~3세대 이전 모델임에도 불구하고 여전히 제 역할을 다하고 있다는 것을 보여주기 위해 나열했습니다.

ollama 설치

웹사이트: https://ollama.com/

PowerShell 터미널을 열고 다음을 실행하세요:

irm https://ollama.com/install.ps1 | iex

Ollama는 LLM(Large Language Models)을 로컬에서 다운로드, 관리 및 실행하기 위한 무료 오픈 소스 애플리케이션입니다. 클라우드 기능도 갖추고 있지만, 필수 사항은 아닙니다.

첫 번째 로컬 LLM 모델 다운로드 및 실행

이 예제에서는 Gemma4를 사용하겠습니다. Gemma4는 로컬에서 실행할 수 있는 Google의 최신 오픈 소스 모델입니다. ollama에서 사용할 수 있는 전체 모델 목록은 여기에서 확인할 수 있습니다: https://ollama.com/search

터미널에서 다음을 입력하세요:

ollama run gemma4

이 명령은 Gemma4를 로컬에 다운로드하고 실행합니다 (수 기가바이트(multi-gigabyte) 규모의 다운로드가 진행될 수 있으니 준비하세요). 걱정하지 마세요, 다음에 이 명령을 실행할 때는 이미 다운로드된 모델을 사용하게 됩니다.

Ollama의 기본 포트는 11434입니다. 모델 다운로드가 완료되면 http://127.0.0.1:11434를 열어 테스트해 보세요. "Ollama is running"이라는 메시지가 표시되어야 합니다.

로컬 웹 UI (Local Web UI)

검색 증강 생성 (RAG, Retrieval Augmented Generation), 워크플로 (workflows) 및 기타 많은 기능을 지원하며 ChatGPT와 매우 유사한 로컬 웹 UI를 구축하기 위해, 우리는 Open WebUI (https://github.com/open-webui/open-webui)를 사용할 것입니다. 로컬에 설치된 Python을 사용하여 설정할 수도 있지만, 저는 대신 그들의 Docker 이미지를 사용해 보기로 했습니다. 저는 Nvidia 그래픽 카드를 사용하고 있으므로, Nvidia GPU를 지원하는 Docker 이미지를 사용했습니다.

이 글을 작성하는 시점의 정확한 명령어는 다음과 같습니다:

docker run -d -p 3000:8080 --gpus all --add-host=host.docker.internal:host-gateway -v open-webui:/app/backend/data --name open-webui --restart always ghcr.io/open-webui/open-webui:cuda

해당 명령어가 여전히 유효한지 확인하려면 Open WebUI의 Github 페이지나 문서를 다시 확인하세요.

다시 한번 말씀드리지만, 수 기가바이트(multi-gigabyte) 규모의 다운로드를 준비하세요. Docker 이미지가 다운로드되고 시작되면 http://127.0.0.1:3000에서 웹 UI에 접속할 수 있습니다. 로컬 (local) 인스턴스에 사용할 관리자 사용자 이름과 비밀번호를 입력하라는 메시지가 표시되므로, 원하는 대로 자유롭게 입력하시면 됩니다.

JetBrains IDE 통합 (PHPStorm)

PHPStorm을 예로 들어보겠습니다. 설정을 열고 Tools > AI Assistant > Providers & API Keys로 이동합니다. Third-party AI providers 섹션에서 Provider 드롭다운 메뉴로부터 Ollama를 선택합니다. 로컬에서 실행 중인 Ollama 인스턴스의 URL(기본값은 http://127.0.0.1:11434입니다)을 입력하고 Test Connection을 클릭합니다.

이렇게 하면 Ollama와 그 안에 사용 가능한 모든 모델이 JetBrains AI Chat 창에 추가됩니다:

IDE의 다른 부분(코드 완성 (Code Completion), 코드 생성 (Code Generation) 등)에서 로컬 Ollama(및 Gemma4 LLM)를 사용하려면, 동일한 설정 페이지의 Model Assignment 섹션으로 스크롤하여 로컬 LLM 모델을 선택하세요 (이 예시의 경우 Ollama/gemma4:latest입니다):

끝입니다!

기억해야 할 유일한 점은 IDE에서 사용하기 전에 Ollama를 시작하고 로컬 LLM 모델을 로드해야 한다는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기