LocalGPT 2026 리뷰: 100% 개인용 문서 채팅

이 기사는 원래 aifoss.dev에 게시되었습니다.

요약 (TL;DR): LocalGPT는 완전히 사용자의 자체 하드웨어에서 실행되는 셀프 호스팅(self-hosted) RAG 도구입니다. 텔레메트리(telemetry), 클라우드 폴백(cloud fallback)이 없으며, 데이터가 기기를 떠나지 않습니다. v2 재작성을 통해 기존의 llama.cpp 기반에서 하이브리드 검색(hybrid search)을 포함한 Ollama 우선 아키텍처로 전환되었으며, 이로 인해 설정이 훨씬 깔끔해졌습니다. 트레이드오프(Trade-off): 현재 PDF만 수용하며 멀티 유저(multi-user) 지원이 없으므로, 팀 플랫폼이 아닌 단일 사용자용 프라이버시 도구입니다.

	LocalGPT	AnythingLLM	PrivateGPT
최적의 용도	최대의 프라이버시, 단일 사용자	GUI를 갖춘 팀용 RAG	개발자용 API 우선 RAG
...

솔직한 의견: 만약 당신의 사용 사례가 "민감한 PDF를 가지고 있으며, 데이터를 노트북 밖으로 전혀 내보내지 않고 쿼리하고 싶다"라면, LocalGPT는 정확히 그 역할을 수행하며 그 이상의 기능은 제공하지 않습니다. 여러 문서 유형을 다루거나 팀 내 다른 사람이 참여해야 하는 경우라면 AnythingLLM이 더 나은 도구입니다.

LocalGPT의 실체

LocalGPT는 PromtEngineer가 만든 오픈 소스 프라이빗 RAG 시스템으로, 현재 GitHub 스타 22.2k개를 기록하고 있으며 MIT 라이선스를 따릅니다. 개념은 간단합니다: 문서를 업로드하고, 로컬 LLM을 실행하여 문서에 대해 질문하는 것입니다. 이 파이프라인의 모든 부분은 사용자의 하드웨어에 머뭅니다.

v2 아키텍처는 기존의 llama.cpp/ChromaDB 스택을 더 실용적인 것으로 교체했습니다. Ollama가 모델 서빙(model serving)을 담당하고, LanceDB가 벡터 저장소(vector storage, 임베디드 방식이라 별도의 데이터베이스 서버가 필요 없음)를 담당하며, 새로운 하이브리드 검색(hybrid search) 레이어가 의미론적 유사성(semantic similarity), 키워드 매칭(keyword matching), 그리고 긴 컨텍스트 검색을 위한 레이트 청킹(Late Chunking)을 결합합니다. 독립적인 검증 단계(verification pass)를 통해 답변을 반환하기 전 교차 확인을 거칩니다.

참고할 점: LocalGPT는 공식적인 버전 출시(versioned releases)가 없습니다. 개발은 localgpt-v2 브랜치에서 진행됩니다. 만약 무언가를 배포하기 전에 변경 로그(changelog)가 필요한 유형의 사람이라면, 릴리스 태그(release tags)의 부재는 실제적인 마찰 지점(friction point)이 될 수 있습니다.

누가 사용해야 하는가

LocalGPT는 특정 유형의 사용자를 위해 구축되었습니다. 즉, 법률 계약서, 의료 기록, 내부 비즈니스 데이터와 같이 파일이 제3자 인프라를 거치는 것을(심지어 일시적으로라도) 허용할 수 없는 민감한 문서를 보유한 사용자입니다.

만약 ChatGPT나 Claude에 PDF를 업로드하기 전에 망설인 적이 있다면, LocalGPT가 그 문제를 해결해 줍니다. 모든 모델 호출(model call), 모든 임베딩(embedding), 모든 검색(retrieval) 단계는 외부 API로의 아웃바운드 연결 없이 사용자의 CPU 또는 GPU에서 실행됩니다.

이 도구는 팀을 위한 것이 아닙니다. 워크스페이스 관리 및 사용자 권한 기능이 포함된 세련된 UI를 원하는 사람들을 위한 것도 아닙니다. 엑셀 스프레드시트, 워드 문서 또는 파워포인트 슬라이드로 작업하는 사용자를 위한 것도 아닙니다 — 적어도 아직은 말입니다.

설정하기 (Setting it up)

시작하기 전 필수 요구 사항:

Python 3.8+ (3.11.5에서 테스트됨)
Node.js 16+ 및 npm (v23에서 테스트됨)
Ollama 설치 및 실행 중
최소 8GB RAM; 16GB 권장

이는 처음 보이는 것보다 더 무거운 의존성(dependency) 목록입니다. 단순히 Python 스크립트를 실행하는 것이 아닙니다. v2 스택은 Node가 필요한 프론트엔드(frontend) 레이어를 가지고 있으며, Ollama는 LocalGPT가 시작되기 전에 별도의 서비스로 실행 중이어야 합니다.

복제 및 실행:

git clone https://github.com/PromtEngineer/localGPT.git
cd localGPT

...

또는 컨테이너를 선호한다면 Docker를 통해 실행할 수 있습니다:

./start-docker.sh

이미 Docker가 구성되어 있다면 Docker 경로가 더 간단합니다. 수동 경로는 더 많은 제어권을 제공하지만, 전체 스택을 위해 네 개의 별도 터미널 프로세스가 필요합니다.

실행되면 문서 업로드 및 채팅을 위한 웹 UI와 프로그래밍 방식의 접근을 위한 API 엔드포인트(endpoint)를 사용할 수 있습니다.

기본 모델: LocalGPT는 빠른 응답을 위한 Qwen3:0.6b와 더 높은 품질의 답변을 위한 Qwen3:8b를 함께 제공합니다. 임베딩(Embeddings)에는 Qwen/Qwen3-Embedding-0.6B를 사용하며, 이는 CPU에서 원활하게 실행되므로 임베딩 레이어에 GPU가 필요하지 않습니다. 설정을 편집하여 Ollama에서 사용할 수 있는 어떤 모델로든 교체할 수 있습니다.

문서 인제스트 (Ingesting documents)

업로드 인터페이스에 PDF를 넣으면, LocalGPT가 이를 청크 (Chunks)로 나누고, Qwen 임베딩 모델 (Embedding model)을 통해 임베딩 (Embeddings)을 생성한 뒤, 모든 내용을 디스크의 LanceDB에 기록합니다. 그 시점부터 해당 워크스페이스에 대한 모든 쿼리 (Query)는 임베딩된 청크를 검색하게 됩니다.

하이브리드 검색 (Hybrid search)은 주목할 만한 v2의 추가 기능입니다. 밀집 벡터 (Dense vectors)에 대한 순수 코사인 유사도 (Cosine similarity) 대신, 다음 요소들을 혼합합니다:

의미론적 유사도 (Semantic similarity) — 표준 벡터 검색
키워드 매칭 (Keyword matching) — 정확한 용어를 위한 BM25 스타일의 희소 검색 (Sparse retrieval)
레이트 청킹 (Late Chunking) — 텍스트를 단순한 고정 길이 청크가 아닌, 긴 문맥을 인식할 수 있는 세그먼트 (Segments)로 분할

실제로 이는 단순 벡터 검색보다 두 가지 흔한 RAG 실패 모드를 더 잘 처리합니다: 고유 명사(이름, 코드, ID)가 많아 임베딩이 뚜렷하게 구분되지 않는 문서, 그리고 정답의 문맥이 섹션 경계에 걸쳐 있는 문서가 이에 해당합니다.

스마트 라우터 (Smart router) 또한 주목할 만합니다. 이는 쿼리마다 RAG(청크를 검색하여 프롬프트를 보강)를 사용할지, 아니면 검색 없이 LLM의 가중치 (Weights)에서 직접 답변할지를 결정합니다. 문서 범위를 명확히 벗어난 질문의 경우, 관련 없는 청크를 가져와 환각 (Hallucination)을 일으키는 대신 검색 과정을 완전히 건너뜁니다.

하드웨어 요구 사항 (Hardware requirements)

LocalGPT 자체는 가볍습니다. 8GB의 RAM 하한선은 애플리케이션 레이어를 커버합니다. 실제 제약 사항은 Ollama와 이를 통해 실행하는 모델들입니다.

Qwen3:8b는 4비트 양자화 (4-bit quantization)로 로드했을 때 약 6~7GB의 VRAM이 필요합니다. 12GB VRAM을 갖춘 RTX 3060이라면 여유롭게 처리할 수 있습니다. 8GB를 가진 RTX 4060 Ti는 공격적인 양자화를 사용한다면 구동이 가능합니다.

CPU-only (GPU 없음) 모드가 완전히 지원되며, 이는 게임용 GPU를 즉시 사용할 수 없는 개인정보 민감 환경에서의 주요 사용 사례입니다. 최신 CPU와 16GB RAM 환경에서 Qwen3:8b 모델은 칩셋에 따라 초당 약 3~6 토큰 (tokens/second) 속도로 실행됩니다. 대화형 채팅으로는 느린 편이지만, 배치 쿼리 (batch queries)를 실행하거나 30초 정도의 응답 시간을 견딜 수 있다면 사용 가능합니다.

Qwen3:0.6b는 빠른 모드입니다. 전용 GPU가 없는 오래된 노트북을 포함한 거의 모든 하드웨어에서 CPU 기준 초당 15~25 토큰 (tokens/second) 속도로 실행됩니다. 해당 모델 크기에서는 품질이 크게 저하되며, 특히 복잡한 다중 문서 질문에 취약하지만, 상호작용이 가능하다고 느껴질 만큼 충분히 빠르게 답변합니다.

GPU를 소유하지 않고도 GPU 가속 추론 (GPU-accelerated inference)을 원한다면, RunPod를 통해 테스트용 RTX 4090에 대한 온디맨드 (on-demand) 액세스를 제공받을 수 있습니다. 이는 하드웨어 구매를 결정하기 전에 모델 품질을 벤치마크 (benchmark)하고 싶을 때 유용합니다.

개인정보 보호 이야기

이것이 LocalGPT가 구축된 핵심 지점입니다. 올바르게 실행할 경우 다음과 같은 상태가 유지됩니다:

Ollama 모델 서버가 로컬 (local)에 존재함
LanceDB가 로컬 디스크에 임베딩 (embeddings)을 저장함
어떤 API 호출도 사용자의 기기를 벗어나지 않음
코드베이스 내에 텔레메트리 (telemetry), 분석 (analytics), 또는

사용자의 문서는 PDF가 아닙니다. 만약 Word 문서, 스프레드시트, PowerPoint 슬라이드, 또는 이메일 아카이브를 쿼리(query)해야 한다면, LocalGPT는 아직 이를 지원하지 않습니다. README에는 DOCX 및 기타 형식들이 계획 중(planned)이라고 나열되어 있지만, 계획 중이라는 것이 곧 작동한다는 의미는 아닙니다. AnythingLLM은 다음을 포함하여 50개 이상의 문서 유형을 처리합니다...