본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 03. 00:52

Perplexica 리뷰 2026: Ollama를 활용한 오픈 소스 AI 검색

요약

Perplexica(현 Vane)는 Ollama와 SearXNG를 결합하여 로컬 환경에서 출처가 명시된 답변을 제공하는 오픈 소스 AI 검색 엔진입니다. 개인정보 보호를 중시하는 개발자를 위해 설계되었으며, Docker를 통해 간편하게 설치할 수 있습니다.

핵심 포인트

  • Ollama 호환 LLM과 SearXNG를 체이닝하여 로컬에서 작동
  • 14B 이상의 모델 사용 시 높은 수준의 연구 및 인용 품질 제공
  • Docker Compose를 활용한 약 15분 내외의 빠른 설치 가능
  • MIT 라이선스로 상용 제품 구축 및 포크 가능

이 기사는 원래 aifoss.dev에 게시되었습니다.

요약 (TL;DR): Perplexica (2026년 3월부로 공식적으로 Vane으로 명칭 변경)는 가장 성숙한 오픈 소스 Perplexity 대안으로, 웹 검색을 위한 SearXNG를 Ollama 호환 LLM (대규모 언어 모델)과 체이닝하여 출처가 명시된 답변을 제공하며, 이 모든 과정이 사용자의 하드웨어에서 이루어집니다. Docker Compose를 통해 설치하는 데 약 15분이 소요됩니다. 14B 미만의 모델에서는 인용 품질이 눈에 띄게 낮지만, 14B 이상의 모델에서는 제3자에게 단 하나의 쿼리도 보내지 않고도 적당한 수준의 연구를 수행하기에 충분합니다.

Perplexica / VanePerplexity AISearXNG (독립형)
최적의 용도오프라인에서 출처가 명시된 답변을 원하는 개인정보 보호 중심의 개발자설정이 필요 없는 빠르고 신뢰할 수 있는 웹 답변
...

솔직한 견해: 만약 당신이 가볍거나 중간 정도 수준의 Perplexity 사용자이고 응답 지연 시간보다 개인정보 보호가 더 중요하다면, 14B 모델과 함께 Perplexica를 실행하세요. 헤비 Perplexity Pro 사용자라면 소스의 최신성과 일관성이 떨어지는 것을 느낄 것입니다. 특히 최신 사건의 경우 그 격차가 실제로 존재합니다.

Perplexica의 실체

Perplexica는 데이터가 네트워크를 벗어나지 않으면서도 Perplexity와 유사한 경험 — 질문을 입력하면 링크된 출처와 함께 인용된 답변을 받는 경험 — 을 제공하는 오픈 소스 AI 답변 엔진입니다.

이 프로젝트는 2024년 초 Perplexica라는 이름으로 시작되어 2026년 초까지 GitHub 스타 33,000개를 돌파했습니다. 2026년 3월, 유지 관리자(ItzCrazyKns)는 Perplexity 브랜드와의 혼동을 줄이고 범위가 "Perplexity 클론" 이상으로 확장되었음을 반영하기 위해 이름을 Vane으로 변경했습니다. 이전 GitHub URL은 github.com/ItzCrazyKns/Vane으로 리다이렉트되며, Docker 이미지는 두 이름을 모두 지원하고, 2026년 3월 이전에 작성된 모든 튜토리얼은 여전히 작동합니다. 이 리뷰에서는 여전히 대부분의 사람들이 검색하는 이름인 Perplexica를 사용합니다.

현재 버전: v1.12.2, 2026년 4월 출시. 1.12.x 시리즈에는 JavaScript가 많은 페이지와의 호환성을 높이기 위한 Chromium 기반 스크래퍼 (scraper), 요청 중단을 방지하기 위한 타임아웃 검증 (timeout validation), 그리고 컨텍스트 관리 (context management)가 개선된 업데이트된 심층 연구 모드 (deep research mode)가 추가되었습니다.

라이선스: MIT. AGPL 관련 복잡한 문제가 없습니다. 이를 기반으로 구축하거나, 포크(fork)하거나, 이를 포함한 상용 제품을 출시할 수 있습니다.

내부 작동 원리

쿼리 파이프라인 (query pipeline):

사용자의 질문
  → Perplexica 백엔드 (쿼리 재작성 (query rewriting))
  → SearXNG (Google, Bing, DuckDuckGo, Brave를 동시에 검색)
...

핵심적인 설계 결정은 랭킹 (ranking) 단계입니다. LLM은 가공되지 않은 필터링되지 않은 검색 결과(raw, unfiltered search results)를 절대 직접 보지 않습니다. 유사도 검색 (similarity search)이 모델의 컨텍스트 창 (context window)에 도달하기 전에 관련성이 낮은 콘텐츠를 걸러냅니다. 이를 통해 환각 (hallucinations)을 줄이고 프롬프트 (prompts)를 집중된 상태로 유지합니다. 더 작은 7B 모델의 경우, 청킹 (chunking)은 여전히 발생하지만 인용 (citations)이 한 문장 이상 떨어져 있을 때 모델이 어떤 출처가 무엇을 말했는지 정확하게 할당하는 데 어려움을 겪을 수 있습니다.

SearXNG는 개인정보 보호 계층 (privacy layer)입니다. 이는 어떤 검색 엔진에도 사용자를 식별하지 않고 여러 검색 엔진에 동시에 쿼리를 보냅니다. Perplexica의 Docker Compose 파일은 자체 SearXNG 인스턴스를 실행하므로, SearXNG를 수동으로 구성할 필요가 없습니다.

이 검색 파이프라인 (retrieval pipeline)이 전체 문서 기반의 RAG 설정과 어떻게 비교되는지에 대한 자세한 내용은 RAG Architecture Deep Dive를 참조하십시오. Perplexica는 사전 인덱싱된 코퍼스 (pre-indexed corpus) 대신 라이브 웹 결과에 대해 더 단순한 싱글 홉 검색 (single-hop retrieval)을 사용합니다.

설정: 약 15분 만에 Docker Compose 완료하기

사전 요구 사항: Docker 및 Docker Compose. 그게 전부입니다.

git clone https://github.com/ItzCrazyKns/Vane.git perplexica
cd perplexica

...

무엇인가를 시작하기 전에 config.toml을 편집하십시오:

[GENERAL]
PORT = 3001
SIMILARITY_MEASURE = "cosine"
...

스택을 시작합니다:

docker compose up -d

세 개의 컨테이너가 실행됩니다: Perplexica 프론트엔드 (port 3000), 백엔드 API (port 3001), 그리고 SearXNG (port 4000, 내부 전용)입니다. 첫 번째 풀(pull) 작업에는 2~5분이 소요됩니다. http://localhost:3000을 열면 Perplexity와 유사한 인터페이스가 작동하는 것을 확인할 수 있습니다.

Linux Ollama 주의사항: 만약 Ollama가 systemd 서비스로 실행 중이라면, 기본적으로 localhost에 바인딩됩니다. Docker 컨테이너는 호스트의 localhost에 접근할 수 없으므로, Ollama가 모든 인터페이스에서 리스닝(listen)하도록 설정해야 합니다:

# /etc/systemd/system/ollama.service 의 [Service] 섹션 아래에 다음을 추가하세요
Environment="OLLAMA_HOST=0.0.0.0"

...

Docker Desktop을 사용하는 macOS 사용자는 host.docker.internal이 자동으로 해석되므로 이러한 변경이 필요하지 않습니다.

모델 선택 및 하드웨어 요구 사항

스택이 시작된 후, UI의 Settings → Models로 이동하여 채팅 모델 제공자(chat model provider)로 Ollama를 선택하고, 이미 풀(pull)해 놓은 모델을 선택하세요.

하드웨어모델인용 품질
8 GB RAM, CPU 전용mistral:7b 또는 llama3.2:3b얕음 — 간단한 사실 확인용으로 사용 가능
...

시작하기 전에 임베딩 모델(embedding model)도 함께 풀(pull)하세요:

ollama pull nomic-embed-text
ollama pull qwen2.5:14b   # 또는 선택한 채팅 모델

14B(140억 파라미터) 지점의 변곡점은 실재합니다. 14B 미만 모델은 답변 중간에 어떤 출처가 어떤 주장을 뒷받침하는지 자주 놓치며, 이는 잘못된 링크를 가리키는 인용(citation)으로 이어집니다. 이 문제는 정확히 환각(hallucination)은 아닙니다. 내용은 대개 출처에 존재하지만, 출처를 밝히는 속성 부여(attribution)가 실패하는 것입니다. 14B 모델에서는 이 문제가 대부분 사라집니다.

14B 이상의 모델을 실행할 수 있는 GPU를 보유하고 있지 않다면, RunPod를 통해 RTX 4090 포드(pod)를 시간 단위로 대여하여 그곳에서 Ollama를 실행하고, Perplexica가 외부 엔드포인트(endpoint)를 가리키도록 설정할 수 있습니다.

Ollama에 대한 전체 리뷰와 모델 선택 가이드는 Ollama 2026 리뷰를 참조하세요.

포커스 모드 (Focus modes)

검색창에서 6가지 모드를 사용할 수 있습니다:

All (General Web) — 기본 설정입니다. SearXNG를 통해 일반적인 웹 검색 결과로 라우팅합니다. 개방형 사실 기반 질의, 최신 소프트웨어 변경 사항, 제품 비교 등 평소에 검색하는 모든 것에 유용합니다.

Academic — 학술적 소스(arXiv, Semantic Scholar, PubMed)를 우선시합니다. 문헌 검토 및 연구 분야를 이해하는 데 유용합니다. 품질은 모델에 따라 달라집니다. 7B 모델은 밀도 높은 학술 문장을 일관된 답변으로 합성하는 데 어려움을 겪지만, 14B 이상의 모델은 이를 깔끔하게 처리합니다.

YouTube — YouTube를 검색하고 비디오 제목, 설명 및 사용 가능한 스크립트를 기반으로 요약합니다. 상위 결과에 실제 스크립트가 있는 경우 효과적이며, 스크립트가 없는 경우에는 제목을 바탕으로 빈약한 요약을 제공합니다.

Reddit — Reddit 토론을 통해 라우팅합니다. "실제 사용자들이 X에 대해 어떻게 생각하는가"와 같은 질문에 놀라울 정도로 효과적입니다. 소프트웨어의 불편함, 제품의 결함 모드, 공식 문서에는 절대 등장하지 않는 니치(niche) 커뮤니티의 지식 등을 찾는 데 유용합니다.

Wolfram Alpha — 계산 관련 질의를 처리합니다: 단위 변환, 수학, 과학 상수, 날짜 연산 등

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0