본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 05. 03. 05:22

우리가 마침내 그곳에 도착했습니다: Qwen3.6-27B + 에이전트 검색; 단일 RTX 3090 에서 95.7% SimpleQA 달성, 완전

요약

LDR(Local Deep Research) 프로젝트가 RTX 3090 환경에서 Qwen3.6-27B 모델과 에이전트 검색 전략을 결합하여 SimpleQA 벤치마크에서 95.7%라는 높은 성능을 달성했습니다. 이 결과는 단순한 LLM의 능력을 넘어, 복잡한 툴 호출, 병렬 서브토픽 분해, 다중 반복 기능을 갖춘 에이전트 시스템의 강력함을 입증합니다. 특히 로컬 환경에서 웹 검색과 깊은 리서치 능력을 구현했다는 점에서 의미가 크며, Perplexity나 Tavily 같은 상용 서비스와 유사한 수준에 도달했음을 시사합니다.

핵심 포인트

  • 로컬 LLM(Qwen3.6-27B)과 에이전트 검색 전략을 결합하여 SimpleQA 벤치마크에서 95.7%의 높은 정확도를 달성했습니다.
  • 핵심 성능 향상은 단순히 모델 크기보다는, `langgraph_agent`가 제공하는 다중 반복 툴 호출 및 병렬 서브에이전트 분해와 같은 에이전트 아키텍처에서 비롯되었습니다.
  • 본 시스템은 로컬 환경을 유지하면서도 상용 서비스(Perplexity Deep Research 등)와 유사한 수준의 엔드투엔드 리서치 성능을 보여주었습니다.
  • LDR은 학술 출처 평가를 위한 '저널 품질 시스템'과 사용자별 암호화 데이터베이스, 그리고 제로 텔레메트리 정책을 갖춘 강력하고 프라이버시 중심적인 플랫폼입니다.

LDR (Local Deep Research) 유지 관리자입니다. r/LocalLLaMA 커뮤니티의 강력한 지원 덕분에 LDR은 매우 멀리 나아갔습니다. 저는 더 이상 준비되지 않았다고 생각하여 오랫동안 보고를 하지 않았습니다.

하지만 이제 LDR 커뮤니티가 마침내 다시 그곳에 도달했다고 생각합니다. 이제 다시 보고할 때라고 생각합니다.

설정 (Setup)

  • RTX 3090, 24GB
  • Ollama 백엔드 (qwen3.6:27b)
  • LDR 의 langgraph_agent 전략 — LangChain create_agent() 와 툴 호출, 병렬 서브토픽 분해, 최대 50 회 반복
  • LLM 평가자: qwen3.6:27b 자체 평가 (opus 를 사용하여 예제를 검토한 바 있는데, 일반적으로 정확도를 과소평가합니다)

벤치마크 (완전 로컬 LLM + 웹 검색)

모델SimpleQAxbench-DeepSearch
Qwen3.6-27B95.7% (287/300)77.0% (77/100)
Qwen3.5-9B91.2% (182/200)59.0% (59/100)
gpt-oss-20B85.4% (295/346)

샘플 크기는 작지만, 벤치마크를 여러 번 재실행하지는 않았습니다. 다른 행들을 보면 이는 단순히 우연이 아니라는 것을 알 수 있습니다. 전체 리더보드: https://huggingface.co/datasets/local-deep-research/ldr-benchmarks

중요한 프레임 — 이 점수는 Closed-book 가 아닌 에이전트 + 검색 (agent + search) 점수입니다.

또한, Perplexity Deep Research (93.9%), tavily (93.3%) 등과의 벤치마크 결과가 유사하다는 점도 주목할 필요가 있습니다. [Tavily 는 LLM 이 검색된 문서 (only) 에서만 답변하도록 강제합니다 (순수 리트리벌 테스트). Perplexity Deep Research 는 엔드투엔드 에이전트이며 평가자나 샘플 크기를 공개하지 않습니다.]

우리의 결과가 90% 만이라도 이미 큰 성공입니다.

또한 매일 사용하면서 확인한 바에 따르면, 이 결과들은 제가 일상적인 질문을 위해 수행하는 랜덤 쿼리에 대한 성능과 일치한다고 느껴집니다.

주의사항 (Caveats):

  • 새로운 베이스 모델에서의 SimpleQA 오염 위험은 실존합니다.
  • LLM-judge 노이즈 + 샘플링 오차
  • bench-DeepSearch 는 중국어이므로 중국어 Qwen 모델에 유리할 수 있습니다.
  • BrowseComp / GAIA 수치 아직 없음 - 하지만 우리는 이 벤치마크에서 아직 좋은 성과를 내지 않았다고 믿습니다. 현재 상태를 확인하기 위해 몇 가지 벤치마크를 실행해야 합니다.

나에게 놀랐던 점:

결과들은 로컬 딥 리서치를 위한 툴 호출 품질보다 더 큰 규모보다는 추적되는 것 같습니다. langgraph_agent 전략은 모델에 다중 반복 툴 호출, 병렬 서브에이전트 분해, 구조화된 출력을 가합니다 — 이는 새로운 Qwen 세대에서 가장 개선된 축입니다. 아직 가설일 뿐이며, 만약 누군가 애블레이션 (ablation) 을 설계하고 싶다면 우리는 데이터를 원합니다.

추가로 강조하고 싶은 몇 가지 멋진 LDR 기능:

  • 저널 품질 시스템 (Journal Quality System) (v1.6.0 출시) - OpenAlex, DOAJ 를 사용한 학술 출처 평가. 오픈소스 딥 리서치 공간에서 이 밖에는 본 적이 없습니다.
  • 사용자별 SQLCipher AES-256 DB (PBKDF2-HMAC-SHA512, 256k 반복) — 관리자는 정지 상태의 데이터를 읽을 수 없습니다. 비밀번호 복구 없음; 우리는 키를 보관하지 않습니다.
  • 제로 텔레메트리 (Zero telemetry). 텔레메트리, 분석, 추적 없음.
  • Cosign 서명된 Dock

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
9

댓글

0