r/LocalLLaMA분석2026. 05. 03. 05:22

우리가 마침내 그곳에 도착했습니다: Qwen3.6-27B + 에이전트 검색; 단일 RTX 3090 에서 95.7% SimpleQA 달성, 완전

요약

LDR(Local Deep Research) 프로젝트가 RTX 3090 환경에서 Qwen3.6-27B 모델과 에이전트 검색 전략을 결합하여 SimpleQA 벤치마크에서 95.7%라는 높은 성능을 달성했습니다. 이 결과는 단순한 LLM의 능력을 넘어, 복잡한 툴 호출, 병렬 서브토픽 분해, 다중 반복 기능을 갖춘 에이전트 시스템의 강력함을 입증합니다. 특히 로컬 환경에서 웹 검색과 깊은 리서치 능력을 구현했다는 점에서 의미가 크며, Perplexity나 Tavily 같은 상용 서비스와 유사한 수준에 도달했음을 시사합니다.

핵심 포인트

로컬 LLM(Qwen3.6-27B)과 에이전트 검색 전략을 결합하여 SimpleQA 벤치마크에서 95.7%의 높은 정확도를 달성했습니다.
핵심 성능 향상은 단순히 모델 크기보다는, `langgraph_agent`가 제공하는 다중 반복 툴 호출 및 병렬 서브에이전트 분해와 같은 에이전트 아키텍처에서 비롯되었습니다.
본 시스템은 로컬 환경을 유지하면서도 상용 서비스(Perplexity Deep Research 등)와 유사한 수준의 엔드투엔드 리서치 성능을 보여주었습니다.
LDR은 학술 출처 평가를 위한 '저널 품질 시스템'과 사용자별 암호화 데이터베이스, 그리고 제로 텔레메트리 정책을 갖춘 강력하고 프라이버시 중심적인 플랫폼입니다.

LDR (Local Deep Research) 유지 관리자입니다. r/LocalLLaMA 커뮤니티의 강력한 지원 덕분에 LDR은 매우 멀리 나아갔습니다. 저는 더 이상 준비되지 않았다고 생각하여 오랫동안 보고를 하지 않았습니다.

하지만 이제 LDR 커뮤니티가 마침내 다시 그곳에 도달했다고 생각합니다. 이제 다시 보고할 때라고 생각합니다.

설정 (Setup)

RTX 3090, 24GB
Ollama 백엔드 (qwen3.6:27b)
LDR 의 langgraph_agent 전략 — LangChain create_agent() 와 툴 호출, 병렬 서브토픽 분해, 최대 50 회 반복
LLM 평가자: qwen3.6:27b 자체 평가 (opus 를 사용하여 예제를 검토한 바 있는데, 일반적으로 정확도를 과소평가합니다)

벤치마크 (완전 로컬 LLM + 웹 검색)

모델	SimpleQA	xbench-DeepSearch
Qwen3.6-27B	95.7% (287/300)	77.0% (77/100)
Qwen3.5-9B	91.2% (182/200)	59.0% (59/100)
gpt-oss-20B	85.4% (295/346)	–

샘플 크기는 작지만, 벤치마크를 여러 번 재실행하지는 않았습니다. 다른 행들을 보면 이는 단순히 우연이 아니라는 것을 알 수 있습니다. 전체 리더보드: https://huggingface.co/datasets/local-deep-research/ldr-benchmarks

중요한 프레임 — 이 점수는 Closed-book 가 아닌 에이전트 + 검색 (agent + search) 점수입니다.

또한, Perplexity Deep Research (93.9%), tavily (93.3%) 등과의 벤치마크 결과가 유사하다는 점도 주목할 필요가 있습니다. [Tavily 는 LLM 이 검색된 문서 (only) 에서만 답변하도록 강제합니다 (순수 리트리벌 테스트). Perplexity Deep Research 는 엔드투엔드 에이전트이며 평가자나 샘플 크기를 공개하지 않습니다.]

우리의 결과가 90% 만이라도 이미 큰 성공입니다.

또한 매일 사용하면서 확인한 바에 따르면, 이 결과들은 제가 일상적인 질문을 위해 수행하는 랜덤 쿼리에 대한 성능과 일치한다고 느껴집니다.

주의사항 (Caveats):

새로운 베이스 모델에서의 SimpleQA 오염 위험은 실존합니다.
LLM-judge 노이즈 + 샘플링 오차
bench-DeepSearch 는 중국어이므로 중국어 Qwen 모델에 유리할 수 있습니다.
BrowseComp / GAIA 수치 아직 없음 - 하지만 우리는 이 벤치마크에서 아직 좋은 성과를 내지 않았다고 믿습니다. 현재 상태를 확인하기 위해 몇 가지 벤치마크를 실행해야 합니다.

나에게 놀랐던 점:

결과들은 로컬 딥 리서치를 위한 툴 호출 품질보다 더 큰 규모보다는 추적되는 것 같습니다. langgraph_agent 전략은 모델에 다중 반복 툴 호출, 병렬 서브에이전트 분해, 구조화된 출력을 가합니다 — 이는 새로운 Qwen 세대에서 가장 개선된 축입니다. 아직 가설일 뿐이며, 만약 누군가 애블레이션 (ablation) 을 설계하고 싶다면 우리는 데이터를 원합니다.

추가로 강조하고 싶은 몇 가지 멋진 LDR 기능:

저널 품질 시스템 (Journal Quality System) (v1.6.0 출시) - OpenAlex, DOAJ 를 사용한 학술 출처 평가. 오픈소스 딥 리서치 공간에서 이 밖에는 본 적이 없습니다.
사용자별 SQLCipher AES-256 DB (PBKDF2-HMAC-SHA512, 256k 반복) — 관리자는 정지 상태의 데이터를 읽을 수 없습니다. 비밀번호 복구 없음; 우리는 키를 보관하지 않습니다.
제로 텔레메트리 (Zero telemetry). 텔레메트리, 분석, 추적 없음.
Cosign 서명된 Dock

AI 자동 생성 콘텐츠

원문 바로가기

우리가 마침내 그곳에 도착했습니다: Qwen3.6-27B + 에이전트 검색; 단일 RTX 3090 에서 95.7% SimpleQA 달성, 완전

요약

핵심 포인트

댓글