GraphRAG vs. RAG: 지식 그래프(Knowledge Graphs)의 복잡성이 정당화되는 시점

벡터 검색(Vector search)은 어떤 청크(chunks)가 귀하의 쿼리와 유사한지를 알려줍니다. GraphRAG는 코퍼스(corpus) 내의 엔티티(entities)들이 서로 어떻게 관계를 맺고 있는지를 알려줍니다. 이 둘은 서로 다른 질문이며, 대부분의 팀은 실제로 두 번째 질문을 던지고 있는지 확인하기도 전에 그래프(graph)를 선택하곤 합니다.

평면적 검색(Flat Retrieval)이 해결할 수 없는 문제

"우리 회사의 최고 위험 벤더가 어떤 소유주와 지분을 공유하고 있는가?" "이 사고로 이어진 승인 체계는 무엇인가?" 이러한 쿼리들은 top-K 유사 청크(similar chunks)로는 제대로 처리되지 않습니다. 정답이 단일 청크 '안에' 들어있지 않기 때문입니다. 정답은 코퍼스 전반에 걸쳐 여러 엔티티를 연결하는 구조 속에 존재합니다.

GraphRAG는 청크 기반 검색을 지식 그래프(knowledge graph)로 대체하거나 보완합니다. 지식 그래프는 엔티티를 노드(nodes)로, 관계를 에지(edges)로 구성하며, 시스템은 이를 탐색하여 유사도 검색(similarity search)으로는 답할 수 없는 구조적 질문에 답할 수 있습니다.

벤치마크의 현실

GraphRAG의 장점은 멀티 홉(multi-hop) 및 관계형 쿼리(relational query) 클래스에 집중되어 있습니다. 단일 사실 조회(single-fact lookups)에서는 그 이점이 거의 없으며, 추출 비용(extraction cost)을 고려하면 때로는 오히려 마이너스가 될 수도 있습니다.

무엇인가를 구축하기 전에: 200개 이상의 실제 운영 쿼리를 "관계형(relational)" 대 "단일 사실(single-fact)"로 분류하십시오. 만약 관계형 쿼리가 트래픽의 15% 미만이라면, GraphRAG의 벤치마크 이점은 실제 쿼리 혼합(query mix) 상황에서 나타나지 않을 것입니다. 하지만 추출 비용은 여전히 문서의 100%에 적용됩니다.

비용 문제 (그리고 해결 방법)

Microsoft의 2024년 구현 사례: 대규모 데이터셋에 대해 33,000달러의 인덱싱 비용이 발생했습니다. 2026년의 해결책은 다음과 같습니다:

선택적 추출 (Selective extraction) — 관계형 콘텐츠를 포함할 가능성이 높은 문서만 비용이 많이 드는 LLM 단계를 거칩니다.
저비용 모델 우선 (Cheap-model-first) — 대량 추출에는 경량 모델을 사용하고, 모호한 경우에만 고비용 모델을 사용합니다.
하이브리드 고전 NLP + LLM (Hybrid classical NLP + LLM) — 개체명 인식(named-entity recognition)이 엔티티 식별을 처리하고, LLM은 관계 유형 지정(relationship typing)을 위해서만 예약됩니다.
관계 미포함 구축 (Relation-free construction) — 먼저 엔티티 공기(co-occurrence) 구조를 구축하고, 쿼리가 필요할 때만 관계 유형을 지정합니다.

이러한 방법들을 결합하면 코퍼스의 특성에 따라 비용을 10~90%까지 절감할 수 있습니다.

GraphRAG vs. 에이전트 기반 멀티홉 검색 (Agentic Multi-Hop Retrieval)

두 방식 모두 멀티홉 (multi-hop) 질문을 해결합니다. 하지만 서로 다른 트레이드오프 (trade-offs)를 가집니다.

에이전트 기반 검색 (Agentic retrieval) — 쿼리 시점에 비용을 지불하며, 해당 기능이 필요한 쿼리에 대해서만 비용이 발생합니다. 코퍼스 (corpus) 전체에 대한 전처리는 필요하지 않습니다. 하지만 추론 경로 (reasoning paths)가 확률적입니다. 즉, 두 번의 실행이 서로 다른 경로를 택할 수 있습니다.

GraphRAG — 인제스션 (ingestion, 데이터 주입) 시점에 단 한 번 비용을 지불합니다. 결정론적인 탐색 (deterministic traversal)을 보장합니다. 즉, 동일한 쿼리에 대해 매번 동일한 경로와 동일한 답변을 제공합니다. 이는 "시스템이 지난번에는 다른 답변을 내놓았다"는 사실 자체가 문제가 되는 컴플라이언스 (compliance), 감사 (audit), 리스크 (risk) 맥락에서 매우 중요합니다.

의사결정 규칙: 가끔 발생하는 다양한 관계형 쿼리 → 에이전트 기반 검색. 일관된 답변이 필요한 빈번하고 반복적인 관계 패턴 → 그래프 (graph).

하이브리드 아키텍처 (The Hybrid Architecture)

실제 운영 환경에서 GraphRAG는 벡터 (vector) 및 BM25와 함께 사용하는 세 번째 검색 도구이지, 이들을 대체하는 것이 아닙니다. 쿼리에 따라 다음과 같이 경로를 지정합니다:

그래프 전용 (Graph-only): 순수 관계형 ("X와 연결된 사람은 누구인가")
벡터 전용 (Vector-only): 콘텐츠 유사도 ("개념 Y를 설명하라")
하이브리드 (Hybrid): 그래프를 사용하여 검색 공간을 관련 있는 이웃 (neighborhood)으로 좁힌 다음, 그 안에서 벡터 검색을 수행

핵심 통찰 (The Key Insight)

GraphRAG는 단순히 "더 나은 RAG"가 아닙니다. 이는 쿼리가 콘텐츠보다는 관계에 관한 것일 때 적용 가능한, 서로 다른 검색 프리미티브 (retrieval primitive)입니다. 쿼리 분포 (query distribution)가 이를 증명하기 전까지 그래프는 비용 센터 (cost center)일 뿐입니다.

먼저 쿼리 분포를 감사 (audit)하십시오. 관계형 쿼리의 비중이 작다면, 에이전트 기반 멀티홉 (agentic multi-hop) 방식이 훨씬 적은 리소스로 대부분의 이점을 얻을 수 있습니다.

전체 기사 읽기

이 내용은 GraphRAG 아키텍처에 대한 저의 심층 분석을 요약한 것입니다. 전체 기사에서는 완전한 평가 및 구현 가이드를 다룹니다:

👉 GraphRAG vs. RAG: 지식 그래프의 복잡성이 정당화되는 시점 — 전체 기사

전체 기사에는 다음 내용이 포함되어 있습니다:

지식 그래프 (Knowledge Graph)가 실제로 추가하는 것 (그리고 추가하지 않는 것)
벤치마크 증거 분석 — GraphRAG가 도움이 되는 시점과 해가 되는 시점
그래프 구축 비용 구조 분석 (추출 + 커뮤니티 요약 (Community Summarization))
2024년 비용 문제를 해결하는 4가지 기술 (선택적 추출 (Selective Extraction), 저비용 모델 우선 (Cheap-model-first), 하이브리드 NLP, 관계 없는 구축 (Relation-free Construction))
3가지 그래프 탐색 패턴 (로컬 (Local), 글로벌 (Global), 멀티 홉 경로 (Multi-hop Path))
GraphRAG vs. 에이전트 기반 멀티 홉 검색 (Agentic Multi-hop Retrieval) — 의사결정 규칙을 통한 직접 비교
라우팅 (Routing)을 활용한 하이브리드 아키텍처 (그래프 + 벡터 병행)
그래프 특유의 프로덕션 실패 모드 (엔티티 해상도 드리프트 (Entity Resolution Drift), 오래된 엣지 (Stale Edges), 커뮤니티 캐스케이드 (Community Cascade))
그래프 인프라 도입을 위한 의사결정 체크리스트

Insights

GraphRAG vs. RAG: 지식 그래프(Knowledge Graphs)의 복잡성이 정당화되는 시점

요약

핵심 포인트