GraphRAG가 이제 GitHub에 공개되었습니다

올해 초, 우리는 비공개 데이터셋이나 이전에 본 적 없는 데이터셋에 대해 질의응답을 가능하게 하는 검색 증강 생성 (RAG, Retrieval-Augmented Generation)의 그래프 기반 접근 방식인 GraphRAG를 소개했습니다. 오늘 우리는 GraphRAG를 GitHub (새 탭에서 열기)에서 사용할 수 있게 되었음을 발표하게 되어 기쁩니다. 이는 단순한 (naive) RAG 접근 방식보다 더 구조화된 정보 검색과 포괄적인 응답 생성을 제공합니다. GraphRAG 코드 저장소는 솔루션 액셀러레이터 (새 탭에서 열기)를 통해 보완되며, Azure에서 호스팅되어 몇 번의 클릭만으로 코드 없이 배포할 수 있는 사용하기 쉬운 API 경험을 제공합니다.

GraphRAG는 대규모 언어 모델 (LLM, Large Language Model)을 사용하여 임의의 텍스트 문서 모음으로부터 풍부한 지식 그래프 (knowledge graph)를 추출하는 과정을 자동화합니다. 이 그래프 기반 데이터 인덱스의 가장 흥미로운 기능 중 하나는 사용자 질의가 있기 전에 데이터의 의미론적 구조 (semantic structure)를 보고할 수 있는 능력입니다. 이는 그림 1에 설명된 것처럼, 계층적인 방식으로 밀접하게 연결된 노드들의 "커뮤니티 (communities)"를 탐지하여 상위 수준의 테마부터 하위 수준의 주제까지 여러 단계로 그래프를 분할함으로써 수행됩니다. LLM을 사용하여 이러한 각 커뮤니티를 요약하면 데이터의 계층적 요약이 생성되어, 사전에 어떤 질문을 해야 할지 알 필요 없이 데이터셋의 개요를 제공합니다. 각 커뮤니티는 엔티티 (entities)와 그 관계를 설명하는 *커뮤니티 요약 (community summary)*의 기초 역할을 합니다.

"전역적 질문 (global questions)"에 대한 커뮤니티 요약의 장점

최근 프리프린트(preprint)에서 우리는 이러한 커뮤니티 요약(community summaries)이 어떻게 전역적 질문 (global questions)—특정 텍스트 청크(chunk)에 집중하는 대신 전체 데이터셋을 다루는 질문—에 답하는 데 도움을 줄 수 있는지 탐구했습니다. 이는 벡터 검색 (vector search)에 기반한 단순한 RAG (naive RAG) 방식이 한계를 보이는 영역입니다. 예를 들어, “데이터셋의 주요 주제는 무엇인가?”라는 질문을 생각해 보십시오. 이는 합리적인 시작점이지만, 단순한 RAG는 항상 오해의 소지가 있는 답변을 내놓을 것입니다. 그 이유는 단순한 RAG가 질문에 답하는 데 필요한 입력 텍스트의 하위 집합이 아니라, 질문과 의미론적으로 유사한 텍스트 청크로부터 답변을 생성하기 때문입니다.

하지만 질문이 전체 데이터셋을 다룬다면, 모든 입력 텍스트가 고려되어야 합니다. 단순한 RAG는 입력 텍스트 중 가장 유사한 상위-k개의 청크만을 고려하기 때문에 실패하게 됩니다. 설상가상으로, 질문과 표면적으로 유사한 텍스트 청크와 질문을 매칭시켜 오해의 소지가 있는 답변을 생성할 것입니다. 커뮤니티 요약은 이러한 전역적 질문에 답하는 데 도움을 주는데, 그 이유는 엔티티 (entity) 및 관계 (relationship) 설명의 그래프 인덱스 (graph index)가 구축 과정에서 이미 모든 입력 텍스트를 고려했기 때문입니다. 따라서 우리는 전역 데이터 컨텍스트 (global data context)로부터 모든 관련 콘텐츠를 유지하는 질문 답변용 맵-리듀스 (map-reduce) 접근 방식을 사용할 수 있습니다:

커뮤니티 보고서를 LLM 컨텍스트 윈도우 (context window) 크기에 맞춰 그룹화합니다.
각 그룹에 대해 질문을 맵 (map) 하여 커뮤니티 답변을 생성합니다.
모든 관련 커뮤니티 답변을 하나의 최종적인 전역 답변으로 리듀스 (reduce) 합니다.

평가 및 결과

이 접근 방식을 단순한 RAG 및 계층적 소스 텍스트 요약 (hierarchical source-text summarization)과 비교 평가하기 위해, 우리는 LLM인 GPT-4를 사용하여 두 가지 데이터셋인 팟캐스트 트랜스크립트 (podcast transcripts)와 뉴스 기사의 짧은 설명으로부터 활동 중심의 다양한 의미 파악 (sense-making) 질문 세트를 생성했습니다. 그런 다음 LLM 심사위원 (LLM judge)에 의해 평가되는 생성된 답변의 직접 비교를 위해 세 가지 지표를 선정했습니다: 포괄성 (comprehensiveness, 모든 측면을 상세히 다룸), 다양성 (diversity, 다양한 관점을 제공함), 그리고 역량 강화 (empowerment, 정보에 기반한 의사결정을 지원함).

결과에 따르면, GraphRAG는 커뮤니티 계층 구조(community hierarchy)의 어느 수준에서든 커뮤니티 요약(community summaries)을 사용할 때, 포괄성(comprehensiveness)과 다양성(diversity) 측면에서 단순 RAG (naive RAG)보다 뛰어난 성능을 보였습니다 (~70–80% 승률). 중간 및 낮은 수준의 커뮤니티 요약을 사용하는 GraphRAG는 이러한 지표에서 원문 요약 (source text summarization)보다 더 나은 성능을 보이면서도 토큰 비용은 더 낮았습니다 (~쿼리당 20–70% 토큰 사용). 최상위 수준의 커뮤니티에 대해서는 계층적 원문 요약과 경쟁력 있는 성능을 보이면서도 토큰 비용은 실질적으로 훨씬 낮았습니다 (~쿼리당 2–3% 토큰 사용). 이는 그림 2(Figure 2)에 나타나 있습니다.

연구 통찰 및 향 향후 방향

초기 연구 사이클을 통해, 우리는 LLM (Large Language Models)이 비정형 텍스트 입력으로부터 풍부한 지식 그래프 (knowledge graphs)를 성공적으로 도출할 수 있으며, 이러한 그래프가 다음과 같은 새로운 유형의 글로벌 쿼리 (global queries)를 지원할 수 있음을 입증했습니다: (a) 단순 RAG (naive RAG)가 적절한 응답을 생성할 수 없는 경우, 그리고 (b) 계층적 원문 요약 (hierarchical source text summarization)이 쿼리당 비용이 지나치게 높은 경우입니다. 그러나 특정 사용 사례에 대한 GraphRAG의 전반적인 적합성은 구조화된 지식 표현 (structured knowledge representations), 기성 커뮤니티 요약 (readymade community summaries), 그리고 글로벌 쿼리 지원의 이점이 그래프 인덱스 구축 (graph index construction)의 초기 비용보다 큰지에 달려 있습니다.

우리는 현재 응답 품질을 유지하면서 이러한 비용을 줄이기 위한 다양한 접근 방식을 탐색하고 있습니다. 문제 도메인에 맞춰 LLM 추출 프롬프트 (extraction prompts)를 자동으로 튜닝하는 우리의 최신 연구는, 이러한 프롬프트를 맞춤화하고, 엔티티 유형 (entity types)을 열거하며, 퓨샷 예시 (few-shot examples)를 생성하는 등의 데 필요한 초기 노력을 줄이는 방법의 한 예입니다. 최소한의 초기 인덱싱 비용으로 GraphRAG를 평가할 수 있도록, 우리는 전체 인덱싱 프로세스에 의해 생성될 지식 그래프 및 커뮤니티 요약을 근사화하는 NLP (Natural Language Processing) 기반 접근 방식도 조사하고 있습니다. 우리의 목표는 배포 환경의 제약 조건이 무엇이든 간에, 이러한 제약을 수용하면서도 여전히 탁월한 응답 품질을 제공할 수 있는 GraphRAG 구성을 확보하는 것입니다.

GraphRAG와 솔루션 액셀러레이터 (solution accelerator) (새 탭에서 열기)를 공개함으로써, 우리는 데이터를 글로벌 레벨 (global level)에서 이해하는 것이 필수적인 사용자 및 유스케이스 (use cases)에 대해 그래프 기반 RAG (graph-based RAG) 접근 방식이 더욱 접근하기 쉬워지도록 하는 것을 목표로 합니다. 우리는 차세대 RAG 경험을 함께 구현해 나가는 과정에서 코드 저장소 (code repository)와 솔루션 액셀러레이터 모두에 대한 커뮤니티의 피드백과 제안을 환영합니다.

감사의 글

Joshua Bradley, Christine Caggiano, Mónica Carvajal, Alex Chao, Newman Cheng, Ed Clark, Ben Cutler, Andres Morales Esquivel, Nathan Evans, Alonso Guevara Fernández, Amber Hoak, Kate Lytvynets, Gaudy Blanco Meneses, Apurva Mody, Robert Ness, Gabriel Nieves-Ponce, Douglas Orbaker, Richard Ortega, Rodrigo Racanicci, Billie Rinaldi, Katy Smith, Sarah Smith, Shane Solomon, Dayenne Souza, David Tittsworth, Chris Trevino, Derek Worthen

Insights

GraphRAG가 이제 GitHub에 공개되었습니다

요약

핵심 포인트

"전역적 질문 (global questions)"에 대한 커뮤니티 요약의 장점

평가 및 결과

연구 통찰 및 향 향후 방향

감사의 글

댓글

RTX Corporation (RTX)은 지금 매수하기 좋은 주식인가?

오픈 소스 프로젝트 #115: codex-plugin-cc — Claude Code 내부에서 OpenAI Codex를 직접 사용하기

AI-DLC: AI 보조 개발에 구조를 부여하기

워크플로 시리즈 (08): 운영 및 비용 — 단계별 비용 추적 및 결함 진단

RTX Corporation (RTX)은 지금 매수하기 좋은 주식인가?

오픈 소스 프로젝트 #115: codex-plugin-cc — Claude Code 내부에서 OpenAI Codex를 직접 사용하기

AI-DLC: AI 보조 개발에 구조를 부여하기

워크플로 시리즈 (08): 운영 및 비용 — 단계별 비용 추적 및 결함 진단