GraphRAG-Bench: 그래프 검색 증강 생성 평가를 위한 도메인 특화 추론 과제
요약
GraphRAG-Bench는 그래프 검색 증강 생성(Graph RAG)의 성능을 평가하기 위해 개발된 도메인 특화 추론 과제 및 데이터셋입니다. 이 벤치마크는 16개 분야, 5가지 질문 유형, 그리고 7백만 단어 분량의 코퍼스를 포함합니다. 모델은 정확도와 더불어 골드 추론 과정과의 의미적 대응을 평가받습니다.
핵심 포인트
- Graph RAG 성능 측정을 위한 새로운 벤치마크 공개
- 16개 분야, 5가지 질문 유형 등 방대한 데이터셋 구성
- 단순 정확도를 넘어 '추론 일관성'까지 평가하는 것이 핵심
- Fill-in-blank, 객관식 등 다양한 형태의 질문 제공
이곳은 GraphRAG-Bench의 공식 저장소입니다. (GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation)
[2025-06-03] 공식 리더보드가 여기에 공개되었습니다: GraphRAG-Bench leaderboard.[2025-06-03] 저희는 논문 GraphRAG-Bench를 발표했습니다.[2025-06-03] 데이터셋 GraphRAG-Bench도 공개했습니다.

공식 리더보드는 다음에서 확인할 수 있습니다: GraphRAG-Bench leaderboard
이곳에는 16개 분야에 걸쳐 5가지 유형의 질문과 20개의 컴퓨터 과학 교과서에서 추출한 7백만 단어 분량의 코퍼스가 포함되어 있습니다. 데이터셋 구조는 아래와 같습니다:
저희는 다섯 가지 유형의 질문을 정의했습니다:
Question/
├── FB.jsonl #빈칸 채우기 (Fill-in-blank)
├── MC.jsonl #객관식 (Multi-choice)
...
질문 예시 (주관식/Open-ended)
{
"Question": "서버가 SYNACK에서 특별한 초기 시퀀스 번호를 사용하는 것이 왜 필요한가?",
...
저희는 교과서의 내용을 파싱했습니다. 텍스트 내용만 필요하면 .md 파일을 사용하십시오 (권장). 메타데이터와 구조가 필요하면 _structured.json을 사용하십시오.
Corpus/
├── Algorithms/ #교과서 이름
│ ├── Algorithms.md
...
평가를 위해 evaluator.py를 제공합니다. 출력 파일은 다음 구조에 배치하십시오:
data_name/
├── question/
│ ├── FB.jsonl
...
추론 점수(Reasoning score R)는 골드 추론 과정(gold rationale)과의 의미적 대응 및 추론 일관성을 평가합니다. AR 지표는 모델이 질문에 정확하게 답변할 때 올바른 추론을 제공할 수 있는지 여부를 판단합니다.

정확도(Accuracy)는 생성된 결과가 정답(groundtruth)과 일치하는지 평가합니다.

본 저장소가 도움이 되었다면, 저희 논문을 인용해 주시기를 부탁드립니다:
@article{xiao2025graphrag,
title={GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation},
author={Xiao, Yilin and Dong, Junnan and Zhou, Chuang and Dong, Su and Zhang, Qianwen and Yin, Di and Sun, Xing and Huang, Xiao},
...```}{
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기