GitHub요약2026. 06. 09. 21:03

GraphRAG-Bench: 그래프 검색 증강 생성 평가를 위한 도메인 특화 추론 과제

요약

GraphRAG-Bench는 그래프 검색 증강 생성(Graph RAG)의 성능을 평가하기 위해 개발된 도메인 특화 추론 과제 및 데이터셋입니다. 이 벤치마크는 16개 분야, 5가지 질문 유형, 그리고 7백만 단어 분량의 코퍼스를 포함합니다. 모델은 정확도와 더불어 골드 추론 과정과의 의미적 대응을 평가받습니다.

핵심 포인트

Graph RAG 성능 측정을 위한 새로운 벤치마크 공개
16개 분야, 5가지 질문 유형 등 방대한 데이터셋 구성
단순 정확도를 넘어 '추론 일관성'까지 평가하는 것이 핵심
Fill-in-blank, 객관식 등 다양한 형태의 질문 제공

이곳은 GraphRAG-Bench의 공식 저장소입니다. (GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation)

[2025-06-03] 공식 리더보드가 여기에 공개되었습니다: GraphRAG-Bench leaderboard.[2025-06-03] 저희는 논문 GraphRAG-Bench를 발표했습니다.[2025-06-03] 데이터셋 GraphRAG-Bench도 공개했습니다.

공식 리더보드는 다음에서 확인할 수 있습니다: GraphRAG-Bench leaderboard

이곳에는 16개 분야에 걸쳐 5가지 유형의 질문과 20개의 컴퓨터 과학 교과서에서 추출한 7백만 단어 분량의 코퍼스가 포함되어 있습니다. 데이터셋 구조는 아래와 같습니다:

저희는 다섯 가지 유형의 질문을 정의했습니다:

Question/
├── FB.jsonl #빈칸 채우기 (Fill-in-blank)
├── MC.jsonl #객관식 (Multi-choice)
...

질문 예시 (주관식/Open-ended)
{
"Question": "서버가 SYNACK에서 특별한 초기 시퀀스 번호를 사용하는 것이 왜 필요한가?",
...

저희는 교과서의 내용을 파싱했습니다. 텍스트 내용만 필요하면 .md 파일을 사용하십시오 (권장). 메타데이터와 구조가 필요하면 _structured.json을 사용하십시오.

Corpus/
├── Algorithms/ #교과서 이름
│ ├── Algorithms.md
...

평가를 위해 evaluator.py를 제공합니다. 출력 파일은 다음 구조에 배치하십시오:

data_name/
├── question/
│ ├── FB.jsonl
...

추론 점수(Reasoning score R)는 골드 추론 과정(gold rationale)과의 의미적 대응 및 추론 일관성을 평가합니다. AR 지표는 모델이 질문에 정확하게 답변할 때 올바른 추론을 제공할 수 있는지 여부를 판단합니다.

정확도(Accuracy)는 생성된 결과가 정답(groundtruth)과 일치하는지 평가합니다.

본 저장소가 도움이 되었다면, 저희 논문을 인용해 주시기를 부탁드립니다:

@article{xiao2025graphrag,
title={GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation},
author={Xiao, Yilin and Dong, Junnan and Zhou, Chuang and Dong, Su and Zhang, Qianwen and Yin, Di and Sun, Xing and Huang, Xiao},
...```}{

AI 자동 생성 콘텐츠

원문 바로가기

GraphRAG-Bench: 그래프 검색 증강 생성 평가를 위한 도메인 특화 추론 과제

요약

핵심 포인트

댓글