GitHub요약2026. 06. 15. 10:23

문서 간 검색 증강 생성 (Retrieval-Augmented Generation) 평가를 위한 데이터셋

요약

MultiHop-RAG는 RAG 파이프라인에서 문서 간 검색 및 추론 능력을 평가하기 위한 새로운 QA 데이터셋입니다. 2,556개의 쿼리를 포함하며, 메타데이터를 활용해 실제 서비스의 복잡한 시나리오를 반영합니다.

핵심 포인트

Multi-Hop 쿼리에 특화된 RAG 성능 평가 데이터셋
2,556개의 쿼리와 2~4개의 분산된 근거 문서 포함
검색(Retrieval) 및 QA 성능 평가를 위한 유스케이스 제공
COLM 2024에 채택된 연구 기반 데이터셋

문서 간 검색 증강 생성 (Retrieval-Augmented Generation) 평가를 위한 데이터셋

MultiHop-RAG: RAG 파이프라인에서 메타데이터를 포함하여 문서 간의 검색 (Retrieval) 및 추론 (Reasoning)을 평가하기 위한 QA 데이터셋입니다. 이 데이터셋은 2,556개의 쿼리를 포함하고 있으며, 각 쿼리에 대한 근거는 2개에서 4개의 문서에 분산되어 있습니다. 또한 쿼리에는 문서 메타데이터가 포함되어 있어, 실제 RAG 애플리케이션에서 흔히 발견되는 복잡한 시나리오를 반영합니다.

📄 논문 링크 (COLM 2024 채택): MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries

🤗 Hugging Face 데이터 로더 (dataloader)

1. 검색 (Retrieval) 용도

이 데이터셋을 사용한 검색 사례를 보여주는 샘플 유스케이스인 'simple_retrieval.py'를 실행해 보세요.

pip install llama-index==0.9.40

# 간단한 검색을 테스트하고 결과를 저장합니다
python simple_retrieval.py --retriever BAAI/llm-embedder
# 리랭크 (rerank)를 포함한 간단한 검색을 테스트하고 결과를 저장합니다
...

2. QA 용도

이 데이터셋을 사용하여 llama를 통한 질의 및 답변 사례를 보여주는 샘플 유스케이스인 'qa_llama.py'를 실행해 보세요.

python qa_llama.py

1. 검색 (Retrieval) 평가: 'retrieval_evaluate.py'

2. QA 평가: 'qa_evaluate.py'

python retrieval_evaluate.py --file {saved_file_path}

연구 목적으로 데이터셋 구축 코드의 일부를 오픈 소스로 공개했습니다. 하지만 현재 코드 구조가 매우 깔끔하지는 않습니다. 향후에 정리할 예정입니다.

💡 참고용: pipeline/

@misc{tang2024multihoprag,
title={MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries},
author={Yixuan Tang and Yi Yang},
...

MultiHop-RAG는 ODC-BY 라이선스 하에 배포됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

문서 간 검색 증강 생성 (Retrieval-Augmented Generation) 평가를 위한 데이터셋

요약

핵심 포인트

댓글