문서 간 검색 증강 생성 (Retrieval-Augmented Generation) 평가를 위한 데이터셋
요약
MultiHop-RAG는 RAG 파이프라인에서 문서 간 검색 및 추론 능력을 평가하기 위한 새로운 QA 데이터셋입니다. 2,556개의 쿼리를 포함하며, 메타데이터를 활용해 실제 서비스의 복잡한 시나리오를 반영합니다.
핵심 포인트
- Multi-Hop 쿼리에 특화된 RAG 성능 평가 데이터셋
- 2,556개의 쿼리와 2~4개의 분산된 근거 문서 포함
- 검색(Retrieval) 및 QA 성능 평가를 위한 유스케이스 제공
- COLM 2024에 채택된 연구 기반 데이터셋
문서 간 검색 증강 생성 (Retrieval-Augmented Generation) 평가를 위한 데이터셋
MultiHop-RAG: RAG 파이프라인에서 메타데이터를 포함하여 문서 간의 검색 (Retrieval) 및 추론 (Reasoning)을 평가하기 위한 QA 데이터셋입니다. 이 데이터셋은 2,556개의 쿼리를 포함하고 있으며, 각 쿼리에 대한 근거는 2개에서 4개의 문서에 분산되어 있습니다. 또한 쿼리에는 문서 메타데이터가 포함되어 있어, 실제 RAG 애플리케이션에서 흔히 발견되는 복잡한 시나리오를 반영합니다.
📄 논문 링크 (COLM 2024 채택): MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries
🤗 Hugging Face 데이터 로더 (dataloader)
1. 검색 (Retrieval) 용도
이 데이터셋을 사용한 검색 사례를 보여주는 샘플 유스케이스인 'simple_retrieval.py'를 실행해 보세요.
pip install llama-index==0.9.40
# 간단한 검색을 테스트하고 결과를 저장합니다
python simple_retrieval.py --retriever BAAI/llm-embedder
# 리랭크 (rerank)를 포함한 간단한 검색을 테스트하고 결과를 저장합니다
...
2. QA 용도
이 데이터셋을 사용하여 llama를 통한 질의 및 답변 사례를 보여주는 샘플 유스케이스인 'qa_llama.py'를 실행해 보세요.
python qa_llama.py
1. 검색 (Retrieval) 평가: 'retrieval_evaluate.py'
2. QA 평가: 'qa_evaluate.py'
python retrieval_evaluate.py --file {saved_file_path}
연구 목적으로 데이터셋 구축 코드의 일부를 오픈 소스로 공개했습니다. 하지만 현재 코드 구조가 매우 깔끔하지는 않습니다. 향후에 정리할 예정입니다.
💡 참고용: pipeline/
@misc{tang2024multihoprag,
title={MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries},
author={Yixuan Tang and Yi Yang},
...
MultiHop-RAG는 ODC-BY 라이선스 하에 배포됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기