GitHub요약2026. 06. 16. 09:56

CRUD-RAG: 대규모 언어 모델의 검색 증강 생성 (RAG)을 위한 종합적인 중국어 벤치마크

요약

RAG 시스템의 성능을 평가하기 위한 새로운 중국어 벤치마크인 CRUD-RAG를 소개합니다. 이 벤치마크는 데이터셋, 실험 튜토리얼, 평가 코드를 포함하며 RAG 시스템의 역량을 종합적으로 측정합니다.

이 저장소는 RAG 시스템을 평가하기 위한 새로운 벤치마크인 CRUD-RAG의 공식 코드를 포함하고 있습니다. 여기에는 RAG 시스템 평가를 위해 우리가 생성한 데이터셋과 우리의 벤치마크에서 실험을 실행하는 방법에 대한 튜토리얼이 포함되어 있습니다.

이 저장소의 프롬프트(prompts)는 ChatGPT와 함께 사용하도록 설계되었습니다. 다른 모델의 경우, 적절한 프롬프트를 선택할 것을 권장합니다. 7B 모델은 프롬프트에 특히 민감하여 복잡한 프롬프트를 이해하지 못할 수 있습니다. 따라서 주의를 기울여 주시기 바랍니다. - RAGQuestEval 지표의 사용은 GPT에 의존하며, 우리는 GPT를 질문 답변 및 생성기로 사용합니다.
코드를 처음 실행할 때, 텍스트에 대한 벡터 인덱스(vector index)를 구축해야 합니다 (약 3시간 소요). 이는 일회성 프로세스이므로 나중에 반복할 필요가 없습니다. 코드를 다시 사용할 때는 construct-index 파라미터를 생략했는지 확인하십시오. - 평가된 모델들은 주로 2023년의 모델들입니다. 그 이후로 출력 스타일이 크게 변화하였기 때문에(예: 소제목, 아이콘, 아첨하거나 비위를 맞추는 언어 사용), 우리의 참조 데이터에는 이러한 요소가 없습니다. 결과적으로, 문자열 매칭에 기반한 bleu 점수는 달라질 수 있습니다. 비교 가능한 결과를 얻으려면 간결한 출력을 위해 신중하게 프롬프트를 작성할 것을 권장합니다.

├── data # 이 폴더는 평가에 사용되는 데이터셋으로 구성됩니다.
│ │
│ ├── crud
...

pip install -r requirements.txt

milvus-server

python quick_start.py \
--model_name 'gpt-3.5-turbo' \
--temperature 0.1 \
...

Lyu et al. (2024). CRUD-RAG: 대규모 언어 모델의 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 위한 종합적인 중국어 벤치마크

AI 자동 생성 콘텐츠