본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 06. 16. 09:56

CRUD-RAG: 대규모 언어 모델의 검색 증강 생성 (RAG)을 위한 종합적인 중국어 벤치마크

요약

RAG 시스템의 성능을 평가하기 위한 새로운 중국어 벤치마크인 CRUD-RAG를 소개합니다. 이 벤치마크는 데이터셋, 실험 튜토리얼, 평가 코드를 포함하며 RAG 시스템의 역량을 종합적으로 측정합니다.

핵심 포인트

  • RAG 시스템 평가를 위한 새로운 중국어 벤치마크 CRUD-RAG 공개
  • 데이터셋, 실험 튜토리얼 및 공식 코드 제공
  • ChatGPT와 함께 사용하도록 설계된 프롬프트 포함
  • 벡터 인덱스 구축 및 Milvus-lite 서비스 활용 필요

CRUD-RAG: 대규모 언어 모델의 검색 증강 생성 (Retrieval-Augmented Generation, RAG)을 위한 종합적인 중국어 벤치마크

이 저장소는 RAG 시스템을 평가하기 위한 새로운 벤치마크인 CRUD-RAG의 공식 코드를 포함하고 있습니다. 여기에는 RAG 시스템 평가를 위해 우리가 생성한 데이터셋과 우리의 벤치마크에서 실험을 실행하는 방법에 대한 튜토리얼이 포함되어 있습니다.

  • 이 저장소의 프롬프트(prompts)는 ChatGPT와 함께 사용하도록 설계되었습니다. 다른 모델의 경우, 적절한 프롬프트를 선택할 것을 권장합니다. 7B 모델은 프롬프트에 특히 민감하여 복잡한 프롬프트를 이해하지 못할 수 있습니다. 따라서 주의를 기울여 주시기 바랍니다. - RAGQuestEval 지표의 사용은 GPT에 의존하며, 우리는 GPT를 질문 답변 및 생성기로 사용합니다.
  • 코드를 처음 실행할 때, 텍스트에 대한 벡터 인덱스(vector index)를 구축해야 합니다 (약 3시간 소요). 이는 일회성 프로세스이므로 나중에 반복할 필요가 없습니다. 코드를 다시 사용할 때는 construct-index 파라미터를 생략했는지 확인하십시오. - 평가된 모델들은 주로 2023년의 모델들입니다. 그 이후로 출력 스타일이 크게 변화하였기 때문에(예: 소제목, 아이콘, 아첨하거나 비위를 맞추는 언어 사용), 우리의 참조 데이터에는 이러한 요소가 없습니다. 결과적으로, 문자열 매칭에 기반한 bleu 점수는 달라질 수 있습니다. 비교 가능한 결과를 얻으려면 간결한 출력을 위해 신중하게 프롬프트를 작성할 것을 권장합니다.
├── data # 이 폴더는 평가에 사용되는 데이터셋으로 구성됩니다.
│ │
│ ├── crud
...
  • 의존성 패키지 설치

pip install -r requirements.txt

  • milvus-lite 서비스(벡터 데이터베이스) 시작

milvus-server

  • bge-base-zh-v1.5 모델을 sentence-transformers/bge-base-zh-v1.5/ 디렉토리에 다운로드

  • 필요에 따라 config.py 수정

  • quick_start.py 실행

python quick_start.py \
--model_name 'gpt-3.5-turbo' \
--temperature 0.1 \
...

Lyu et al. (2024). CRUD-RAG: 대규모 언어 모델의 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 위한 종합적인 중국어 벤치마크

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub AI Tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0