DataArcTech/RagVL
요약
본 문서는 'MLLM Is a Strong Reranker' 논문의 공식 레포지토리인 RagVL을 소개합니다. RagVL은 지식 강화 리랭킹과 노이즈 주입 훈련을 통해 멀티모달 검색 증강 생성(RAG) 성능을 향상시키는 방법을 제시합니다. 사용자는 LLaVA-v1.5-13B 등 다양한 모델로 Reranker와 Generator를 파인튜닝하고 WebQA/MultimodalQA에서 평가할 수 있습니다.
핵심 포인트
- RagVL은 멀티모달 RAG 성능을 향상시키는 방법론입니다.
- 지식 강화 리랭킹과 노이즈 주입 훈련 기법을 사용합니다.
- LLaVA-v1.5-13B 등 다양한 모델로 파인튜닝 및 평가가 가능합니다.
이것은 논문 "MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training"의 공식 레포지토리입니다.
- [2024-09-20]: 제안된 방법의 일반성을 더 잘 반영하기 위해 이름을 RagVL로 변경했습니다. - [2024-08-05]: RagVL (RagLLaVA) 코드를 공개했습니다.
- [2024-07-31]: RagVL (RagLLaVA) 논문이 온라인에 게시되었습니다.
RagVL 실행에 필요한 라이브러리는 requirements.txt에서 찾을 수 있습니다.
. 환경 설정을 위해 LLaVA를 따르는 것을 권장합니다.
RagVL을 실행하기 전에 다음을 수행하십시오:
-
datasets 및 checkpoints는 Google Drive에서 다운로드하십시오. - 이미지 파일은 WebQA와 MultimodalQA에서 다운로드하십시오. - 파일을 압축 해제하십시오.
checkpoints/와datasets/를RagVL/안에 배치하십시오. -tasks/를RagVL/finetune/안에 배치하십시오. -MMQA_imgs/와train_img/를RagVL/finetune/tasks/안에 배치하십시오. -val_image/를RagVL/datasets/안에 배치하십시오. -
Reranker
| 모델 | Global Batch Size | Epochs |
|---|---|---|
| LLaVA-v1.5-13B | 16 | 2 (WebQA) / 1 (others) |
| ... | -
Generator
| 모델 | Global Batch Size | Epochs |
|---|---|---|
| LLaVA-v1.5-13B | 16 | 2 (WebQA) / 3 (MMQA) |
| ... |
위의 두 하이퍼파라미터를 제외하고는 나머지는 다른 모델들의 기본 설정을 따릅니다.
LLaVA-v1.5-13B, Qwen-VL-Chat, 및 mPLUG-Owl2를 파인튜닝하려면 RagVL/finetune/scripts/에서 해당 파인튜닝 스크립트를 찾으십시오.
InternVL2-1B와 InternVL2-2B를 파인튜닝하려면 RagVL/internvl_chat/shell/internvl2.0/2nd_finetune에서 해당 파인튜닝 스크립트를 찾으십시오.
WebQA / MultimodalQA에서 RagVL을 평가하려면 다음 명령어를 사용할 수 있습니다:
python webqa_pipeline.py \ # mmqa_pipeline.py와 동일한 인자 사용
--reranker_model caption_lora \ # reranker 선택
--generator_model noise_injected_lora \ # generator 선택
...
WebQA / MultimodalQA에서 오라클 설정을 평가하려면 다음 명령어를 사용할 수 있습니다:
WebQA 또는 MultimodalQA에서 오라클 설정을 평가하려면 다음 명령어를 사용할 수 있습니다:
python webqa_oracle.py # mmqa_oracle.py와 동일한 인자 사용
본 연구에 관심이 있거나 영감을 받으셨다면, 다음 방식으로 인용해 주시면 됩니다:
@article{chen2024mllm,
title={MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training},
author={Chen, Zhanpeng and Xu, Chengjin and Qi, Yiyan and Guo, Jian},
...}
- LLaVA: 대규모 언어 및 비전 어시스턴트(Large Language and Vision Assistant)
- Qwen-VL: 이해, 위치 파악, 텍스트 판독 등을 위한 다재다능한 비전-언어 모델(Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond)
- mPLUG-Owl: 강력한 멀티모달 대규모 언어 모델 제품군(Powerful Multi-modal Large Language Model Family)
- InternVL: GPT-4o의 선구적인 오픈 소스 대안(Pioneering Open-Source Alternative to GPT-4o)
- Visualized BGE: 범용 다중 모드 임베딩 모델(universal multi-modal embedding model)
- VCD: 시각적 대비 디코딩을 통한 대규모 비전-언어 모델의 객체 환각 완화(Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding)
- CAL: 대비 정렬을 통한 시각적 상관관계 우선순위 지정(Prioritizing Visual Correlation by Contrastive Alignment)
AI 자동 생성 콘텐츠
본 콘텐츠는 GitHub AI Tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기