DataArcTech/RagVL

요약

본 문서는 'MLLM Is a Strong Reranker' 논문의 공식 레포지토리인 RagVL을 소개합니다. RagVL은 지식 강화 리랭킹과 노이즈 주입 훈련을 통해 멀티모달 검색 증강 생성(RAG) 성능을 향상시키는 방법을 제시합니다. 사용자는 LLaVA-v1.5-13B 등 다양한 모델로 Reranker와 Generator를 파인튜닝하고 WebQA/MultimodalQA에서 평가할 수 있습니다.

핵심 포인트

RagVL은 멀티모달 RAG 성능을 향상시키는 방법론입니다.
지식 강화 리랭킹과 노이즈 주입 훈련 기법을 사용합니다.
LLaVA-v1.5-13B 등 다양한 모델로 파인튜닝 및 평가가 가능합니다.

이것은 논문 "MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training"의 공식 레포지토리입니다.

[2024-09-20]: 제안된 방법의 일반성을 더 잘 반영하기 위해 이름을 RagVL로 변경했습니다. - [2024-08-05]: RagVL (RagLLaVA) 코드를 공개했습니다.
[2024-07-31]: RagVL (RagLLaVA) 논문이 온라인에 게시되었습니다.

RagVL 실행에 필요한 라이브러리는 requirements.txt에서 찾을 수 있습니다.

. 환경 설정을 위해 LLaVA를 따르는 것을 권장합니다.

RagVL을 실행하기 전에 다음을 수행하십시오:

datasets 및 checkpoints는 Google Drive에서 다운로드하십시오. - 이미지 파일은 WebQA와 MultimodalQA에서 다운로드하십시오. - 파일을 압축 해제하십시오. checkpoints/와 datasets/를 RagVL/ 안에 배치하십시오. - tasks/를 RagVL/finetune/ 안에 배치하십시오. - MMQA_imgs/와 train_img/를 RagVL/finetune/tasks/ 안에 배치하십시오. - val_image/를 RagVL/datasets/ 안에 배치하십시오.
Reranker
| 모델 | Global Batch Size | Epochs |
|---|---|---|
| LLaVA-v1.5-13B | 16 | 2 (WebQA) / 1 (others) |
| ... |
Generator
| 모델 | Global Batch Size | Epochs |
|---|---|---|
| LLaVA-v1.5-13B | 16 | 2 (WebQA) / 3 (MMQA) |
| ... |
위의 두 하이퍼파라미터를 제외하고는 나머지는 다른 모델들의 기본 설정을 따릅니다.

LLaVA-v1.5-13B, Qwen-VL-Chat, 및 mPLUG-Owl2를 파인튜닝하려면 RagVL/finetune/scripts/에서 해당 파인튜닝 스크립트를 찾으십시오.

InternVL2-1B와 InternVL2-2B를 파인튜닝하려면 RagVL/internvl_chat/shell/internvl2.0/2nd_finetune에서 해당 파인튜닝 스크립트를 찾으십시오.

WebQA / MultimodalQA에서 RagVL을 평가하려면 다음 명령어를 사용할 수 있습니다:

python webqa_pipeline.py \ # mmqa_pipeline.py와 동일한 인자 사용
--reranker_model caption_lora \ # reranker 선택
--generator_model noise_injected_lora \ # generator 선택
...

WebQA / MultimodalQA에서 오라클 설정을 평가하려면 다음 명령어를 사용할 수 있습니다:

WebQA 또는 MultimodalQA에서 오라클 설정을 평가하려면 다음 명령어를 사용할 수 있습니다:

python webqa_oracle.py # mmqa_oracle.py와 동일한 인자 사용

본 연구에 관심이 있거나 영감을 받으셨다면, 다음 방식으로 인용해 주시면 됩니다:

@article{chen2024mllm,
title={MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training},
author={Chen, Zhanpeng and Xu, Chengjin and Qi, Yiyan and Guo, Jian},
...}

LLaVA: 대규모 언어 및 비전 어시스턴트(Large Language and Vision Assistant)
Qwen-VL: 이해, 위치 파악, 텍스트 판독 등을 위한 다재다능한 비전-언어 모델(Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond)
mPLUG-Owl: 강력한 멀티모달 대규모 언어 모델 제품군(Powerful Multi-modal Large Language Model Family)
InternVL: GPT-4o의 선구적인 오픈 소스 대안(Pioneering Open-Source Alternative to GPT-4o)
Visualized BGE: 범용 다중 모드 임베딩 모델(universal multi-modal embedding model)
VCD: 시각적 대비 디코딩을 통한 대규모 비전-언어 모델의 객체 환각 완화(Mitigating Object Hallucinations in Large Vision-Language Models through Visual Contrastive Decoding)
CAL: 대비 정렬을 통한 시각적 상관관계 우선순위 지정(Prioritizing Visual Correlation by Contrastive Alignment)

AI 자동 생성 콘텐츠

원문 바로가기

DataArcTech/RagVL

요약

핵심 포인트

댓글