jiangsongtao/Med-MoE

업데이트(2025.05.18): LLaVA-Med의 다운로드 링크가 닫혔을 수 있으므로, Hugging Face의 다음 링크에서 사전 학습(pretrain) 데이터셋을 다운로드하는 것을 권장합니다:

Shubhangi29의 기여에 감사드립니다!

저희 논문의 링크는 Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models 입니다.

model

Med-MoE는 판별적(discriminative) 및 생성적(generative) 멀티모달 의료 작업을 모두 처리하도록 설계된 새롭고 경량화된 프레임워크입니다. 이 프레임워크는 세 단계의 학습 프로세스를 채택합니다: 멀티모달 의료 이미지를 LLM 토큰과 정렬(aligning), 전문가 선택을 위한 학습 가능한 라우터(router)를 사용한 지시어 튜닝(instruction tuning), 그리고 도메인 특화 MoE 튜닝입니다. 저희 모델은 고도로 전문화된 도메인 특화 전문가(domain-specific experts)를 통합함으로써, 최첨단(state-of-the-art) 모델과 비교하여 우수하거나 대등한 성능을 달성하면서도 필요한 모델 파라미터(parameters)를 30%-50%까지 크게 줄였다는 점이 특징입니다. 이러한 전문가 전문화와 효율성은 Med-MoE를 자원이 제한된 임상 환경에 매우 적합하게 만듭니다.

model

환경 준비 (Prepare the Environment)

TinyMed 프로젝트 디렉토리를 클론(Clone)하고 이동합니다:

cd TinyMed

환경을 설정합니다:

conda create -n tinymed python=3.10 -y conda activate tinymed pip install --upgrade pip pip install -e . pip install -e "[train]" pip install flash-attn --no-build-isolation

기본 MoE를 저희가 제공하는 버전으로 교체합니다. "from moe.layer import MoE"를 사용하세요. (xuhe2의 제안에 감사드립니다.)

저희가 제공하거나 직접 학습시킨 도메인 특화 라우터(domain-specific router)를 다운로드한 후, 다음 파일 내의 경로를 교체해 주세요:

moellava/model/language_model/llava_stablelm_moe.py

데이터셋 준비 (Prepare the Datasets)

학습을 위해 LLaVA-Med 데이터셋을 활용하십시오:

사전 학습 모델 (Pretrained Models)용: LLaVA-Med Alignment Dataset
지시어 튜닝 (Instruction-Tuning)용: LLaVA-Med Instruct Dataset
사전 학습 및 SFT 이미지 (Pretrained and SFT Image)용: wget https://hanoverprod.z21.web.core.windows.net/med_llava/llava_med_image_urls.jsonl 및 python download_image.py (경로를 변경하는 것을 잊지 마세요)
MoE 튜닝 단계 (MoE-Tuning Stage)용: Training Jsonl
MoE 튜닝 단계 이미지 데이터 (MoE-Tuning Stage Image Data): LLaVA-Med의 일부 이미지는 더 이상 사용할 수 없으므로, 학습에서 제외되었음을 유의하십시오. Stage3 ImageData -
VQA를 위한 Test.json: https://drive.google.com/file/d/1pyGsm8G0Gig63DAnOdLuUn3IyxrztWtR/view?usp=sharing

웹 인터페이스 실행 (Launch the Web Interface)

DeepSpeed를 사용하여 Gradio 웹 서버를 시작하십시오:

Phi2 모델: deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "./MedMoE-phi2"

StableLM 모델: deepspeed --include localhost:0 moellava/serve/gradio_web_server.py --model-path "./MedMoE-stablelm-1.6b"

명령줄 추론 (Command Line Inference)
명령줄에서 모델을 실행하십시오:

Phi2 모델: deepspeed --include localhost:0 moellava/serve/cli.py --model-path "./MedMoE-phi2" --image-file "image.jpg"

StableLM 모델: deepspeed --include localhost:0 moellava/serve/cli.py --model-path "./MedMoE-stablelm-1.6b" --image-file "image.jpg"

사용 가능한 모델 (Available Models)

평가 프로세스는 여러 GPU에서 모델을 실행하고 결과를 결합하는 과정을 포함합니다. 아래는 상세 단계 및 명령어입니다:

# 청크(chunks) 및 GPU 수 설정
CHUNKS=2
GPUS=(0 1)
...

다음 기초 연구들에 특별한 감사를 표합니다:

@misc{jiang2024medmoemixturedomainspecificexperts,
title={Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models},
author={Songtao Jiang and Tuo Zheng and Yan Zhang and Yeying Jin and Li Yuan and Zuozhu Liu},
...

Insights

jiangsongtao/Med-MoE

요약

핵심 포인트

댓글

폭스바겐의 CARIZON과 Horizon Robotics, 중국에서 자율주행 파트너십 강화

기술주 실시간 중계: Google과 Tesla로 시작되는 빅테크 실적 발표 시즌

Oracle의 주가 폭락으로 Larry Ellison은 10개월 만에 2,130억 달러를 잃었습니다. 투자자들은 저점 매수를 해야 할까요?

T-Mobile, 수익 예상치 상회 및 현금 흐름 전망 상향에도 불구하고 주가 하락 (NASDAQ:TMUS)

폭스바겐의 CARIZON과 Horizon Robotics, 중국에서 자율주행 파트너십 강화

기술주 실시간 중계: Google과 Tesla로 시작되는 빅테크 실적 발표 시즌

Oracle의 주가 폭락으로 Larry Ellison은 10개월 만에 2,130억 달러를 잃었습니다. 투자자들은 저점 매수를 해야 할까요?

T-Mobile, 수익 예상치 상회 및 현금 흐름 전망 상향에도 불구하고 주가 하락 (NASDAQ:TMUS)