Aloe-Vision: 의료 분야를 위한 강건한 시각-언어 모델 (Vision-Language Models)
요약
의료 분야에 특화된 강건한 시각-언어 모델(LVLM)인 Aloe-Vision을 소개합니다. 고품질 데이터셋인 Aloe-Vision-Data와 새로운 시각 벤치마크인 CareQA-Vision을 통해 의료 AI의 신뢰성과 성능을 입증했습니다.
핵심 포인트
- 의료 및 일반 도메인을 통합한 대규모 품질 필터링 데이터셋 Aloe-Vision-Data 공개
- 7B 및 72B 규모의 의료 특화 LVLM 제품군 Aloe-Vision 개발
- 오염 가능성을 낮춘 새로운 시각 벤치마크 CareQA-Vision 제안
- 임상 맥락에서 현재 LVLM의 적대적 입력 취약성 및 신뢰성 문제 지적
의료 분야에 특화된 대규모 시각-언어 모델 (Large Vision-Language Models, LVLMs)은 임상 및 생물 의학 응용 분야에서의 잠재적 영향력 덕분에 유망한 연구 방향으로 떠오르고 있습니다. 그러나 고품질 의료 멀티모달 (multimodal) 데이터의 부족, 안전이 중요한 환경에서의 강건성 (robustness)에 대한 우려, 그리고 신뢰할 수 있는 평가를 제한하는 좁고 잠재적으로 오염된 평가 벤치마크로 인해 발전이 제약되고 있습니다. 이러한 문제를 해결하기 위해, 이 분야는 모든 구성 요소를 검사, 평가 및 개선할 수 있는 완전한 오픈 소스이자 재현 가능한 최첨단 솔루션을 필요로 합니다. 본 연구에서는 모델 미세 조정 (fine-tuning)에 직접 사용할 수 있도록 설계된, 멀티모달 및 텍스트 전용 소스 전반에 걸쳐 의료 및 일반 도메인을 통합한 대규모 품질 필터링 혼합 데이터셋인 Aloe-Vision-Data를 소개합니다. 이 데이터셋을 기반으로, 우리는 두 가지 규모 (7B 및 72B)의 의료 LVLM 제품군인 Aloe-Vision을 훈련하였으며, 전체 가중치 (weights), 훈련 레시피 (recipes) 및 데이터를 공개적으로 출시합니다. 종합적인 벤치마킹을 통해, 우리는 고품질 훈련 혼합물이 일반적인 능력을 저해하지 않으면서도 베이스라인 모델 대비 상당한 이득을 제공하는 균형 잡힌 LVLM을 생성하며, 최첨단 대안 모델들과 비교하여 경쟁력 있는 성능을 달성함을 입증합니다. 신뢰할 수 있는 평가를 지원하기 위해, 우리는 스페인의 의사 및 간호 전문가 레지던트 입학 시험인 MIR 및 EIR 시험에서 유도된, 오염 가능성이 낮은 새로운 시각 질문을 제공하는 세심하게 큐레이션된 시각 벤치마크인 CareQA-Vision을 소개합니다. 마지막으로, 우리는 현재의 LVLM이 적대적 (adversarial)이고 오도하는 입력에 여전히 취약함을 보여줌으로써, 임상 맥락에서의 신뢰성 문제를 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기