생물 의학 시각-언어 모델(Biomedical Vision-Language Models)의 프롬프트 튜닝을 위한 기하학 인지 증류
요약
의료 영상 분야의 시각-언어 모델(VLM) 튜닝 시 클래스 간 관계를 무시하는 기존 방식의 한계를 극복하기 위한 OGKD 프레임워크를 제안합니다. 교사 모델의 클래스 기하학 구조를 활용하여 정답 보존과 클래스 관계를 동시에 최적화합니다.
핵심 포인트
- 클래스 간 기하학적 구조를 반영하는 OGKD 프레임워크 제안
- 전역 및 세밀한 정렬을 위한 두 가지 증류 손실(GAD, LGD) 개발
- 11개 의료 데이터셋 실험 결과 기존 SOTA 대비 성능 향상 입증
- 미학습 클래스(unseen classes)에 대한 강력한 일반화 성능 제공
현재 시각-언어 모델(Vision-Language Models, VLMs)의 프롬프트 기반(prompt-based) 및 어댑터 기반(adapter-based) 튜닝은 임상 데이터의 민감성으로 인해 동결된 백본(frozen backbones)이 선호되고 주석(annotations)이 제한적인 의료 영상 분야에서 매력적인 방법입니다. 그러나 이러한 방법들은 일반적으로 정답 클래스(ground-truth class)만을 최적화하고 나머지 모든 클래스를 동일하게 틀린 것으로 취급하여, 임상적으로 의미 있는 클래스 관계를 무시하고 제한된 감독(limited-supervision) 환경에서 불안정한 결정 경계(decision boundaries)를 생성합니다. 우리는 클래스 관계 구조를 교사(teacher) 모델에 주입하여, 클래스 간 기하학적 구조(inter-class geometry)를 존중하면서도 정답을 보존하는 방향성 타겟(directional targets)을 생성하는 새로운 프레임워크인 Omni-Geometry Knowledge Distillation (OGKD)를 제안합니다. 이러한 타겟을 사용하여 우리는 두 가지 증류 손실(distillation losses)을 개발했습니다: 전역 기하학 인지 증류 (Global Geometry-Aware Distillation, GAD)는 전역 이미지 토큰(global image token)에서 작동하며, 레이블 가이드 기하학 증류 (Label-Guided Geometry Distillation, LGD)는 세밀한 정렬(fine-grained alignment)을 개선하기 위해 주의 집중 패치 토큰(attentive patch tokens)에 동일한 기하학을 적용합니다. Base-to-novel 및 Few-shot 평가를 위한 11개의 널리 사용되는 의료 데이터셋에 대한 포괄적인 실험과 분석을 통해, 우리의 OGKD는 실질적으로 더 나은 성능을 달성하였으며, 모든 기존 최첨단(state-of-the-art) VLM 적응 방식들에 비해 평균적으로 1.7%-2.8%의 절대적 이득을 통해 일관되게 정확도를 향상시켰습니다. 또한, OGKD는 보지 못한 클래스(unseen classes)에 대해 강력하게 일반화되며 다른 접근 방식보다 더 신뢰할 수 있는 예측을 생성합니다. 우리의 코드는 https://github.com/tientrandinh/OGKD 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기