arXiv논문2026. 06. 04. 12:04

라벨이 왜 필요할까? 이미 보유한 메타데이터를 활용한 Vision Foundation Models의 적응

요약

라벨이 부족한 특화 도메인에서 Vision Foundation Models를 적응시키기 위한 새로운 방법론인 FINO를 제안합니다. 메타데이터를 활용한 자기 지도 학습을 통해 모델의 범용성을 유지하면서도 과학적 도메인에서 뛰어난 성능을 입증했습니다.

핵심 포인트

라벨 없이 메타데이터를 활용한 자기 지도 학습 방식 제안
범용성을 유지하며 특정 도메인에 대한 표현력 적응
이산형 및 연속형 메타데이터를 모두 처리하는 유연한 가이드
의료, 지구 관측 등 다양한 분야에서 SOTA 성능 달성

우리는 강력하지만 범용적인 Vision Foundation Models (시각 기초 모델)를 특화된 과학 도메인에 적응시키기 위한 라벨 없는 (label-free) 접근 방식을 제안합니다. 표준적인 지도 미세 조정 (Supervised Fine-tuning)은 이러한 환경에 적합하지 않은 경우가 많습니다. 라벨은 부족하며, 작업 특화 학습 (Task-specific training)은 모델의 범용성을 무너뜨리고 강건성 (Robustness)을 해칠 수 있기 때문입니다. 대신 우리는 메타데이터 (Metadata)를 활용하여 자기 지도 학습 (Self-supervised learning) 방식으로 새로운 도메인에 표현 (Representations)을 적응시킵니다. 우리의 방법론인 FINO는 표준적인 자기 지도 학습 목적 함수 (Self-supervised objective)와 매우 세밀한 이산형 메타데이터 (Discrete metadata) 및 연속형 메타데이터 (Continuous metadata)를 모두 처리할 수 있는 유연한 메타데이터 가이드를 결합합니다. 이는 표현이 정보가 풍부한 요인 (Informative factors)은 보존하면서 가짜 요인 (Spurious factors)은 억제하도록 유도합니다. 세포 내 형광 현미경 (Subcellular fluorescence microscopy), 지구 관측 (Earth observation), 야생 동물 모니터링 (Wildlife monitoring), 의료 영상 (Medical imaging) 전반에 걸쳐 FINO는 표준적인 비지도 도메인 적응 (Unsupervised domain adaptation) 및 완전 지도 적응 (Fully supervised adaptation)보다 일관되게 우수한 성능을 보입니다. 또한, 백본 (Backbone) 적응을 위해 작업 라벨을 전혀 사용하지 않고 감독 (Supervision)을 위해 가벼운 프로브 (Lightweight probes)만을 사용하면서도, 매우 특화된 도메인별 최신 기술 (State of the art)을 능가합니다.

AI 자동 생성 콘텐츠

원문 바로가기

라벨이 왜 필요할까? 이미 보유한 메타데이터를 활용한 Vision Foundation Models의 적응

요약

핵심 포인트

댓글