Few-Shot CLIP 적응을 위한 개념 제약 프롬프트 학습 (Concept-Constrained Prompt Learning)
요약
CLIP을 다운스트림 태스크에 적응시킬 때 발생하는 과적합 문제를 해결하기 위해 Concept-Constrained Prompt Learning(CCPL) 프레임워크를 제안합니다. CCPL은 학습 가능한 프롬프트를 고정된 개념 프로토타입에 정렬하여 미학습 클래스로의 전이 성능을 높입니다.
핵심 포인트
- 클래스 전용 프롬프트의 과적합을 방지하는 경량 정규화 프레임워크 제안
- 고정된 개념 뱅크를 활용한 텍스트 공간 코사인 일관성 목적 함수 도입
- 개념 드롭아웃을 통해 특정 개념에 대한 과도한 의존성 방지
- DTD 및 EuroSAT 데이터셋에서 CoOp 대비 우수한 base-to-new 성능 입증
Few-shot 프롬프트 학습 (prompt learning)은 CLIP을 다운스트림 태스크 (downstream tasks)에 적응시키기 위한 효과적인 전략이지만, 클래스 전용 프롬프트 최적화는 베이스 클래스 (base-class) 감독에 과적합되어 보지 못한 클래스 (unseen classes)로의 전이를 약화시킬 수 있습니다. 우리는 CLIP 인코더 (encoders)를 업데이트하지 않고 학습 가능한 클래스 프롬프트를 고정된 개념 수준의 텍스트 프로토타입 (text prototypes)에 고정하는 경량화된 정규화 프레임워크인 Concept-Constrained Prompt Learning (CCPL)을 제안합니다. CCPL은 공유된 컨텍스트 토큰 (context tokens) 세트를 학습하고, 클래스 이름을 추가하여 클래스 프롬프트를 인스턴스화하며, 클래스 수준의 개념 뱅크 (concept bank)로부터 고정된 개념 프로토타입을 구축합니다. 학습 과정에서 텍스트 공간 코사인 일관성 (text-space cosine consistency) 목적 함수는 학습 가능한 클래스 프롬프트 임베딩 (embeddings)을 고정된 개념 프로토타입과 정렬하며, 개념 드롭아웃 (concept dropout)은 고정된 개념 목록에 대한 과도한 의존을 방지하기 위한 추가적인 정규화를 제공합니다. 추론 시, CCPL은 조절 가능한 앙상블 가중치 (ensemble weight) alpha를 사용하여 클래스 프롬프트 로짓 (logits)과 개념 프로토타입 로짓을 선택적으로 융합합니다. 우리의 기본 설정은 KL 기반 예측 일관성 (prediction consistency) 항 없이, 텍스트 공간 개념 정규화 lambda = 0.5, 개념 드롭아웃 p = 0.3 및 약한 개념 가이드 융합 (alpha = 0.1)을 사용합니다. 동일하게 자동 생성된 fallback 분할 하에서의 실험 결과, CCPL은 CoOp과 비교했을 때 DTD (+0.6) 및 EuroSAT (+2.9)에서 base-to-new 조화 평균 (harmonic mean)을 개선하는 반면, OxfordPets에서는 거의 중립적인 결과 (-0.1)를 유지했습니다. 어블레이션 (Ablations) 연구는 텍스트 공간 개념 정규화가 일관되게 유익한 반면, 최적의 개념 가이드 추론 강도는 데이터셋 및 프로토콜에 따라 민감하게 반응함을 보여줍니다. 이러한 결과는 개념 프로토타입이 데이터셋의 의미론 (semantics)과 자연스럽게 일치할 때 개념 제약이 가장 효과적임을 시사하며, 미세한 범주 (fine-grained categories)를 현재의 경계 조건으로 식별합니다. 코드는 다음 위치에 공개되어 있습니다: https://github.com/richael-sang/concept-constrained-prompt-learning.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기