ZEBRA: 오디오-언어 모델의 Base-to-Novel 일반화를 위한 제로샷 엔트로피 정규화 프롬프트 학습 (Zero-Shot
요약
오디오-언어 모델(ALM)의 프롬프트 학습 시 발생하는 베이스 클래스 과적합과 노벨 클래스 성능 저하 문제를 해결하기 위한 ZEBRA 프레임워크를 제안합니다. 제로샷 로짓 융합과 자기 엔트로피 정규화를 통해 베이스-투-노벨 일반화 격차를 효과적으로 줄였습니다.
핵심 포인트
- 프롬프트 학습 시 발생하는 베이스-투-노벨 일반화 격차 문제 지적
- 제로샷 로짓과 프롬프트 학습 로짓을 결합하는 ZEBRA 프레임워크 제안
- 자기 엔트로피 정규화를 통한 베이스 클래스 과적합 방지
- 다양한 데이터셋 실험을 통해 노벨 클래스 성능 향상 입증
오디오-언어 모델 (Audio-Language Models, ALMs)은 오디오를 텍스트 클래스 설명과 정렬함으로써 강력한 제로샷 (zero-shot) 성능을 달성합니다. 프롬프트 학습 (prompt learning)은 퓨샷 (few-shot) 지도 적응 (supervised adaptation)을 통해 베이스 클래스 (base classes)에서의 정확도를 향상시키지만, 우리는 중요한 트레이드오프 (trade-off)를 관찰했습니다. 즉, 프롬프트 학습은 종종 노벨 클래스 (novel classes)에서의 성능을 저하시키며, 때로는 제로샷 정확도보다 낮아지기도 합니다. 이는 ALM을 위한 프롬프트 학습에서 베이스-투-노벨 (base-to-novel) 일반화 격차 (generalization gap)가 존재함을 드러냅니다. 이 문제를 해결하기 위해, 우리는 extbf{ZEBRA} (Zero-shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization)를 제안합니다. 이는 제로샷 로짓 (zero-shot logits)과 프롬프트 학습 로짓 (prompt-learning logits)을 융합하고, 베이스 클래스에 대한 과적합 (overfitting)을 줄이기 위해 자기 엔트로피 정규화 (self-entropy regularization)를 사용하는 플러그 앤 플레이 (plug-and-play) 프레임워크입니다. 여러 오디오 분류 데이터셋에 걸친 실험을 통해, ZEBRA는 강력한 베이스 정확도를 유지하면서 노벨 클래스 성능을 일관되게 향상시키며, 표준 프롬프트 학습과 비교하여 베이스-투-노벨 격차를 크게 줄임을 보여줍니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/asif-hanif/zebra.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기