ZEBRA: 오디오-언어 모델의 Base-to-Novel 일반화를 위한 제로샷 엔트로피 정규화 프롬프트 학습 (Zero-Shot

오디오-언어 모델 (Audio-Language Models, ALMs)은 오디오를 텍스트 클래스 설명과 정렬함으로써 강력한 제로샷 (zero-shot) 성능을 달성합니다. 프롬프트 학습 (prompt learning)은 퓨샷 (few-shot) 지도 적응 (supervised adaptation)을 통해 베이스 클래스 (base classes)에서의 정확도를 향상시키지만, 우리는 중요한 트레이드오프 (trade-off)를 관찰했습니다. 즉, 프롬프트 학습은 종종 노벨 클래스 (novel classes)에서의 성능을 저하시키며, 때로는 제로샷 정확도보다 낮아지기도 합니다. 이는 ALM을 위한 프롬프트 학습에서 베이스-투-노벨 (base-to-novel) 일반화 격차 (generalization gap)가 존재함을 드러냅니다. 이 문제를 해결하기 위해, 우리는 extbf{ZEBRA} (Zero-shot Entropy-Regularized Prompt Learning for Base-to-Novel Generalization)를 제안합니다. 이는 제로샷 로짓 (zero-shot logits)과 프롬프트 학습 로짓 (prompt-learning logits)을 융합하고, 베이스 클래스에 대한 과적합 (overfitting)을 줄이기 위해 자기 엔트로피 정규화 (self-entropy regularization)를 사용하는 플러그 앤 플레이 (plug-and-play) 프레임워크입니다. 여러 오디오 분류 데이터셋에 걸친 실험을 통해, ZEBRA는 강력한 베이스 정확도를 유지하면서 노벨 클래스 성능을 일관되게 향상시키며, 표준 프롬프트 학습과 비교하여 베이스-투-노벨 격차를 크게 줄임을 보여줍니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/asif-hanif/zebra.

Insights

ZEBRA: 오디오-언어 모델의 Base-to-Novel 일반화를 위한 제로샷 엔트로피 정규화 프롬프트 학습 (Zero-Shot

요약

핵심 포인트

댓글

PDF 챗봇을 직접 만들어 보았습니다 — 실제로 효과가 있었던 방법들

AI 프롬프트 작성법: 신입 사원에게 업무 지시하듯 작성하라

이기종 기업 데이터베이스를 위한 자연어-SQL 변환(NL2SQL)용 시맨틱 레이어 매개 에이전트

진실인가 궤변인가? LoFa: 논리적 오류에 대한 LLM 강건성 벤치마크

AI 프롬프트 작성법: 신입 사원에게 업무 지시하듯 작성하라

이기종 기업 데이터베이스를 위한 자연어-SQL 변환(NL2SQL)용 시맨틱 레이어 매개 에이전트

진실인가 궤변인가? LoFa: 논리적 오류에 대한 LLM 강건성 벤치마크