arXiv논문2026. 06. 16. 11:43

오디오 언어 모델(Audio Language Models)의 퓨샷 학습(Few-Shot Learning)을 위한 단계별 변조 기반의 음향

요약

오디오 언어 모델(ALM)의 퓨샷 학습 성능을 높이기 위해 오디오 인코더에 학습 가능한 프롬프트를 도입하는 새로운 프레임워크를 제안합니다. 텍스트 측 프롬프팅과 오디오 측 프롬프팅을 통합하여 작업 특화된 음향 특징을 효과적으로 포착할 수 있음을 입증했습니다.

핵심 포인트

오디오 인코더 내 학습 가능한 프롬프트 도입
텍스트 및 오디오 측 프롬프트 통합을 통한 성능 향상
11개 데이터셋 실험을 통해 플러그 앤 플레이 모듈 효과 입증
오디오 표현 공간 변조를 통한 텍스트 프롬프팅 보완

오디오 언어 모델(Audio-Language Models, ALMs)은 오디오 파형(audio waveforms)을 텍스트와 정렬함으로써 제로샷(zero-shot) 오디오 분류에서 놀라운 성공을 보여주었습니다. 다운스트림 성능을 향상시키려는 최근의 노력들은 최적의 텍스트 프롬프트(text prompts)를 학습하는 데 집중하고 있습니다. 그러나 이전의 접근 방식들은 텍스트 인코더(text encoder)에 집중하여, 오디오 인코더(audio encoder) 내에서 학습 가능한 프롬프트(learnable prompts)의 잠재력을 탐구하지 않은 채 남겨두었습니다. 본 논문에서는 작업 특화된 음향 특징(task-specific acoustic features)을 포착하기 위해 오디오 인코더에 학습 가능한 프롬프트를 도입하는 새로운 프레임워크를 제안합니다. 우리는 오디오 측 프롬프트 학습(audio-side prompt learning)을 기존의 텍스트 측 접근 방식(text-side approaches)과 통합하는 것이 퓨샷 적응(few-shot adaptation)을 향상시킨다는 것을 입증합니다. 11개의 데이터셋에 걸친 광범위한 실험을 통해, 우리의 방법을 기존의 텍스트 프롬프트 튜닝(text prompt tuning)과 함께 플러그 앤 플레이(plug-and-play) 모듈로 통합하는 것이 일반적으로 성능 향상으로 이어진다는 것을 보여줍니다. 이러한 결과는 오디오 표현 공간(audio representation space)을 명시적으로 변조(modulating)하는 것이 텍스트 전용 프롬프팅(text-only prompting) 접근 방식을 효과적으로 보완한다는 것을 시사합니다. 코드는 https://github.com/hyebin-c/aspl 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

오디오 언어 모델(Audio Language Models)의 퓨샷 학습(Few-Shot Learning)을 위한 단계별 변조 기반의 음향

요약

핵심 포인트

댓글