잔차 연결 (Residual Connection)을 결합한 어텐션 기반 LSTM 네트워크를 이용한 음성 감정 인식 (Speech Emotion
요약
잔차 연결(Residual Connection)과 소프트 어텐션(Soft Attention)을 결합한 경량 LSTM 아키텍처인 ResLSTM-SA를 제안합니다. 이 모델은 매우 적은 파라미터로도 기존 대규모 모델에 필적하는 음성 감정 인식 성능을 보여줍니다.
핵심 포인트
- 잔차 연결과 어텐션 메커니즘을 통합한 ResLSTM-SA 제안
- 46.8k개의 적은 파라미터로 높은 UAR 달성
- 대규모 자기 지도 학습 모델 대비 1,000배 적은 파라미터 사용
- 엣지 디바이스 및 실시간 음성 비서 배포에 최적화
음성 감정 인식 (Speech emotion recognition)은 현대의 인간-컴퓨터 상호작용 (Human-computer interaction) 시스템에서 중요한 구성 요소입니다. 그러나 많은 최첨단 (State-of-the-art) 방식들은 높은 연산 및 메모리 요구 사항을 가진 대규모 사전 학습된 모델 (Pretrained models)에 의존하고 있어 적용 가능성이 제한적입니다. 본 논문은 LSTM 기반 프레임워크 내에서 잔차 연결 (Residual connections)과 소프트 어텐션 (Soft attention)을 통합한 경량 아키텍처인 ResLSTM-SA를 제안합니다. 엄격한 화자 독립 (Speaker-independent) 분할 조건 하에 RAVDESS 데이터셋에서 평가한 결과, 제안된 모델은 비가중 평균 재현율 (Unweighted average recall, UAR) 측면에서 기존의 어텐션 기반 LSTM 베이스라인 및 이전에 보고된 여러 CNN 및 하이브리드 CNN-LSTM 아키텍처보다 우수한 성능을 보였습니다. 가장 성능이 뛰어난 변형 모델인 ResLSTM-SA-h64는 단 46.8k개의 학습 가능한 파라미터 (Trainable parameters)만으로 최대 0.6517의 UAR을 달성하였으며, 이는 대규모 자기 지도 학습 (Self-supervised) 대안 모델들보다 파라미터 수가 3자릿수(1,000배)나 적으면서도 경쟁력 있는 정확도를 제공합니다. 이를 통해 엣지 디바이스 (Edge devices) 및 실시간 음성 비서 (Real-time voice assistants)에 효율적인 배포가 가능합니다. 소스 코드는 https://github.com/Mak-Sim/ResLSTM-SER 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기