레이어로서의 Titans: 대화형 음성 감정 인식(SER)을 위한 테스트 시간 메모리
요약
대화형 음성 감정 인식(SER)을 위해 대규모 오디오 언어 모델(LALM)에 테스트 시간 신경 메모리를 결합하는 연구를 소개합니다. Titans 기반의 Memory-as-a-Layer(MAL) 어댑터를 통해 모델의 구조 변경 없이 대화 맥락을 효과적으로 반영합니다.
핵심 포인트
- 대화 이력을 신경 메모리에 기록하여 감정적 맥락 제공
- Titans 기반의 플러그 앤 플레이 방식 MAL 어댑터 제안
- 오디오 토큰과 정렬된 잔차 업데이트 메커니즘 활용
- 다양한 오디오 LLM 및 데이터셋에서 SER 성능 향상 입증
음성 감정 인식 (Speech emotion recognition, SER)은 일반적으로 발화 수준의 분류 (utterance-level classification)로 정식화되지만, 대화형 감정은 화자의 평소 음성 범위와 이전 발화들에 의해 형성된 감정적 맥락에 따라 달라집니다. 음성-언어 모델 (Speech-language models)은 강력한 사전 학습된 음향 및 의미론적 표현 (acoustic and semantic representations)을 제공하며, 미세 조정 (finetune)을 통해 이를 SER 레이블에 적응시킬 수 있지만, 이 메커니즘에는 여전히 대화별 상태 (per-dialogue state)가 결여되어 있습니다. 본 연구에서는 대규모 오디오 언어 모델 (Large Audio Language Models, LALMs)의 백본 (backbone)을 그대로 유지하면서, 테스트 시간 신경 메모리 (test-time neural memory)가 이 누락된 맥락을 제공할 수 있는지 연구합니다. Titans를 기반으로, 우리는 대화 이력을 작은 신경 메모리에 기록하고 이를 오디오 토큰과 정렬된 잔차 업데이트 (audio-token-aligned residual update)로 다시 읽어 들여, 호스트 모델의 토큰 위치 변경을 피하는 플러그 앤 플레이 방식의 Memory-as-a-Layer (MAL) 어댑터를 소개합니다. 다양한 오디오 LLM 및 감정 인식 데이터셋 평가를 통해, 우리의 설계는 다양한 평가 지표에서 SER 성능을 향상시켰으며, 이는 테스트 시간 메모리가 대화형 SER을 위한 잔차 맥락 메커니즘 (residual contextual mechanism)으로서 기능함을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기