arXiv논문2026. 06. 09. 10:43

레이어로서의 Titans: 대화형 음성 감정 인식(SER)을 위한 테스트 시간 메모리

요약

대화형 음성 감정 인식(SER)을 위해 대규모 오디오 언어 모델(LALM)에 테스트 시간 신경 메모리를 결합하는 연구를 소개합니다. Titans 기반의 Memory-as-a-Layer(MAL) 어댑터를 통해 모델의 구조 변경 없이 대화 맥락을 효과적으로 반영합니다.

핵심 포인트

대화 이력을 신경 메모리에 기록하여 감정적 맥락 제공
Titans 기반의 플러그 앤 플레이 방식 MAL 어댑터 제안
오디오 토큰과 정렬된 잔차 업데이트 메커니즘 활용
다양한 오디오 LLM 및 데이터셋에서 SER 성능 향상 입증

음성 감정 인식 (Speech emotion recognition, SER)은 일반적으로 발화 수준의 분류 (utterance-level classification)로 정식화되지만, 대화형 감정은 화자의 평소 음성 범위와 이전 발화들에 의해 형성된 감정적 맥락에 따라 달라집니다. 음성-언어 모델 (Speech-language models)은 강력한 사전 학습된 음향 및 의미론적 표현 (acoustic and semantic representations)을 제공하며, 미세 조정 (finetune)을 통해 이를 SER 레이블에 적응시킬 수 있지만, 이 메커니즘에는 여전히 대화별 상태 (per-dialogue state)가 결여되어 있습니다. 본 연구에서는 대규모 오디오 언어 모델 (Large Audio Language Models, LALMs)의 백본 (backbone)을 그대로 유지하면서, 테스트 시간 신경 메모리 (test-time neural memory)가 이 누락된 맥락을 제공할 수 있는지 연구합니다. Titans를 기반으로, 우리는 대화 이력을 작은 신경 메모리에 기록하고 이를 오디오 토큰과 정렬된 잔차 업데이트 (audio-token-aligned residual update)로 다시 읽어 들여, 호스트 모델의 토큰 위치 변경을 피하는 플러그 앤 플레이 방식의 Memory-as-a-Layer (MAL) 어댑터를 소개합니다. 다양한 오디오 LLM 및 감정 인식 데이터셋 평가를 통해, 우리의 설계는 다양한 평가 지표에서 SER 성능을 향상시켰으며, 이는 테스트 시간 메모리가 대화형 SER을 위한 잔차 맥락 메커니즘 (residual contextual mechanism)으로서 기능함을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

레이어로서의 Titans: 대화형 음성 감정 인식(SER)을 위한 테스트 시간 메모리

요약

핵심 포인트

댓글