arXiv논문2026. 06. 08. 10:32

음성 감정 인식(SER)을 위한 오디오 언어 모델(ALM)의 음향 단서 정렬

요약

본 연구는 오디오 언어 모델(ALM)이 음성 감정 인식(SER) 시 음향 단서를 효과적으로 활용하는지 분석합니다. 6개의 해석 가능한 음향 개념 토큰을 도출하여 텍스트 프롬프트에 추가함으로써 모델의 성능과 해석 가능성을 검증했습니다.

핵심 포인트

6개의 음향 개념 토큰(에너지, 피치 등)을 통한 음향 단서 정렬
정렬된 토큰 사용 시 FAU-Aibo 및 IEMOCAP 벤치마크 성능 향상
토큰 섭동에도 예측이 유지되는 오디오 신호 기반의 강건성 확인
ALM 기반 감성 컴퓨팅의 해석 가능성 조사 방법론 제시

지시 이행(Instruction-following) 오디오 언어 모델(ALMs)은 명시적인 음향 단서(acoustic cues)를 통해 증강될 수 있지만, 원시 오디오(raw audio)가 이미 사용 가능한 상황에서 이러한 단서들이 근거 있는 방식(grounded way)으로 사용되는지는 여전히 불분명합니다. 본 연구에서는 표준화된 eGeMAPS 준언어적 특징(paralinguistic feature set) 세트로부터 6개의 해석 가능한 음향 개념 토큰(acoustic concept tokens)을 도출하여 음성 감정 인식(SER) 분야에서 이 문제를 연구합니다. 이 토큰들은 에너지(energy), 피치(pitch), 역동성(dynamics), 밝기(brightness), 포먼트(formants), 그리고 음질(voice quality)을 요약하며, 오디오 입력은 변경하지 않은 채 텍스트 프롬프트에 추가됩니다. 널리 사용되는 FAU-Aibo 및 IEMOCAP 벤치마크 전반에 걸쳐, 정렬된(aligned) 토큰은 미가중 평균 재현율(UAR)을 향상시키는 반면, 섞이거나(shuffled), 충돌하거나(conflicting), 손상된(corrupted) 토큰은 정렬된 토큰에 비해 성능을 저하시키고 혼동을 중립(neutral) 방향으로 이동시킵니다. 중요한 점은, 강력한 토큰 섭동(perturbations) 하에서도 예측이 붕괴되지 않는다는 것이며, 이는 모델이 상징적 단서 채널(symbolic cue channel)에는 민감하지만 오디오 신호에 부분적으로 고정(anchored)되어 있음을 시사합니다. 우리는 토큰 전용 개입(token-only interventions)이 ALM 기반 감성 컴퓨팅(affective computing)에서 오디오에 근거한 단서 사용, 강건성(robustness), 그리고 해석 가능성(interpretability)을 조사할 수 있는 실질적인 방법을 제공한다고 주장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

음성 감정 인식(SER)을 위한 오디오 언어 모델(ALM)의 음향 단서 정렬

요약

핵심 포인트

댓글