본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 14:05

음향 감정 인식을 넘어: LLM 기반 및 음향 감정 모델을 이용한 정치 연설의 멀티모달 파토스 (Pathos) 분석

요약

정치 연설의 파토스(Pathos) 분석을 위해 음향 감정 인식 모델과 LLM 기반 멀티모달 분석의 성능을 비교 연구했습니다. Gemini 2.5 Flash를 활용한 분석이 음향 모델보다 정치적 감정을 더 정확하게 포착함을 입증했습니다.

핵심 포인트

  • LLM 기반 분석이 음향 모델보다 정치적 감정 포착에 효과적임
  • Gemini 2.5 Flash와 TRUST-Pathos 점수 간 강한 상관관계 확인
  • 기존 SER 벤치마크 데이터셋의 문화적 편향 및 품질 문제 지적
  • 음향 특징은 저수준의 각성(Arousal) 추정에 유용함

우리는 TRUST 멀티 에이전트 거대 언어 모델 (LLM) 파이프라인에 의해 조작화된 정치 연설 분석의 파토스 (Pathos) 차원을 음향 감정 인식 모델이 대리 지표 (proxies)로서 역할을 할 수 있는지 조사합니다. Felix Banaszak의 연방의회 (Bundestag) 본회의 연설(51개 세그먼트, 245초)을 사례 연구로 사용하여, 세 가지 분석 양식 (modalities)을 비교합니다: (1) emotion2vec_plus_large, 사후 Russell Circumplex 투영을 통해 연속적인 각성 (Arousal) 및 가치 (Valence) 값을 도출하는 음향 음성 감정 인식 (SER) 모델; (2) Gemini 2.5 Flash, 전체 연설 오디오와 전사본 (transcript)을 개방형 및 문맥 인식 방식으로 분석하는 LLM; (3) 세 명의 옹호자(advocate) LLM 감독관 앙상블로부터 얻은 TRUST-Pathos 점수. Spearman 순위 상관관계 분석 결과, Gemini의 가치 (Valence)는 TRUST-Pathos와 강한 상관관계(rho = +0.664, p < 0.001)를 보인 반면, emotion2vec의 가치 (Valence)는 그렇지 않았습니다 (rho = +0.097, p = 0.499). 나아가 우리는 개방형 주석 패러다임에서 Gemini를 사용하여 베를린 감정 음성 데이터베이스 (EMO-DB)에 대한 체계적인 품질 평가를 수행함으로써, 표준 SER 벤치마크 코퍼스 (corpora)가 연기된 음성 (acted speech), 문화적 편향, 그리고 범주 불일치 문제를 겪고 있음을 입증합니다. 우리의 결과는 LLM 기반의 멀티모달 분석이 음향 모델 단독보다 의미론적으로 정의된 정치적 감정을 실질적으로 더 잘 포착하는 반면, 음향 특징은 저수준의 각성 (Arousal) 추정에는 여전히 유익한 정보를 제공함을 시사합니다. 향후 연구에서는 이 접근 방식을 얼굴 표정과 시선을 포함하는 비디오 기반 분석으로 확장할 예정입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0