음향 감정 인식을 넘어: LLM 기반 및 음향 감정 모델을 이용한 정치 연설의 멀티모달 파토스 (Pathos) 분석

우리는 TRUST 멀티 에이전트 거대 언어 모델 (LLM) 파이프라인에 의해 조작화된 정치 연설 분석의 파토스 (Pathos) 차원을 음향 감정 인식 모델이 대리 지표 (proxies)로서 역할을 할 수 있는지 조사합니다. Felix Banaszak의 연방의회 (Bundestag) 본회의 연설(51개 세그먼트, 245초)을 사례 연구로 사용하여, 세 가지 분석 양식 (modalities)을 비교합니다: (1) emotion2vec_plus_large, 사후 Russell Circumplex 투영을 통해 연속적인 각성 (Arousal) 및 가치 (Valence) 값을 도출하는 음향 음성 감정 인식 (SER) 모델; (2) Gemini 2.5 Flash, 전체 연설 오디오와 전사본 (transcript)을 개방형 및 문맥 인식 방식으로 분석하는 LLM; (3) 세 명의 옹호자(advocate) LLM 감독관 앙상블로부터 얻은 TRUST-Pathos 점수. Spearman 순위 상관관계 분석 결과, Gemini의 가치 (Valence)는 TRUST-Pathos와 강한 상관관계(rho = +0.664, p < 0.001)를 보인 반면, emotion2vec의 가치 (Valence)는 그렇지 않았습니다 (rho = +0.097, p = 0.499). 나아가 우리는 개방형 주석 패러다임에서 Gemini를 사용하여 베를린 감정 음성 데이터베이스 (EMO-DB)에 대한 체계적인 품질 평가를 수행함으로써, 표준 SER 벤치마크 코퍼스 (corpora)가 연기된 음성 (acted speech), 문화적 편향, 그리고 범주 불일치 문제를 겪고 있음을 입증합니다. 우리의 결과는 LLM 기반의 멀티모달 분석이 음향 모델 단독보다 의미론적으로 정의된 정치적 감정을 실질적으로 더 잘 포착하는 반면, 음향 특징은 저수준의 각성 (Arousal) 추정에는 여전히 유익한 정보를 제공함을 시사합니다. 향후 연구에서는 이 접근 방식을 얼굴 표정과 시선을 포함하는 비디오 기반 분석으로 확장할 예정입니다.

Insights

음향 감정 인식을 넘어: LLM 기반 및 음향 감정 모델을 이용한 정치 연설의 멀티모달 파토스 (Pathos) 분석

요약

핵심 포인트

댓글

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Tesla 실적 발표 관련 아이언 콘도르 (Iron Condor) 전략, 3일 만에 67% 수익 가능성

T. Rowe Price Group의 실적 발표를 앞두고 알아야 할 사항

AI 채용 SaaS 구축하기: 배운 점들

Andrew Ng의 OpenWorker: 오픈 소스 데스크톱 AI 에이전트

Tesla 실적 발표 관련 아이언 콘도르 (Iron Condor) 전략, 3일 만에 67% 수익 가능성

T. Rowe Price Group의 실적 발표를 앞두고 알아야 할 사항