ProSarc: 시간적 운율 불일치를 통한 운율 인식 비꼬기 인식 프레임워크
요약
ProSarc는 오디오 데이터에서 시간적 운율 불일치를 모델링하여 비꼬기를 탐지하는 새로운 프레임워크입니다. 전역 감정 인코더와 시간적 운율 인코더를 결합하여 비꼬기의 시작점을 국소화하고 높은 성능을 입증했습니다.
핵심 포인트
- 시간적 운율 불일치를 활용한 오디오 전용 비꼬기 탐지
- BiLSTM과 Multi-head attention 기반의 이중 인코딩 구조
- MUStARD++ 데이터셋에서 F1 스코어 75.3 달성
- Monte Carlo dropout을 통한 불확실성 추정 및 시작점 국소화
우리는 국소적 운율 역동성(local prosodic dynamics)과 발화 수준의 감정 기준선(utterance-level emotional baseline) 사이의 불일치, 즉 시간적 운율 불일치(temporal prosodic incongruity)를 모델링하여 비꼬기(sarcasm)를 탐지하는 오디오 전용 프레임워크인 ProSarc를 제시합니다. 이중 인코딩 경로인 전역 감정 인코더(Global Emotion Encoder)와 시간적 운율 인코더(Temporal Prosody Encoder; BiLSTM + multi-head attention)는 분류를 위한 스칼라 불일치 점수(scalar incongruity score)를 생성하는 운율 불일치 분석기(Prosodic Incongruity Analyzer)에 입력됩니다. Monte Carlo dropout은 불확실성 추정치(uncertainty estimates)를 제공하며, 어텐션 기반 메커니즘(attention-based mechanism)은 프레임 수준의 레이블 없이도 비꼬기의 시작점(sarcastic onset)을 국소화합니다. ProSarc는 MUStARD++ 데이터셋에서 기존의 오디오 전용 방식보다 뛰어난 성능(F1=75.3)을 보였으며, 자발적 발화(PodSarc, F1=62.9) 및 교차 언어 발화(MuSaG, F1=65.6)로도 일반화됩니다. 10회 실행 검증(Ten-run validation)을 통해 불일치 모델링의 기여도를 확인했습니다(Wilcoxon p=0.002, Cohen's d=1.51). 인간 평가 결과, 모델의 불확실성은 지각적 모호성(perceptual ambiguity)을 추적하며, 예측된 시작점은 인간이 주석을 단 시간적 창(temporal windows)과 일치함을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기