순서가 중요하다: 혼합 감정 인식(Blended Emotion Recognition)을 위한 순위 인식 선택적 융합
요약
본 논문은 미묘하고 중첩된 멀티모달 단서를 처리하기 위한 '순위 인식 선택적 융합' 프레임워크를 제안합니다. 다양한 비디오 및 오디오 인코더의 특징을 공유 잠재 공간으로 투영한 뒤, 어텐션 기반 게이팅을 통해 가장 정보량이 많은 상위 n개의 인코더만을 선택적으로 결합합니다. BlEmoRE 챌린지에서 2위를 기록하며 제안된 방식의 효과를 입증했습니다.
핵심 포인트
- 상호 보완적인 멀티모달 표현을 결합하기 위한 순위 인식 멀티 인코더 프레임워크 제안
- 어텐션 기반 게이팅 모듈을 사용하여 샘플별로 가장 중요한 상위 n개의 인코더 특징만 선택적 융합
- 감정의 존재(Presence)와 돌출성(Salience)을 분리하여 예측하고 확률 수준에서 정렬
- 비지도 도메인 적응(Unsupervised domain adaptation)을 통해 분포 변화에 대한 강건성 확보
- BlEmoRE 챌린지 2위 달성으로 기존 베이스라인 대비 우수한 성능 증명
혼합 감정 인식(Blended Emotion Recognition)은 감정이 단일한 지배적 신호보다는 미묘하고 중첩되는 멀티모달(Multimodal) 단서들의 혼합으로 표현되는 경우가 많기 때문에 매우 도전적인 과제입니다. 본 논문에서는 사전 추출된 다양한 비디오 및 오디오 인코더(Encoder)로부터 상호 보완적인 표현(Representation)을 선택적으로 결합하는 순위 인식 멀티 인코더(Rank-aware multi-encoder) 프레임워크를 제안합니다. 우리의 방법은 이질적인 인코더 특징(Feature)들을 공유 잠재 공간(Shared latent space)으로 투영하고, 어텐션 기반 게이팅 모듈(Attention-based gating module)을 통해 샘플별 인코더 중요도를 추정하며, 가장 정보량이 많은 상위 n개의 인코더만을 융합합니다. 혼합된 감정을 더 잘 모델링하기 위해, 우리는 예측을 존재(Presence) 헤드와 돌출성(Salience) 헤드로 분리하고 확률 수준 융합(Probability-level fusion)을 통해 이들을 정렬합니다. 나아가 분포 변화(Distribution shift) 상황에서의 강건성(Robustness)을 향상시키기 위해 의사 라벨링(Pseudo-labeling) 없이 특징 수준의 비지도 도메인 적응(Unsupervised domain adaptation)을 통합합니다. BlEmoRE 챌린지에서의 실험 결과, 제안된 프레임워크가 강력한 개별 인코더 및 단순한 멀티 인코더 융합(Naïve multi-encoder fusion) 베이스라인보다 뛰어난 성능을 보임을 입증했습니다. 우리의 최종 시스템은 대회에서 2위를 기록하였으며, 이는 세밀한 혼합 감정 인식을 위한 순위 인식 선택적 융합(Rank-aware selective fusion)의 효과를 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기