VISAFF: 대화 내 감정 인식을 위한 화자 중심 시각적 정서 특징 학습
요약
VISAFF는 대화 내 감정 인식(ERC)을 위해 화자의 시각적 정서 특징에 집중하는 새로운 프레임워크를 제안합니다. 기존 Vision-Language Models(VLMs)가 배경이나 수동적 청취자에 집중하는 문제를 해결하기 위해, 튜닝 없이도 능동적 화자의 감정 단서를 포착하고 텍스트 및 음향 정보를 활용해 시각적 불확실성을 보완합니다. 이를 통해 대규모 모델의 미세 조정 비용을 줄이면서도 최신 기술 수준의 성능을 달성했습니다.
핵심 포인트
- 화자 중심의 시각적 정서 접지(Speaker-Centered Affective Grounding)를 통해 능동적 화자의 감정 단서에 집중함
- 신뢰도 기반 정서 보완(Reliability-Guided Affective Complementation) 메커니즘으로 텍스트 및 음향 모달리티를 활용해 시각적 모호성 해결
- 동결된(frozen) VLM을 사용하는 tuning-free 접근 방식으로 계산 비용과 미세 조정 오버헤드 제거
- 실제 데이터셋 실험을 통해 기존 SOTA 모델 대비 경쟁력 있는 성능과 높은 효율성 입증
대화 내 감정 인식 (Emotion Recognition in Conversation, ERC)은 다회차 대화에서 화자의 감정 상태를 식별하는 것을 목표로 하며, 효과적인 인간-기계 상호작용을 위해 필수적입니다. 초기 텍스트 기반 방법들은 본질적으로 중요한 비언어적 정보를 무시하기 때문에 비꼬는 표현 (sarcasm)과 같은 복잡한 시나리오를 처리하는 데 어려움을 겪습니다. 최근의 시각-언어 모델 (Vision-Language Models, VLMs)은 비디오를 직접 분석함으로써 이 문제를 해결하고 있지만, 이들은 본질적으로 ERC에 맞춤화되어 있지 않으며, 능동적인 화자보다는 감정적으로 무관한 배경 영역이나 수동적인 청취자에게 집중하는 경우가 많습니다. 또한, 이러한 대규모 모델을 미세 조정 (fine-tuning)하는 것은 과도한 계산 비용을 발생시킵니다. 게다가, 언어적 콘텐츠와 음성 운율 (vocal prosody)의 맥락 없이는 고립된 시각적 신호가 모호하거나 기술적으로 손상되는 경우가 빈번합니다. 이러한 과제들을 해결하기 위해, 우리는 ERC를 위한 화자 중심의 시각적 정서 특징 학습 프레임워크인 VISAFF를 제안합니다. VISAFF는 두 단계로 구성됩니다: 화자 중심 정서 접지 (Speaker-Centered Affective Grounding) 및 신뢰도 기반 정서 보완 (Reliability-Guided Affective Complementation). VISAFF는 튜닝이 필요 없는 (tuning-free) 접근 방식을 활용하여 동결된 (frozen) VLMs의 추론 능력을 해방하며, 과도한 학습 오버헤드 없이 능동적인 화자의 감정적 시각 단서에 집중하도록 효율적으로 유도합니다. 두 번째 단계에서는 시각적 불확실성을 보완하기 위해 텍스트 및 음향 모달리티 (modalities)를 동적으로 활용하는 신뢰도 기반 정서 보완 메커니즘을 도입합니다. 두 개의 실제 데이터셋에 대한 실험을 통해, VISAFF가 튜닝이 필요 없는 설정에서 최신 기술 (state-of-the-art) 방법들과 비교하여 매우 경쟁력 있는 성능을 달성함을 입증하였으며, 대규모 VLMs의 값비싼 미세 조정 필요성을 제거함으로써 계산 효율성을 크게 향상시켰습니다. 소스 코드는 https://anonymous.4open.science/r/speaker-2365/ 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기