수어 대화에서의 감정 인식
요약
수어 대화의 맥락을 반영한 감정 인식 연구를 위해 eJSL Dialog 데이터셋을 제안합니다. 기존의 고립된 문장 중심 데이터셋의 한계를 극복하고, 멀티모달 대화 아키텍처를 통한 체계적인 벤치마킹을 수행했습니다.
핵심 포인트
- 수어 대화 맥락을 포함한 eJSL Dialog 데이터셋 제안
- 고립된 발화 중심 학습 모델의 성능 저하 문제 지적
- 수어 특화 맥락 인식 시각 추출기의 필요성 입증
- 도메인 격차 해소를 위한 대규모 사전 학습의 중요성
대화에서의 감정 인식 (Emotion Recognition in Conversation)은 감성 컴퓨팅 (Affective Computing)의 핵심 구성 요소이지만, 현재의 수어 감정 데이터셋 자원은 주로 고립된 문장 (Isolated sentences)에 집중되어 있으며 대화 맥락 (Conversational context)이 부족합니다. 이러한 고립된 발화 (Utterances)만을 대상으로 학습된 모델들은 과거의 대화 흐름 (Dialogue flow)을 활용할 수 없기 때문에 실제 환경에서는 성능이 저하되는 모습을 보입니다. 이러한 구조적 한계를 해결하기 위해, 본 연구에서는 수어 비디오 분석에 ERC (Emotion Recognition in Conversation) 태스크를 도입하고 eJSL Dialog 데이터셋을 제안합니다. STUDIES 코퍼스 (Corpus)의 스크립트를 사용하여 구축된 이 데이터셋은 480개의 고유한 대화로 구성된 1,920개의 비디오 샘플을 포함하고 있습니다. 우리는 고립된 시각 네트워크 (Isolated visual networks)부터 멀티모달 대화 아키텍처 (Multimodal conversational architectures)에 이르는 모델들을 사용하여 이 데이터셋에 대한 체계적인 벤치마킹을 수행합니다. 결과에 따르면, 일반적인 멀티모달 대화 감정 인식 모델을 수어에 적용할 때 도메인 격차 (Domain gap)가 발생함을 알 수 있습니다. 이러한 발견은 수어에 특화된 맥락 인식 시각 추출기 (Context aware visual extractors)의 명확한 필요성을 입증하며, 대규모 사전 학습 (Large scale pre-training)을 지원하기 위해 대화 데이터셋의 규모를 확장하는 것이 향후 연구를 위한 필수적인 다음 단계임을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기