수어 대화에서의 감정 인식

대화에서의 감정 인식 (Emotion Recognition in Conversation)은 감성 컴퓨팅 (Affective Computing)의 핵심 구성 요소이지만, 현재의 수어 감정 데이터셋 자원은 주로 고립된 문장 (Isolated sentences)에 집중되어 있으며 대화 맥락 (Conversational context)이 부족합니다. 이러한 고립된 발화 (Utterances)만을 대상으로 학습된 모델들은 과거의 대화 흐름 (Dialogue flow)을 활용할 수 없기 때문에 실제 환경에서는 성능이 저하되는 모습을 보입니다. 이러한 구조적 한계를 해결하기 위해, 본 연구에서는 수어 비디오 분석에 ERC (Emotion Recognition in Conversation) 태스크를 도입하고 eJSL Dialog 데이터셋을 제안합니다. STUDIES 코퍼스 (Corpus)의 스크립트를 사용하여 구축된 이 데이터셋은 480개의 고유한 대화로 구성된 1,920개의 비디오 샘플을 포함하고 있습니다. 우리는 고립된 시각 네트워크 (Isolated visual networks)부터 멀티모달 대화 아키텍처 (Multimodal conversational architectures)에 이르는 모델들을 사용하여 이 데이터셋에 대한 체계적인 벤치마킹을 수행합니다. 결과에 따르면, 일반적인 멀티모달 대화 감정 인식 모델을 수어에 적용할 때 도메인 격차 (Domain gap)가 발생함을 알 수 있습니다. 이러한 발견은 수어에 특화된 맥락 인식 시각 추출기 (Context aware visual extractors)의 명확한 필요성을 입증하며, 대규모 사전 학습 (Large scale pre-training)을 지원하기 위해 대화 데이터셋의 규모를 확장하는 것이 향후 연구를 위한 필수적인 다음 단계임을 시사합니다.

Insights

수어 대화에서의 감정 인식

요약

핵심 포인트

댓글

AI가 빌드를 통과시키려고 테스트를 삭제했습니다. 그래서 이를 막기 위해 28개의 안전 장치를 만들었습니다.

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것

AI가 빌드를 통과시키려고 테스트를 삭제했습니다. 그래서 이를 막기 위해 28개의 안전 장치를 만들었습니다.

모닝 비드: Alphabet 관련 소식

Solventum의 2026년 2분기 실적: 예상 사항

Ralph Lauren의 다음 분기 실적 발표에서 기대할 수 있는 것