수어 상호작용에서의 수어 활동 예측을 향하여
요약
음성 중심의 차례 주고받기 예측 프레임워크를 수어 상호작용으로 전이하는 초기 연구를 다룹니다. 포즈 기반 특징을 활용해 수어 활동을 예측하며, 손 신호를 통한 SHIFT/HOLD 예측의 가능성과 SHIFT 예측의 한계를 제시합니다.
핵심 포인트
- 음성 활동 예측(VAP) 모델의 수어 상호작용 전이 연구
- 포즈 기반 손, 눈, 입 영역 특징 활용
- 손 신호를 활용한 SHIFT/HOLD 예측의 유망성 확인
- 수어 특화적인 이벤트 정의 및 모델링의 필요성 강조
사회적 로봇(Social robots)은 음성 중심 시스템이 가정하는 사용자뿐만 아니라, 수어(sign language)와 같이 서로 다른 양식(modalities)에 의존하여 의사소통하는 다양한 사용자들과도 견고하게 상호작용해야 합니다. 하나의 중요한 능력 격차는 수어를 사용하는 사용자와의 예측적 차례 주고받기(predictive turn-taking)입니다. 음성 활동 예측(Voice Activity Projection, VAP)이 구어 상호작용(spoken interaction)에서 미래의 음성 활동을 모델링하는 데 성공적으로 사용되어 왔지만, 이 프레임워크가 수어 상호작용으로 전이(transfer)될 수 있는지는 여전히 불분명합니다. 본 논문은 VAP 아키텍처를 이자적(dyadic) 수어 상호작용에 적응시키는 초기 전이 연구를 제시합니다. Public DGS Corpus의 상호작용 녹화 데이터를 사용하여, 어휘 수어 주석(lexical sign annotations)으로부터 이진 수어 활동 스트림(binary signing activity streams)을 도출하고 차례 주고받기 예측을 위한 대리 작업(proxy tasks)을 공식화합니다. 모델은 각 수어 사용자에 대해 추출된 포즈 기반(pose-derived)의 손, 눈 영역, 그리고 입 영역 특징(features)을 사용합니다. 결과에 따르면 SHIFT/HOLD 예측은 특히 손 신호(hand cues)를 사용할 때 유망한 반면, SHIFT 예측은 여전히 어려운 것으로 나타났습니다. 이러한 발견은 구어 상호작용에서 수어 상호작용으로 예측적 차례 주고받기 모델을 전이하는 것의 가능성과 현재의 한계 모두에 대한 초기 증거를 제공합니다. 수어 상호작용의 예측 모델링은 여전히 음성에서 유도된 범주를 넘어서는 수어 특화적인 이벤트 정의를 필요로 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기