비디오 기반 딥러닝 기반 수어 인식 및 인도 토착어로의 교차 언어 번역
요약
VideoMAE와 Meta AI의 NLLB-200 모델을 결합하여 수어를 영어로 인식한 뒤 인도 토착어로 번역하는 2단계 딥러닝 파이프라인을 제안합니다. IIT Madras의 코퍼스를 활용해 미세 조정을 진행하였으며, Streamlit 기반의 추론 데모를 통해 실용성을 입증했습니다.
핵심 포인트
- VideoMAE를 활용한 수어 비디오 클립의 영어 레이블 분류
- NLLB-200 모델을 통한 힌디어, 텔루구어, 벵골어 교차 언어 번역
- 13개 클래스 서브셋 기준 검증 정확도 78% 달성
- Streamlit 기반의 실시간 추론 데모 구현 및 코드 공개
수어(Sign language)는 전 세계 청각 장애인 및 난청인 커뮤니티의 주요 의사소통 방식이지만, 비디오에서 수어 동작을 인식하여 자연어 텍스트로 번역하는 자동화 도구는 여전히 제한적이며, 특히 자원이 부족한 인도 언어의 경우 더욱 그러합니다. 본 연구에서는 (i) 미세 조정된(fine-tuned) VideoMAE 비디오 트랜스포머(video transformer)를 사용하여 짧은 수어 비디오 클립을 영어 단어 레이블로 분류하고, (ii) Meta AI의 No Language Left Behind (NLLB-200) 다국어 번역 모델을 사용하여 예측된 영어 레이블을 힌디어(Hindi), 텔루구어(Telugu), 벵골어(Bengali)로 번역하는 2단계 딥러닝 파이프라인을 제시합니다. 분류 모델은 IIT Madras의 AI4Bharat 인도 수어 비디오 코퍼스(corpus) 중 13개 클래스 서브셋을 사용하여 미세 조정되었으며, 각 비디오에서 224 x 224 해상도로 균일하게 샘플링된 16프레임 클립을 처리합니다. 소규모 학술 환경(13개 클래스, 197개 클립, 80-20 분할)에서 미세 조정된 모델은 15 에포크(epochs) 후에 99%의 훈련 정확도와 78%의 검증 정확도에 도달했습니다. 우리는 혼동 행렬(confusion matrix)과 분류 보고서(classification report)를 통해 클래스별 세부 내역을 제공하고, 주요 실패 모드(ugly, deaf, blind, hat, dress와 같이 혼동하기 쉬운 형용사 쌍)를 식별하며, 사용자가 업로드한 비디오를 입력받아 예측된 영어 레이블과 함께 힌디어, 텔루구어, 벵골어 번역을 반환하는 Streamlit 기반의 추론 데모를 설명합니다. 우리는 연구 범위, 한계점(작은 레이블 세트, 연속 수어가 아닌 단어 단위 수어, 단일 수어자 스타일에 대한 민감도, 단일 단어 기계 번역의 모호성), 그리고 문장 수준 생성 및 더 큰 어휘로의 확장을 포함한 향후 연구 방향에 대해 논의합니다. 재현성을 지원하기 위해 코드가 공개되었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기