SignDATA: 수어 통역을 위한 표준 데이터 파이프라인 공개
요약
수어(Sign Language) 영상 데이터를 학습 가능한 형태로 가공하는 과정은 어노테이션 스키마, 클립 타이밍, 프라이버시 제약 등 여러 문제로 인해 매우 복잡하고 비표준적입니다. 본 논문에서 제시하는 SignDATA는 이러한 이질적인 수어 코퍼스를 표준화된 방식으로 처리할 수 있도록 설계된 설정 기반(config-driven) 전처리 툴킷입니다. SignDATA는 포즈 추출 방식과 원본 영상 클리핑 방식을 모두 지원하며, MediaPipe와 MMPose 같은 다양한 백엔드를 통합 인터페이스 뒤에 배치하여 사용자가 실험 목적에맞
핵심 포인트
- SignDATA는 이질적인 수어 코퍼스를 표준화된 학습 출력물로 변환하는 설정 기반(config-driven) 전처리 툴킷입니다.
- 두 가지 종단 간 레시피를 지원합니다: 포즈 추출 방식과 시그너 크롭 비디오 패키징 방식을 제공합니다.
- MediaPipe 및 MMPose와 같은 다양한 백엔드를 공통 인터페이스 뒤에 배치하여 교체 가능성을 높였습니다.
- 실험 설계 측면에서, SignDATA는 추출기 선택, 정규화 정책, 프라이버시 트레이드오프를 명시적이고 비교 가능하게 만듭니다.
🤟 SignDATA: 수어 통역 연구를 위한 표준 전처리 파이프라인
수어(Sign Language) 데이터셋은 어노테이션 스키마의 다양성, 클립 타이밍 문제, 시그너 프레이밍 등 여러 요인으로 인해 일관된 전처리가 매우 어렵습니다. 기존 연구들은 주로 최종 다운스트림 모델에 초점을 맞추었을 뿐, 원본 비디오를 학습 가능한 포즈 또는 영상 아티팩트로 변환하는 핵심적인 전처리 파이프라인은 파편화되어 있고 백엔드 종속적이며 문서화가 부족한 실정입니다.
이에 본 논문에서는 이러한 문제를 해결하기 위해 SignDATA라는 설정 기반(config-driven) 전처리 툴킷을 제안합니다. SignDATA는 이질적인 수어 코퍼스들을 비교 가능한 학습 출력물로 표준화하는 것을 목표로 합니다.
✨ SignDATA의 주요 기능 및 구조
-
표준화된 처리 레시피 제공: SignDATA는 두 가지 핵심 종단 간(end-to-end) 처리 방식을 지원합니다.
- 포즈 추출 레시피 (Pose Recipe): 데이터 획득(acquisition), 발현(manifesting), 사람 위치 파악(person localization), 클리핑, 크롭핑, 랜드마크 추출(landmark extraction), 정규화(normalization) 과정을 거쳐 WebDataset 형식으로 내보냅니다.
- 비디오 레시피 (Video Recipe): 포즈 추출 단계를 생략하고, 시그너가 포함된 비디오 패키징을 통해 원본 영상의 프라이버시를 유지하면서 학습 데이터를 준비합니다.
-
백엔드 통합 및 유연성: SignDATA는 MediaPipe와 MMPose 같은 다양한 백엔드를 공통 인터페이스 뒤에 배치했습니다. 이를 통해 사용자는 어떤 추출기를 선택하든 일관된 방식으로 파이프라인을 구성할 수 있으며, 실험의 재현성을 높일 수 있습니다.
-
재현성 및 투명성 강화: 이 툴킷은 타입 지정 작업 스키마(typed job schemas), 실험 레벨 오버라이드(experiment-level overrides), 그리고 단계별 체크포인팅(per-stage checkpointing) 기능을 제공합니다. 특히, 설정 파일과 매니페스트에 기반한 해시(config- and manifest-aware hashes)를 사용함으로써 모든 전처리 단계를 추적하고 재현할 수 있게 합니다.
🔬 연구 중심의 검증 설계 (Evaluation Design)
SignDATA는 단순한 구현을 넘어, 연구자들이 실제로 사용할 수 있도록 평가 디자인에 초점을 맞추었습니다. 이를 통해 다음 세 가지 측면에서 기여합니다:
- 백엔드 비교: 서로 다른 포즈 추출기(MediaPipe vs MMPose)를 공정하게 비교할 수 있습니다.
- 전처리 절제 효과 분석 (Preprocessing Ablations): 특정 전처리 단계(예: 클리핑, 정규화)가 최종 모델 성능에 미치는 영향을 체계적으로 분석할 수 있습니다.
- 프라이버시 인식 비디오 생성: 데이터의 프라이버시를 고려한 다양한 영상 생성 방식을 실험하고 비교할 수 있습니다.
결론적으로, SignDATA는 수어 연구 분야에서 재현 가능한 전처리 계층(reproducible preprocessing layer)을 제공하며, 추출기 선택, 정규화 정책, 그리고 프라이버시 관련 트레이드오프를 명확하게 설정하고 경험적으로 비교할 수 있게 만듭니다. 이는 수어 AI 연구의 표준화를 한 단계 끌어올리는 중요한 진전입니다.
🔗 코드 및 자료: https://github.com/balaboom123/signdata-slt
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기