손어 번역을 위한 포즈 추정 시스템 평가

많은 손어 번역 (SLT) 시스템은 입력 차원을 줄이고, 이식성을 높이며, 표정자를 부분적으로 익명화하기 위해 원본 비디오 대신 포즈 시퀀스를 사용합니다. 포즈 추정기의 선택은 종종 구현 세부 사항으로 간주되며, 시스템은 MediaPipe Holistic 또는 OpenPose와 같이 널리 사용 가능한 도구를 기본값으로 설정합니다. 우리는 포즈 기반 SLT 를 위한 포즈 추정기에 대한 체계적인 비교를 제시하며, 널리 사용되는 베이스라인 (MediaPipe Holistic, OpenPose) 과 새로운 전신/고용량 모델 (MMPose WholeBody, OpenPifPaf, AlphaPose, SDPose, Sapiens, SMPLest-X) 을 포함합니다. 우리는 RWTH-PHOENIX-Weather 2014 데이터셋에서 포즈 표현만 변하도록 제어된 SLT 파이프라인을 훈련하여 BLEU 와 BLEURT 로 평가함으로써 하류 영향력을 정량화합니다. 번역 결과를 맥락화하기 위해 Signsuisse 데이터셋의 고해상도 비디오를 사용하여 시간적 안정성, 손 키포인트 누락, 그리고 가림에 대한 견고성을 분석합니다. SDPose 와 Sapiens 는 가장 좋은 번역 성능 (BLEU ~11.5) 을 달성하여 일반적인 MediaPipe 베이스라인 (BLEU ~10) 을 능가합니다. 가림이 있는 경우, Sapiens 는 모든 테스트 사례 (15/15) 에서 정확했고, OpenPifPaf 는 거의 모든 경우 (1/15) 에서 실패했으며 가장 약한 번역 점수를 얻었습니다. 손 키포인트를 자주 누락시키는 추정기는 낮은 BLEU/BLEURT 점수와 관련이 있습니다. 우리는 우리의 실험을 재현할 뿐만 아니라 다른 연구자들이 대안적인 포즈 추정기를 사용하는 데 있어 장벽을 현저히 낮출 수 있는 코드를 공개합니다.

Insights

손어 번역을 위한 포즈 추정 시스템 평가

요약

핵심 포인트

댓글

Walmart 분기 실적 프리뷰: 알아야 할 사항

실적 프리뷰: Ross Stores의 보고서에서 기대할 수 있는 것

미국 메모리 주식의 하락, 투자자들에게 새로운 매수 기회 제공할 수도

Claude에게 물어본 Opus 5에서 변경하면 좋은 프롬프트 등의 개인적인 정리

Walmart 분기 실적 프리뷰: 알아야 할 사항

실적 프리뷰: Ross Stores의 보고서에서 기대할 수 있는 것

미국 메모리 주식의 하락, 투자자들에게 새로운 매수 기회 제공할 수도

Claude에게 물어본 Opus 5에서 변경하면 좋은 프롬프트 등의 개인적인 정리