본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 04. 28. 17:03

손어 번역을 위한 포즈 추정 시스템 평가

요약

본 논문은 손어 번역(SLT) 시스템의 성능에 영향을 미치는 다양한 포즈 추정기들을 체계적으로 비교 평가했습니다. MediaPipe Holistic 및 OpenPose와 같은 기존 베이스라인과 MMPose WholeBody, Sapiens 등 최신 전신/고용량 모델을 포함하여 여러 포즈 추정기를 테스트했습니다. 그 결과, SDPose와 Sapiens가 가장 우수한 번역 성능(BLEU ~11.5)을 보였으며, 특히 가림 상황에서 Sapiens의 견고성이 두드러졌습니다. 또한, 손 키포인트 누락과 같은 포즈 추정기의 결함이 낮은 SLT 성능으로 직접 연결됨을 입증했습니다.

핵심 포인트

  • SLT 시스템은 원본 비디오 대신 포즈 시퀀스를 사용하여 입력 차원을 줄이고 이식성을 높일 수 있다.
  • Sapiens와 SDPose는 기존 MediaPipe 베이스라인보다 높은 번역 성능(BLEU ~11.5)을 달성하여 우수한 포즈 추정기임을 입증했다.
  • 포즈 추정기의 견고성은 매우 중요하며, 특히 가림 상황에서 Sapiens가 가장 뛰어난 성능과 정확성을 보였다.
  • 손 키포인트 누락이나 부정확한 포즈 추정기는 SLT의 최종 번역 품질 저하와 직접적인 상관관계를 가진다.

많은 손어 번역 (SLT) 시스템은 입력 차원을 줄이고, 이식성을 높이며, 표정자를 부분적으로 익명화하기 위해 원본 비디오 대신 포즈 시퀀스를 사용합니다. 포즈 추정기의 선택은 종종 구현 세부 사항으로 간주되며, 시스템은 MediaPipe Holistic 또는 OpenPose와 같이 널리 사용 가능한 도구를 기본값으로 설정합니다. 우리는 포즈 기반 SLT 를 위한 포즈 추정기에 대한 체계적인 비교를 제시하며, 널리 사용되는 베이스라인 (MediaPipe Holistic, OpenPose) 과 새로운 전신/고용량 모델 (MMPose WholeBody, OpenPifPaf, AlphaPose, SDPose, Sapiens, SMPLest-X) 을 포함합니다. 우리는 RWTH-PHOENIX-Weather 2014 데이터셋에서 포즈 표현만 변하도록 제어된 SLT 파이프라인을 훈련하여 BLEU 와 BLEURT 로 평가함으로써 하류 영향력을 정량화합니다. 번역 결과를 맥락화하기 위해 Signsuisse 데이터셋의 고해상도 비디오를 사용하여 시간적 안정성, 손 키포인트 누락, 그리고 가림에 대한 견고성을 분석합니다. SDPose 와 Sapiens 는 가장 좋은 번역 성능 (BLEU ~11.5) 을 달성하여 일반적인 MediaPipe 베이스라인 (BLEU ~10) 을 능가합니다. 가림이 있는 경우, Sapiens 는 모든 테스트 사례 (15/15) 에서 정확했고, OpenPifPaf 는 거의 모든 경우 (1/15) 에서 실패했으며 가장 약한 번역 점수를 얻었습니다. 손 키포인트를 자주 누락시키는 추정기는 낮은 BLEU/BLEURT 점수와 관련이 있습니다. 우리는 우리의 실험을 재현할 뿐만 아니라 다른 연구자들이 대안적인 포즈 추정기를 사용하는 데 있어 장벽을 현저히 낮출 수 있는 코드를 공개합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
3

댓글

0