본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 19. 17:27

StableHand: 1인칭 시점 비디오에서의 월드 공간 양손 동작 추정을 위한 품질 인식 플로우 매칭 (Quality-Aware Flow

요약

StableHand는 1인칭 시점 비디오에서 양손의 4D 동작을 복원하기 위해 품질 인식 플로우 매칭(Quality-aware flow-matching) 기술을 제안합니다. 기존 방식과 달리 손 관측값의 품질을 네 가지 채널로 분해하여 분석함으로써, 손이 시야에서 벗어나거나 물체에 가려지는 상황에서도 정확한 동작 추정이 가능합니다. 실험 결과 HOT3D 및 ARCTIC 벤치마크에서 기존 모델 대비 W-MPJPE를 20-25% 개선하며 최첨단 성능을 입증했습니다.

핵심 포인트

  • 손 관측값의 품질을 손목 전역 이동과 손가락 관절의 네 가지 채널로 분해하여 분석함
  • 품질 신호를 플로우 매칭 과정에 통합하여 신뢰할 수 없는 관측값은 재구성하고 고품질 데이터는 보존함
  • DiT 디노이저의 AdaLN 변조 및 품질 인식 ODE 초기화 등 정교한 생성 프레임워크 적용
  • 폐쇄(Occlusion)가 심한 환경에서 기존 베이스라인 대비 W-MPJPE를 20-25% 감소시킴

1인칭 시점 (Egocentric) 비디오로부터 상호작용하는 양손의 월드 공간 (World space) 4D 동작을 복원하는 것은 로봇 정책 학습 (Robot policy learning)을 감독하기 위한 핵심적인 능력입니다. 여기서 손목 궤적은 말단 장치 (End-effector)를 추적하고, 손가락 관절 (Finger articulations)은 파지 포즈 (Grasp pose)를 지정합니다. 이 환경에서는 두 가지 주요 과제가 발생합니다. 첫째, 머리 움직임으로 인해 손이 장시간 카메라 시야를 벗어나는 경우가 빈번하며, 둘째, 지속적인 손-물체 상호작용으로 인해 한 손 또는 양손 모두에 심각한 폐쇄 (Occlusion)가 발생합니다. 기존 방법들은 프레임별 신뢰도를 고려하지 않고 노이즈가 섞인 손 동작 관측값에 일률적으로 조건화 (Conditioning)하기 때문에 상당한 성능 저하를 초래합니다.

우리의 핵심 통찰은 정확한 월드 공간 손 동작 추정이 프레임별 손 관측값의 품질과 밀접하게 결합되어 있다는 점입니다. 이를 위해, 우리는 기성 손 포즈 추정기 (Hand pose estimator)로부터 추출된 손 동작 관측값의 품질을 네 가지 채널, 즉 양손의 손목 전역 이동 (Wrist global translation)과 손가락 관절 (Finger articulations)로 분해합니다. 우리는 학습된 품질 네트워크 (Quality network)에 의해 예측되는 이 네 채널의 품질 신호에 조건화된 품질 인식 플로우 매칭 (Quality-aware flow-matching) 프레임워크인 StableHand를 제안합니다. 우리는 채널별 순방향 스케줄 (Per-channel forward schedule), 품질 조정 속도 타겟 (Quality-adjusted velocity target), DiT 디노이저 (Denoiser)의 AdaLN 변조 (Modulation), 그리고 품질 인식 ODE 초기화 (Quality-aware ODE initialization)를 통해 플로우 매칭 과정에 품질 신호를 자연스럽게 통합합니다. 이 통합된 생성 과정은 학습된 양손 동작 사전 정보 (Bimanual motion prior)를 사용하여 신뢰할 수 없는 관측값은 재구성하는 동시에 고품질의 관측값은 보존합니다.

긴 손 누락 구간과 지속적인 손-물체 폐쇄를 특징으로 하는 두 가지 1인칭 시점 벤치마크인 HOT3D 및 ARCTIC에서의 실험 결과, StableHand는 보고된 모든 지표에서 최첨단 (State-of-the-art) 성능을 달성하였으며, 가장 강력한 베이스라인과 비교하여 W-MPJPE를 20-25% 감소시켰습니다. 특히 폐쇄가 심한 ARCTIC 시퀀스에서 가장 큰 성능 향상을 보였습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0