MOCHI: 협력적 인간-사물 상호작용의 동작 향상
요약
MOCHI는 노이즈가 포함된 다수 인간-사물 상호작용(MHOI) 데이터를 개선하기 위한 2단계 프레임워크입니다. 확산 기반 노이즈 최적화와 단일 인물 동작 사전 정보를 활용하여 물리적으로 타당하고 정교한 전신 동작 시퀀스를 생성합니다.
핵심 포인트
- MHOI 데이터의 접촉 불일치 및 동작 지터 문제 해결
- 물리적으로 타당한 손 움켜쥐기(hand grasps) 생성 및 확장
- 단일 인물 동작 사전 정보를 활용한 확산 기반 최적화
- 다양한 참여자 수와 사물 기하학에 대한 시스템 강건성 입증
협력적 인간-사물 상호작용 (Collaborative human-object interaction)은 참여자와 공유된 사물 사이의 상호 예측과 지속적인 조정이 필요한 역동적이고 복잡한 움직임을 보여줍니다. 이러한 협력적 다수 인간-사물 상호작용 (MHOI, Multi-human object interaction) 시나리오를 모델링하려면 기초 단계로서 고품질의 데이터 획득이 필요합니다. 하지만 인간-인간 및 인간-사물 상호작용이 동시에 발생하는 MHOI 고유의 복잡성으로 인해 이는 매우 어려운 과제입니다. 이러한 복잡성은 다음과 같은 여러 아티팩트 (artifacts)를 특징으로 하는 노이즈가 섞인 MHOI 캡처로 이어집니다: 손과 사물 사이의 접촉 불일치 (contact misalignment), 캡처된 시퀀스의 동작 지터 (motion jitter) 및 시간적 불일치 (temporal inconsistencies), 그리고 손가락 수준의 관절 세부 정보 (finger-level articulation details)의 누락 또는 불완전함. 이러한 과제를 해결하기 위해, 우리는 노이즈가 있는 MHOI 데이터를 향상시키기 위한 2단계 프레임워크인 MOCHI (MOtion Enhancement of Collaborative Human-object Interactions)를 제안합니다. 우리의 접근 방식은 먼저 노이즈가 있는 신체 입력을 최적화하여 물리적으로 타당한 손 움켜쥐기 (hand grasps)를 생성하며, 이를 통해 물리적으로 타당하면서도 신체 포즈와 의미론적으로 일치하는 움켜쥐기를 만들어내고, 이렇게 최적화된 움켜쥐기를 완전한 손-사물 상호작용 시퀀스로 확장합니다. 결과적으로, 모든 참여자의 전신 동작 (full-body motion)은 단일 인물 동작 사전 정보 (single-person motion priors)를 사용하는 확산 기반 노이즈 최적화 (diffusion-based noise optimization) 프레임워크를 통해 정교화됩니다. 최적화 과정 동안, 우리는 이러한 단일 인물 사전 정보 내에 인간-사물 및 인간-인간 상호작용 정보를 인코딩하기 위한 최적화 목적 함수 (optimization objectives)를 도입합니다. 실험 결과는 기존 캡처 방식에 의해 획득되었거나 생성 모델에 의해 합성된 다양한 MHOI 데이터에 걸쳐 우리 파이프라인의 효과를 입증합니다. 나아가 우리는 다양한 참여자 수와 상호작용 유형에 걸친 시스템의 강건성 (robustness)을 보여주며, 키프레임 기반의 MHOI 생성 및 다양한 사물 기하학 (object geometries)을 통한 데이터 증강 (data augmentation)을 포함한 다양한 응용 분야를 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기