arXiv논문2026. 06. 15. 08:18

TextHOI-3D: 이산적 다중 뷰 생성 및 공동 메쉬 최적화를 통한 텍스트 기반 3D 손-물체 상호작용

요약

TextHOI-3D는 텍스트를 기반으로 손과 물체의 3D 상호작용 메쉬를 생성하는 새로운 프레임워크를 제안합니다. VQ 토큰 공간과 CLIP 기반 자기회귀 모델을 활용하여 다중 뷰 시각 토큰을 생성하고, 이를 통해 기하학적으로 정교한 3D 메쉬를 복원합니다.

핵심 포인트

텍스트 조건부 3D 손-물체 상호작용 생성 프레임워크 제안
VQ 토큰 공간과 CLIP 기반 모델을 통한 다중 뷰 시각 토큰 예측
다중 뷰 공동 최적화 및 반침투 정제로 물리적 타당성 확보
단일 뷰 방식 대비 객체 오차 및 침투 부피의 획기적 감소

텍스트 조건부 3D 생성 (Text-conditioned 3D generation)은 이미지와 고립된 객체에 대해서는 빠르게 발전해 왔으나, 손-물체 메쉬 (hand-object mesh)를 생성하는 것은 여전히 어려운 과제로 남아 있습니다. 출력물은 언어적 의미론 (language semantics), 교차 뷰 일관성 (cross-view consistency), 객체 기하학 (object geometry), 관절이 있는 손 모양 (articulated hand shape), 그리고 물리적으로 타당한 접촉 (physically plausible contact)을 모두 보존해야 합니다. 본 논문에서는 텍스트 조건부 시각 생성 (text-conditioned visual generation)과 기하학 인지적 손-물체 복원 (geometry-aware hand-object recovery) 사이의 명시적 인터페이스로 생성된 다중 뷰 관측치 (multi-view observations)를 사용하는 단계별 프레임워크인 TextHOI-3D를 제안합니다. TextHOI-3D는 고정 카메라 손-물체 관측치를 위한 압축된 VQ 토큰 공간 (VQ token space)을 학습하고, CLIP 조건부 시각 자기회귀 모델 (CLIP-conditioned visual autoregressive model)을 통해 텍스트로부터 다중 뷰 시각 토큰 (multi-view visual tokens)을 예측하며, 사전 초기화 (prior initialization), 다중 뷰 공동 최적화 (multi-view joint optimization), 그리고 반침투 정제 (anti-penetration refinement)를 통해 통합된 손-물체 메쉬를 복원합니다. 이 설계는 이산적 다중 뷰 표현 (discrete multi-view representation)을 통해 두 단계를 연결하면서도, 의미론적 생성 (semantic generation)과 기하학적 복원 (geometric recovery)을 분리합니다. HO3D 유도 평가 결과, 다중 뷰 설정은 단일 뷰 방식과 비교했을 때 객체 CD (object CD)를 17.26 mm에서 4.92 mm로, 침투 부피 (penetration volume)를 5.3721 cm^3에서 0.2193 cm^3로 감소시켰으며, 손 오류 (hand errors)와 표면 F-점수 (surface F-scores)를 개선했습니다. 이러한 결과는 다중 뷰 시각 토큰이 텍스트 기반 3D 손-물체 메쉬 생성을 위한 효과적인 중간 표현 (intermediate representation)임을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

TextHOI-3D: 이산적 다중 뷰 생성 및 공동 메쉬 최적화를 통한 텍스트 기반 3D 손-물체 상호작용

요약

핵심 포인트

댓글