Instruct-Particulate: 운동학적 제어(Kinematic Control)를 통한 피드포워드(Feed-Forward) 3D 객체
요약
Instruct-Particulate는 운동학적 사양을 입력받아 3D 객체의 부품 세그멘테이션과 관절 파라미터를 예측하는 모델입니다. 시각-언어 모델을 활용해 데이터 부족 문제를 해결하며, 다양한 3D 메쉬에 대해 높은 일반화 성능을 보여줍니다.
핵심 포인트
- 운동학적 사양을 통한 3D 객체의 정밀한 부품 및 관절 예측
- 시각-언어 모델을 활용한 대규모 이질적 데이터셋 구축
- AI 생성 메쉬 및 다양한 카테고리에 대한 뛰어난 일반화 성능
- 이미지로부터 관절이 있는 3D 에셋 재구성 가능성 제시
관절이 있는(articulated) 3D 객체를 재구성하는 것은 애니메이션, 게임, 로봇 시뮬레이션에 있어 중요합니다. 최근의 신경망(neural networks)은 3D 객체의 관절 구조를 추정할 수 있지만, 이 작업에 대한 주석(annotated) 데이터의 부족으로 인해 일반화 성능이 여전히 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 Instruct-Particulate를 소개합니다. 이 모델은 3D 메쉬(mesh)와 함께 부품 설명, 연결성(connectivity), 관절 유형(joint types), 그리고 선택적인 포인트 프롬프트(point prompts)를 포함하는 목표 운동학적 사양(kinematic specification)을 입력받아, 그에 상응하는 운동학적 부품 세그멘테이션(kinematic part segmentation)과 관절 운동 파라미터(joint motion parameters)를 예측합니다. 운동학적 사양은 작업을 명확하게 구분하며 모델이 서로 다른 입도(granularity)의 주석을 목표로 할 수 있게 하여, 결과적으로 더 풍부하고 이질적인(heterogeneous) 학습 데이터를 사용할 수 있게 합니다. 테스트 시에는 대규모 시각-언어 모델(vision-language models)로부터 운동학적 사양을 자동으로 얻을 수 있으므로, 모델을 모든 입력 메쉬에 적용할 수 있습니다. 모델을 대규모로 학습시키기 위해, 우리는 150,000개 이상의 관절이 있는 3D 객체로 구성된 이질적인 데이터셋을 구축했습니다. 이는 기존의 공개 컬렉션에 시각-언어 모델을 사용하여 다른 3D 모델(단일 구조이거나 이미 부품으로 분해된 모델)에 운동학적 라벨을 부분적으로 부여하여 얻은 데이터를 추가하여 확장한 것입니다. 실험 결과, 우리 모델은 카테고리 전반에 걸쳐 더 나은 일반화 성능을 보이며 AI 생성 메쉬에도 잘 적용됨을 보여주었습니다. 이를 통해 이미지-to-3D 모델을 거쳐 실제 이미지로부터 관절이 있는 에셋(asset)을 재구성하는 것이 가능해집니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기