
기본 요소가 아닌 객체로서의 장면
요약
피드포워드 모델을 통해 3D 주석 없이도 이미지로부터 3D 장면을 인스턴스 구조화된 토큰 그룹으로 분해하는 기술을 소개합니다. 단 한 번의 포워드 패스로 객체의 정체성을 파악하여 재구성, 세그멘테이션, 조작을 가능하게 합니다.
핵심 포인트
- 3D 주석 없이 unposed 이미지에서 3D 장면 분해 가능
- 인스턴스 구조화된 토큰 그룹 방식 채택
- 단일 포워드 패스로 객체 재구성 및 세그멘테이션 수행
- 객체 정체성 기반의 3D 조작 가능성 제시
기본 요소 (primitives)가 아닌 객체로서의 장면
피드포워드 (feed-forward) 모델은 3D 주석 (annotations) 없이도, 포즈가 지정되지 않은 (unposed) 이미지로부터 3D 장면을 인스턴스 구조화된 토큰 그룹 (instance-structured token groups)으로 분해합니다.
네이티브 객체 정체성 (Native object identity)은 단 한 번의 포워드 패스 (forward pass)로 재구성 (reconstruction), 세그멘테이션 (segmentation), 그리고 조작 (manipulation)을 가능하게 합니다. https://t.co/uqejVuwzG5
[IMG:1]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기