본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 11:29

AssetGen: 대화형 속도로 배포 가능한 3D 에셋 생성

요약

AssetGen은 사용자 경험과 배포 가능성에 초점을 맞춘 새로운 3D 에셋 생성 모델입니다. 참조 이미지 한 장으로 30초 이내에 텍스처와 최적화된 폴리곤 메쉬를 생성하며, Flash 모델을 통해 지연 시간을 14초까지 단축했습니다.

핵심 포인트

  • 실시간 렌더링에 적합한 제어된 폴리곤 예산 제공
  • Coarse-to-Refine VecSet 프레임워크를 통한 기하 구조 생성
  • 모델 증류 및 커널 최적화를 통한 엔드투엔드 가속화
  • 대화형 워크플로우를 위한 초고속 3D 콘텐츠 생성 지원

3D 생성 기술이 급격히 발전하고 있지만, 최근의 연구들은 종종 고해상도 에셋을 얻는 데에만 집중하여 사용자 경험(User Experience)과 배포 가능성(Deployability)을 사후 고려 사항으로 남겨두는 경우가 많았습니다. 우리는 대신 이 두 가지 측면에 집중하는 3D 생성기인 AssetGen을 선보입니다. 하나의 참조 이미지(Reference Image)가 주어지면, 30초 이내에 베이크된 노멀(Baked Normals), 컬러 텍스처(Color Texture), 그리고 모바일 사용 사례를 포함한 실시간 렌더링(Real-time Rendering)에 적합하도록 제어된 폴리곤 예산(Polygon Budget)을 갖춘 고품질 메쉬(Mesh)를 생성합니다. AssetGen Flash 변형 모델은 대화형 및 에이전트 기반 생성 루프(Agentic Creation Loops)를 위해 지연 시간(Latency)을 14초까지 더욱 단축합니다. 우리 모델은 거친 단계에서 정교한 단계로 넘어가는 Coarse-to-Refine VecSet 프레임워크를 통해 객체 기하 구조(Geometry)를 생성하며, 이 프레임워크는 GPU 상에서 메쉬 단순화(Mesh Simplification), 클리닝(Cleaning), 노멀 베이킹(Normal Baking) 및 빠른 병렬 UV 언랩핑(UV Unwrapping)을 구현합니다. 그 후 멀티뷰(Multi-view) 방식으로 텍스처를 생성하고, 역투영(Backprojection) 및 3D 인페인팅(3D Inpainting) 과정을 거칩니다. 모델 증류(Model Distillation), 커널 최적화(Kernel Optimization), 그리고 파이프라인 병렬화(Pipeline Parallelization)는 시스템을 엔드투엔드(End-to-end)로 가속화하기 위해 공동 설계되었습니다. 우리는 수많은 자동화된 평가 및 블라인드 인간 평가를 도입하였으며, 30초 이내에는 선도적인 상용 솔루션과 경쟁할 만한 시각적 품질을, 15초 미만에는 프리뷰 품질(Preview-quality)의 결과를 보여줌으로써 이를 입증했습니다. 최종 결과물은 대화형 워크플로우(Interactive Workflows)에서 AI 보조형의 배포 가능한 3D 콘텐츠 생성을 지원하는 시스템입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0