본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 05. 13:47

HomeWorld: 제어 가능하고 밀도 있게 상호작용하는 전체 주거 공간 장면 생성을 위한 통합 평면도-가구 배치 프레임워크

요약

HomeWorld는 전체 주거 공간의 평면도 생성부터 가구 및 소형 객체 배치까지 통합하는 계층적 프레임워크를 제안합니다. LLM과 VLM, 3D 생성 모델을 결합하여 시뮬레이션이 가능한 사실적인 실내 장면을 생성합니다.

핵심 포인트

  • 30만 개의 실제 평면도로 구성된 대규모 데이터셋 활용
  • LLM 기반의 제어 가능한 전체 주거 공간 평면도 생성
  • VLM 리파이너를 통한 가구 및 객체 레이아웃의 반복적 수정
  • Embodied AI 시뮬레이션을 위한 물리적 속성 및 조명 포함
  • 평면도 데이터셋 및 5,000개의 가구 배치 장면 공개 예정

실내 장면 생성 (Indoor scene generation)은 로봇 시뮬레이션 (robot simulation)과 현대 인테리어 디자인에 있어 매우 중요합니다. 그러나 복잡한 레이아웃과 부족한 3D 장면 데이터로 인해 학습 기반의 생성은 어려운 과제입니다. 기존 방식들은 종종 수작업으로 제작된 규칙에 의존하거나 고립된 하위 작업(예: 평면도 합성 (floorplan synthesis) 또는 단일 객실 가구 배치 (single-room furnishing))에 집중하여, 전역적 일관성 (global coherence), 사실성 (realism), 그리고 시뮬레이션 준비성 (simulation readiness)이 부족한 전체 주거 공간 장면을 생성합니다. 이러한 한계를 완화하기 위해, 우리는 실내 장면 합성을 제어 가능한 단계로 분해하는 통합 계층적 프레임워크 (unified hierarchical framework)를 제안합니다. 먼저, 우리는 전체 주거 공간 평면도 생성 (whole-home floorplan generation)을 위한 대규모 언어 모델 (large language model)을 학습시키기 위해 30만 개의 실제 주거용 평면도로 구성된 대규모 데이터셋을 큐레이션합니다. 상세한 설명과 K-D 트리 기반 표현 (K-D tree-based representation)을 통해, 우리의 방법은 세밀하고 제어 가능한 전체 주거 공간 평면도 생성을 가능하게 합니다. 생성된 전체 주거 공간 평면도를 바탕으로, 우리는 이미지 생성 모델 (image generation models)을 활용하여 다층적 로밍 시점 (multi-level roaming viewpoints)에서 가구 레이아웃을 초안 작성하고, 이후 Embodied AI 시뮬레이션을 위해 다양한 지지 표면(예: 캐비닛, 책상, 식탁) 위에 놓일 작은 조작 가능한 객체 (small manipulable objects)의 레이아웃을 생성합니다. 가구 및 객체 레이아웃 생성 과정 동안, VLM 기반 리파이너 (VLM-based refiner)가 가구와 객체의 배치를 반복적으로 수정하며, 3D 생성 모델 (3D generative model)은 개별 에셋 (assets)의 유연한 교체를 가능하게 합니다. 나아가 우리는 Embodied AI 활용을 위한 파이프라인을 완성하기 위해 기본적인 물리적 속성과 단순한 표면 질감 및 조명 설정을 추가합니다. 실험과 사용자 연구를 통해 우리의 파이프라인이 더 높은 레이아웃 다양성과 강력한 3D 디자인 매력을 가진 실내 공간을 생성하며, 정량적 및 정성적 지표 모두에서 이전 방법들을 능가함을 입증했습니다. 마지막으로, 생성 파이프라인과 더불어 평면도 데이터셋과 5,000개의 가구가 완전히 배치된 장면을 커뮤니티에 공개할 예정입니다. 프로젝트 페이지: https://kairos-homeworld.github.io/

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0