본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 14. 14:31

HetScene: 밀집된 실내 장면 생성을 위한 이질성 인식 확산 모델 (Heterogeneity-Aware Diffusion)

요약

HetScene은 제어 가능하고 물리적으로 타당한 실내 장면 생성을 목표로 하는 이질적 2단계 생성 프레임워크입니다. 기존 방법들이 객체를 균일하게 처리하여 밀집된 복잡한 레이아웃 모델링에 어려움을 겪는 문제를 해결하기 위해, HetScene은 구조적 이질성 관점에서 객체를 주요 객체와 보조 객체로 분해합니다. 이를 통해 실내 레이아웃 합성을 구조적 레이아웃 생성(SLG)과 문맥적 레이아웃 생성(CLG)으로 분리하여 전역적으로 일관된 구조를 먼저 구축한 후, 세부적인 장면을 완성할 수 있습니다.

핵심 포인트

  • HetScene은 Embodied AI를 위한 고충실도 실내 시뮬레이션 환경 구축에 기여합니다.
  • 기존 딥러닝 방법들은 객체를 균질하게 취급하여 밀집되고 복잡한 공간적 의존성을 가진 레이아웃 모델링에 한계가 있었습니다.
  • HetScene은 구조적 이질성 관점에서 객체를 주요 객체(primary objects)와 보조 객체(secondary objects)로 분해합니다.
  • 제안된 프레임워크는 실내 레이아웃 합성을 구조적 레이아웃 생성(SLG)과 문맥적 레이아웃 생성(CLG)의 2단계 과정으로 분리합니다.

제어 가능하고 물리적으로 타당한 실내 장면을 생성하는 것은 Embodied AI를 위한 고충실도 시뮬레이션 환경을 구축하는 데 있어 중추적인 전제 조건입니다. 그러나 기존의 딥러닝 (deep learning) 기반 방법들은 대개 모든 객체를 통일된 생성 프로세스 내에서 균질한 인스턴스로 취급합니다. 이러한 방식은 희소하고 단순한 레이아웃에는 효과적이지만, 객체 배치가 밀집되어 있고 복잡한 공간적 의존성을 가진 현실적인 레이아웃을 모델링하는 데에는 어려움을 겪으며, 이는 확장성의 제한과 물리적 타당성의 저하로 이어집니다. 이러한 과제를 해결하기 위해, 우리는 구조적 이질성 (structural heterogeneity)의 관점에서 실내 레이아웃 생성을 재검토하고, 장면을 형성하는 데 있어 각 객체의 뚜렷한 역할에 따라 객체를 주요 객체 (primary objects)와 보조 객체 (secondary objects)로 분해합니다. 이러한 분해를 바탕으로, 우리는 실내 레이아웃 합성을 구조적 레이아웃 생성 (Structural Layout Generation, SLG)과 문맥적 레이아웃 생성 (Contextual Layout Generation, CLG)으로 분리하는 이질적 2단계 생성 프레임워크인 HetScene을 제안합니다. SLG는 먼저 텍스트 설명, 하향식 이진 방 마스크 (top-down binary room masks), 그리고 공간 관계 그래프 (spatial relation graphs)를 조건으로 하여 주요 객체만을 사용하여 전역적으로 일관된 구조적 레이아웃을 생성하며, 이를 통해 대형 핵심 가구의 안정적인 전역 매크로 스켈레톤 (global macro-skeleton)을 구축합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0