비-맨해튼 (Non-Manhattan) 환경에서의 텍스트 기반 3D 실내 장면 합성
요약
비-맨해튼 환경에서 물리적으로 그럴듯한 3D 실내 장면을 생성하는 새로운 프레임워크 SPG-Layout을 제안합니다. 통계적 사전 정보와 계층적 배치 전략을 통해 기하학적 오류를 최소화하고 의미론적 사실성을 높였습니다.
핵심 포인트
- 비-맨해튼 환경의 복잡한 공간 관계 모델링 문제 해결
- 통계적 사전 정보를 활용한 환경 이해도 및 충실도 향상
- 계층적 배치 전략을 통한 객체 배치 위반 최소화
- 500개의 새로운 비-맨해튼 환경 벤치마크 구축
대규모 언어 모델 (LLMs)은 맨해튼 (Manhattan) 환경의 3D 실내 합성 분야에서 놀라운 능력을 입증해 왔습니다. 그러나 기존 방법들은 주로 직교하지 않는 공간 관계를 모델링하는 데 어려움을 겪기 때문에, 비-맨해튼 (non-Manhattan) 설정에서 그럴듯한 객체 배치 패턴을 포착하는 데 자주 실패하며, 이는 높은 기하학적 위반 (geometric violations)과 낮은 물리적 충실도 (physical fidelity)로 이어집니다. 이러한 과제를 해결하기 위해, 우리는 복잡한 비-맨해튼 환경 내에서 물리적으로 그럴듯한 실내 장면을 생성하도록 설계된 새로운 텍스트 기반 프레임워크인 SPG-Layout을 제안합니다. 구체적으로, 우리는 먼저 객체 분포의 통계적 사전 정보 (statistical priors)를 활용하여 학습 과정을 안내함으로써 환경 이해도와 충실도를 높입니다. 또한, 인간의 설계 워크플로우를 모방하여 큰 객체의 배치를 우선시하는 계층적 배치 전략 (hierarchical layout strategy)을 채택함으로써 배치 위반을 실질적으로 최소화합니다. 이러한 구성 요소들을 시너지화함으로써, SPG-Layout은 의미론적 사실성 (semantic realism)과 물리적 그럴듯함 (physical plausibility)의 균형 잡힌 최적화를 달성합니다. 이러한 복잡한 설정에서의 성능을 평가하기 위해, 우리는 500개의 다양한 비-맨해튼 환경으로 구성된 새로운 벤치마크를 구축했습니다. 광범위한 실험을 통해 SPG-Layout이 맨해튼 및 비-맨해튼 환경 모두에서 기존 방법들을 일관되고 유의미하게 능가함을 입증했습니다. 코드는 공개적으로 배포될 예정입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기