SceneCode: 관절형 객체가 포함된 편집 가능한 실내 장면을 위한 실행 가능한 월드 프로그램
요약
SceneCode는 자연어 프롬프트를 실행 가능한 코드 기반의 실내 월드로 변환하여, 관절형 객체가 포함된 편집 가능한 실내 장면을 합성하는 프레임워크입니다. 기존의 정적인 메쉬 생성 방식과 달리, Blender Python 프로그램을 통해 객체 수준의 제어 가능성을 확보하고 물리 시뮬레이션이 가능한 에셋을 생성합니다. 이를 통해 Embodied AI 및 로봇 조작 연구를 위한 고품질의 상호작용 가능한 환경 구축을 지원합니다.
핵심 포인트
- 자연어 프롬프트를 실행 가능한 Blender Python 코드로 컴파일하여 실내 장면을 생성함
- Planner-Designer-Critic 루프를 통해 객체별 에셋 요청을 생성하고 정제함
- 정적인 메쉬가 아닌 관절 구조(articulation)를 가진 물리 상호작용 가능 에셋을 제공함
- 지속적인 장면 상태 레지스트리를 통해 장면 조립 과정을 추적하고 국소적 편집을 가능하게 함
- Embodied AI 및 로봇 시뮬레이션을 위한 고품질의 시뮬레이션 준비 에셋 생성
실내 장면 합성 (Indoor scene synthesis)은 Embodied AI (체화된 인공지나), 로봇 조작 (robotic manipulation), 그리고 시뮬레이션 기반 정책 평가 (simulation-based policy evaluation)의 근간이 되며, 유용한 장면은 환경이 어떻게 보이는지뿐만 아니라 객체들이 어떻게 구조화되어 있는지도 명시해야 합니다. 그러나 기존의 파이프라인 (pipelines)은 일반적으로 생성된 콘텐츠를 정적인 메쉬 (static meshes)로 표현하며, 큐레이션된 에셋 라이브러리 (asset libraries)로부터만 관절 구조 (articulation)를 상속받습니다. 이는 객체 수준의 제어 가능성 (object-level controllability)을 제한하고, 필요에 따라 새로운 상호작용 가능한 에셋을 생성하는 것을 방해합니다. 우리는 물리적으로 상호작용 가능한 실내 장면 합성을 프로그래밍 방식의 월드 생성 (programmatic world generation)으로 공식화함으로써 이 격차를 해결하며, 자연어 프롬프트 (natural language prompt)를 불투명한 메쉬의 집합이 아닌 실행 가능한 코드 기반의 실내 월드로 컴파일하는 프레임워크인 SceneCode를 제시합니다. 먼저 룸 레벨 에이전트 백본 (room-level agentic backbone)이 프롬프트를 구조화된 집 레이아웃 (house layout)으로 변환하고, Planner-Designer-Critic 루프를 통해 객체별 AssetRequests를 생성합니다. 각 요청은 다섯 가지 코드 생성 전략 중 하나로 라우팅되며, 실행 가이드 기반의 수정 및 정제 (execution-guided repair-and-refine) 루프를 통해 검증되는 합성된 부위별 Blender Python 프로그램으로 변환됩니다. 결과물인 프로그램은 시뮬레이션 준비가 된 에셋으로 컴파일되며, 물리 시뮬레이션을 위해 SDF로 내보내집니다. 지속적인 장면 상태 레지스트리 (persistent scene-state registry)는 객체 요청, 실행 가능한 프로그램, 렌더링된 기하 구조 (geometry), 그리고 시뮬레이션 에셋을 연결하여, 장면 조립을 추적 가능하고 국소적으로 편집 가능한 월드 빌딩 (world-building) 프로세스로 전환합니다. 우리는 장면 수준의 합성, 객체 수준의 에셋 품질, 인간의 판단, 그리고 다운스트림 로봇 상호작용 (downstream robot interaction)을 통해 SceneCode를 평가합니다. 결과에 따르면, 실행 가능한 월드 프로그램은 프롬프트에 충실한 실내 장면 생성을 개선하고, 더 깨끗한 메쉬 구조와 시뮬레이터 로드 가능한 관절 메타데이터 (articulation metadata)를 가진 에셋을 생성함을 보여줍니다. 프로젝트 페이지: https://scene-code.github.io/.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기