Code-as-Room: 에이전트 기반 코드 합성(Agentic Code Synthesis)을 통한 탑다운 뷰(Top-Down View)
요약
Code-as-Room은 MLLM 기반 에이전트를 활용하여 탑다운 뷰(Top-down view)로부터 Blender 코드를 생성하고, 이를 통해 사실적인 3D 실내 공간을 합성하는 프레임워크입니다. 기존 방식의 불안정성과 문맥 망각 문제를 해결하기 위해 구조화된 실행 하네스와 교차 단계 메모리 모듈을 도입하였으며, 코드 기반 3D 합성을 위한 전용 벤치마크를 함께 제안합니다.
핵심 포인트
- Blender 코드를 활용하여 기하학, 재질, 조명을 포함한 3D 실내 공간을 정밀하게 합성함
- 탑다운 이미지를 파싱하여 장면 요소와 공간적 관계를 추출하는 다단계 파이프라인 구축
- 교차 단계 메모리 모듈(Cross-stage memory module)을 통해 에이전트의 문맥 망각 문제 완화
- 코드 기반 3D 실내 공간 합성을 평가하기 위한 새로운 전용 벤치마크 도입
사실적이고 기능적인 3D 실내 공간을 설계하는 것은 인테리어 디자인, 가상 현실 (VR), 게임, 그리고 체화된 AI (Embodied AI)를 포함한 광범위한 응용 분야에서 필수적입니다. 최근 MLLM (Multi-modal Large Language Model) 기반의 접근 방식들이 텍스트 설명이나 참조 이미지로부터 3D 실내 공간을 합성하는 데 있어 큰 잠재력을 보여주었으나, 텍스트 기반 방식은 정밀한 공간 정보를 포착하는 데 어려움을 겪으며, 기존의 이미지 조건부 에이전트 (Image-conditioned agents)들은 탑다운 뷰 (Top-down views)로부터 전체적인 실내 공간을 생성하는 과업을 수행할 때 불안정성과 무한 루프 문제로 고통받고 있습니다. 이러한 한계를 해결하기 위해, 우리는 구조화된 실행 하네스 (Execution harness)를 갖춘 MLLM 기반의 에이전트 프레임워크인 Code-as-Room을 제안하며, 이는 Blender 코드를 통해 3D 실내 공간을 표현합니다. 탑다운 실내 이미지가 주어지면, 이 프레임워크는 참조 이미지를 파싱하여 장면 요소와 그들의 공간적 관계를 추출하고, 원칙적인 다단계 파이프라인 (Multi-stage pipeline)을 통해 기하학 (Geometry), 재질 (Materials), 조명 (Lighting)을 위한 실행 가능한 Blender 코드를 합성합니다. 기존 에이전트 기반 프레임워크에 내재된 문맥 망각 (Context forgetting) 문제를 완화하기 위해 전체 과정 동안 교차 단계 메모리 모듈 (Cross-stage memory module)이 유지됩니다. 나아가 우리는 다양한 평가 프로토콜을 포함하는 코드 기반 3D 실내 공간 합성을 위한 전용 벤치마크를 도입합니다. 본 벤치마크를 바탕으로 기존 에이전트 기반 방식들과의 종합적인 비교를 수행하여, 우리가 제안한 실행 하네스의 효과를 검증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기