3DCodeBench: 코드를 통한 에이전트 기반 절차적 3D 모델링 벤치마킹
요약
3DCodeBench는 VLM 에이전트의 절차적 3D 모델링 능력을 평가하기 위한 새로운 벤치마크를 제안합니다. 텍스트와 이미지를 코드로 변환하는 능력을 측정하며, 인간 선호도 기반의 3DCodeArena를 통해 정밀한 평가를 수행합니다.
핵심 포인트
- VLM의 절차적 3D 모델링 성능을 평가하는 체계적 벤치마크 제안
- API 불일치 및 기하학적 구성 오류가 주요 실패 원인으로 분석됨
- 테스트 시간 스케일링이 모델의 전반적인 성능 향상에 기여함
- 고품질 절차적 코딩 데이터와 견고한 실행 환경의 필요성 강조
코드를 통한 절차적 3D 모델링 (Procedural 3D modeling)은 신경망 기반 3D 생성기 (neural 3D generators)가 본질적으로 결여하고 있는 결정론적이고, 엔진에 즉시 사용 가능하며, 정밀하게 편집 가능한 에셋을 제공하는 다재다능한 패러다임으로 부상하고 있습니다. 그러나 이러한 절차적 콘텐츠를 작성하는 것은 3D 소프트웨어 API, 파라메트릭 디자인 (parametric design), 그리고 코드 수준의 기하학적 추론 (geometric reasoning)에 대한 깊은 전문 지식을 요구합니다. 본 논문에서는 3D 모델링 소프트웨어 내의 절차적 3D 생성을 위한 시각-언어 모델 (VLM) 에이전트를 평가하기 위한 체계적인 벤치마크인 3DCodeBench를 제안합니다. 구체적으로, 3DCodeBench는 12개의 고급 VLM이 텍스트 및 이미지 참조를 3D 모델링 소프트웨어용 절차적 코드 (procedural code)로 변환함으로써 절차적 3D 모델러로서 얼마나 효과적으로 기능할 수 있는지를 평가합니다. 자동화된 지표가 3D 형상의 지각적 품질을 완전히 포착하지 못할 수 있음을 인지하여, 우리는 생성된 3D 출력물에 대한 쌍체 인간 선호도 (pairwise human preferences)를 기반으로 하는 순위 플랫폼인 3DCodeArena를 구축했습니다. 광범위한 평가와 결과로부터 우리는 다음과 같은 사실을 관찰했습니다: (1) 실패는 주로 API 불일치에서 발생하며, 성공적인 렌더링조차 여전히 단절되거나 공중에 떠 있는 3D 기하학적 구성 요소들로 인해 어려움을 겪습니다. (2) 더 높은 사고 예산 (thinking budgets) 및 다회차 정교화 (multi-turn refinement)와 같은 테스트 시간 스케일링 (Test-time scaling)은 전반적인 성능을 향상시킵니다. 우리의 연구 결과는 상용 VLM을 발전시키기 위해 고품질의 절차적 코딩 데이터가 절실히 필요함을 강조합니다. 나아가, 효과적인 절차적 3D 모델링을 위해서는 반복적인 정교화를 위해 고충실도 피드백을 제공하는 견고한 실행 환경이 필요합니다. 우리는 VLM 기반 절차적 3D 모델러를 탐구하기 위한 기초 도구 세트로서 멀티모달 (text/image) 프롬프트, 절차적 코드, 3D 객체 트리플렛 (3D object triplets), 평가 프로토콜, 그리고 공개 플랫폼인 3DCodeArena를 포함한 큐레이션된 대규모 데이터셋인 3DCodeBench를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.GR (Graphics)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기