CM-EVS: 완전한 장면 커버리지를 위한 희소 파노라마 RGB-D-Pose 데이터

현대의 3D 시각 학습 (3D visual learning)은 미터법 기반의 3D 에셋 (metric 3D assets)에서 샘플링된 관측치에 의존하지만, 기존의 스캔 (scans), 메쉬 (meshes), 포인트 클라우드 (point clouds), 시뮬레이션 (simulations) 및 재구성 (reconstructions) 데이터는 희소하고(sparse), 비교 가능하며, 기하학적으로 일관된(geometry-consistent) 파노라마 학습 인터페이스를 직접적으로 제공하지 못합니다. 밀집된 궤적 (Dense trajectories)은 인접한 뷰를 중복시키고, 소스별로 상이한 렌더링 정책은 이질적인 어노테이션 (heterogeneous annotations)을 생성하며, 희소한 휴리스틱 (sparse heuristics)은 중요한 영역을 놓치거나 깊이 불일치 (depth-inconsistent) 관측치를 유발할 수 있습니다. 본 연구에서는 3D 에셋을 낮은 중복성과 검증 가능한 출처 (auditable provenance)를 유지하면서 완전한 장면 커버리지 (complete scene coverage)를 보존하는 희소 파노라마 RGB-D-pose 데이터로 변환하는 방법을 연구합니다. 우리는 학습이 필요 없는 ERP 뷰포인트 큐레이터인 COVER (Coverage-Oriented Viewpoint curation with ERP Range-depth warping)를 제안합니다. COVER는 선택된 뷰에서 관측된 기하학적 구조를 후보 ERP 프로브 (candidate ERP probes)로 투영하고, 점진적 커버리지 (incremental coverage)를 점수화하며, 깊이 충돌 (depth conflicts)에 대해 페널티를 부여합니다. 유계된 프록시 오차 (bounded proxy error) 하에서, COVER의 탐욕적 커버리지 프록시 (greedy coverage proxy)는 가산 오차 항 (additive error term)까지 표준 커버리지 스타일의 근사 동작을 보존합니다. COVER를 사용하여 우리는 CM-EVS (Coverage-curated Metric ERP View Set)를 구축했습니다. 이는 Blender indoor, HM3D, ScanNet++의 1,275개 실내 장면에서 추출한 36,373개의 큐레이션된 ERP 프레임으로 구성된 파노라마 RGB-D-pose 데이터셋이며, 동일한 스키마로 재인코딩된 TartanGround 및 OB3D의 실외 파노라마가 보완되어 있습니다. 각 프레임은 전구체 RGB (full-sphere RGB), 미터법 범위 깊이 (metric range depth), 교정된 포즈 (calibrated pose)를 제공합니다. COVER로 생성된 실내 프레임에는 단계별 출처 로그 (per-step provenance logs)가 포함됩니다. 실내 장면당 중앙값이 단 25프레임에 불과함에도 불구하고, CM-EVS는 컴팩트한 장면 수준 커버리지를 유지하면서 13개의 통합된 방 유형 (unified room types)을 모두 커버합니다. 실험 결과, COVER는 커버리지-충돌 트레이드오프 (coverage-conflict trade-off)를 개선하며, 이를 통해 CM-EVS를 기하학적으로 일관된 파노라마 3D 학습을 위한 희소하고 컴팩트하며 검증 가능한 RGB-D-pose 리소스로 만듭니다.

Insights

CM-EVS: 완전한 장면 커버리지를 위한 희소 파노라마 RGB-D-Pose 데이터

요약

핵심 포인트

댓글

LLM의 답변이 틀렸을 때, 추적(Trace)을 확인해야 하는 이유. 이를 쉽게 도와주는 도구들

에이전트 루프에서 늘어나는 AI 비용

Agent Factory 요약: Google Antigravity 2.0에서 AI 에이전트(AI agents)를 활용한 100배 빠른 엔지니어링

59센트짜리 GLM 5.2: 읽기는 저렴하지만, 구축은 그렇지 않다

에이전트 루프에서 늘어나는 AI 비용

Agent Factory 요약: Google Antigravity 2.0에서 AI 에이전트(AI agents)를 활용한 100배 빠른 엔지니어링

59센트짜리 GLM 5.2: 읽기는 저렴하지만, 구축은 그렇지 않다