SpaceDG: 시각적 저하 상황에서의 공간 지능 벤치마킹

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 공간 지능 (spatial intelligence) 분야에서 급격한 발전을 이루었으나, 기존의 공간 추론 벤치마크들은 대부분 깨끗한 시각적 입력 (pristine visual inputs)을 가정하며, 모션 블러 (motion blur), 저조도 (low light), 악천후 (adverse weather), 렌즈 왜곡 (lens distortion), 압축 아티팩트 (compression artifacts)와 같이 실제 배포 환경에서 흔히 발생하는 저하 (degradations) 현상을 간과하고 있습니다. 이는 근본적인 질문을 제기합니다: 시각적 관찰이 불완전할 때 현재 MLLM의 공간 지능은 얼마나 견고한가? 이 질문에 답하기 위해, 우리는 저하 인지형 공간 이해 (degradation-aware spatial understanding)를 위한 최초의 대규모 데이터셋인 SpaceDG를 소개합니다. 이 데이터셋은 저하 형성 과정을 3D 가우시안 스플래팅 (3D Gaussian Splatting, 3DGS) 렌더링에 내장하는 물리 기반 저하 합성 엔진을 통해 구축되어, 9가지 저하 유형의 현실적인 시뮬레이션을 가능하게 합니다. 결과적으로 생성된 데이터셋은 약 1,000개의 실내 장면으로부터 추출된 약 100만 개의 QA 쌍을 포함합니다. 나아가 우리는 11개의 추론 카테고리와 9가지 시각적 저하 유형을 아우르는 1,102개의 질문으로 구성되어 1만 개 이상의 VQA 인스턴스를 생성하는, 인간이 검증한 벤치마크인 SpaceDG-Bench를 소개합니다. 25개의 오픈 소스 및 폐쇄형 소스 MLLM을 평가한 결과, 시각적 저하가 공간 추론을 일관되고 실질적으로 손상시키며 심각한 견고성 격차 (robustness gap)를 드러낸다는 것을 확인했습니다. 마지막으로, 우리는 SpaceDG를 통한 미세 조정 (finetuning)이 저하 견고성을 현저히 향상시키며, 깨끗한 이미지에서의 성능 저하 없이 저하된 조건 하에서 인간의 성능을 능가할 수 있음을 보여줌으로써, 견고한 공간 지능을 위한 저하 인지형 학습 (degradation-aware training)의 가능성을 강조합니다.

Insights

SpaceDG: 시각적 저하 상황에서의 공간 지능 벤치마킹

요약

핵심 포인트

댓글

자기 진화 AI 에이전트에 대한 종합 조사: 파운데이션 모델과 평생 에이전트 시스템을 연결하는 새로운 패러다임

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.

Apple이 Hugging Face에 HAT을 공개하다

Grok 4.5의 실제 사용 비용은 Opus 4.8의 1/17 수준입니다.

Grok 4.5가 Cursor에서 공식 출시되었습니다.