본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 22. 15:45

SpaceDG: 시각적 저하 상황에서의 공간 지능 벤치마킹

요약

시각적 저하 상황에서도 견고한 공간 지능을 평가하기 위한 새로운 벤치마크 SpaceDG를 소개합니다. 3DGS 기반 물리 엔진을 통해 9가지 저하 유형을 시뮬레이션하며, MLLM의 공간 추론 성능 격차를 확인하고 미세 조정을 통한 개선 가능성을 제시합니다.

핵심 포인트

  • 실제 환경의 시각적 저하를 반영한 최초의 대규모 공간 지능 데이터셋 SpaceDG 공개
  • 3D 가우시안 스플래팅 기반 물리 엔진으로 9가지 저하 유형 합성
  • 25개 MLLM 평가 결과, 시각적 저하가 공간 추론 성능을 심각하게 저하시킴 확인
  • SpaceDG 미세 조정을 통해 깨끗한 이미지 성능 유지하며 저하 견고성 향상 가능

멀티모달 거대 언어 모델 (Multimodal Large Language Models, MLLMs)은 공간 지능 (spatial intelligence) 분야에서 급격한 발전을 이루었으나, 기존의 공간 추론 벤치마크들은 대부분 깨끗한 시각적 입력 (pristine visual inputs)을 가정하며, 모션 블러 (motion blur), 저조도 (low light), 악천후 (adverse weather), 렌즈 왜곡 (lens distortion), 압축 아티팩트 (compression artifacts)와 같이 실제 배포 환경에서 흔히 발생하는 저하 (degradations) 현상을 간과하고 있습니다. 이는 근본적인 질문을 제기합니다: 시각적 관찰이 불완전할 때 현재 MLLM의 공간 지능은 얼마나 견고한가? 이 질문에 답하기 위해, 우리는 저하 인지형 공간 이해 (degradation-aware spatial understanding)를 위한 최초의 대규모 데이터셋인 SpaceDG를 소개합니다. 이 데이터셋은 저하 형성 과정을 3D 가우시안 스플래팅 (3D Gaussian Splatting, 3DGS) 렌더링에 내장하는 물리 기반 저하 합성 엔진을 통해 구축되어, 9가지 저하 유형의 현실적인 시뮬레이션을 가능하게 합니다. 결과적으로 생성된 데이터셋은 약 1,000개의 실내 장면으로부터 추출된 약 100만 개의 QA 쌍을 포함합니다. 나아가 우리는 11개의 추론 카테고리와 9가지 시각적 저하 유형을 아우르는 1,102개의 질문으로 구성되어 1만 개 이상의 VQA 인스턴스를 생성하는, 인간이 검증한 벤치마크인 SpaceDG-Bench를 소개합니다. 25개의 오픈 소스 및 폐쇄형 소스 MLLM을 평가한 결과, 시각적 저하가 공간 추론을 일관되고 실질적으로 손상시키며 심각한 견고성 격차 (robustness gap)를 드러낸다는 것을 확인했습니다. 마지막으로, 우리는 SpaceDG를 통한 미세 조정 (finetuning)이 저하 견고성을 현저히 향상시키며, 깨끗한 이미지에서의 성능 저하 없이 저하된 조건 하에서 인간의 성능을 능가할 수 있음을 보여줌으로써, 견고한 공간 지능을 위한 저하 인지형 학습 (degradation-aware training)의 가능성을 강조합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0