본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 11:11

ArchSIBench: 시각-언어 모델(VLMs)의 건축적 공간 지능 벤치마킹

요약

ArchSIBench는 시각-언어 모델(VLMs)의 고차원적인 건축적 공간 인지 능력을 평가하기 위해 제안된 새로운 벤치마크입니다. 인지, 추론, 내비게이션 등 5가지 차원과 17개의 하위 작업을 통해 기존의 기초적인 공간 인지 평가를 넘어 레이아웃 및 기능적 구획 이해를 측정합니다. 실험 결과, 최신 모델들도 공간 변형 및 구성 추론 측면에서는 전문가 수준에 미치지 못하는 한계를 보였습니다.

핵심 포인트

  • 건축적 공간 지능을 평가하기 위한 5가지 핵심 차원(인지, 추론, 내비게이션, 변형, 구성) 정의
  • 건축 전문가의 수동 주석을 통해 구축된 3,000개의 고품질 질문-답변 쌍 제공
  • 기존 VLM들이 기초적 공간 기술은 갖추었으나 고차원적 건축 공간 이해에는 한계가 있음을 입증
  • 공간 변형 및 구성 추론 분야에서 인간 전문가와 모델 간의 명확한 성능 격차 확인

건축적 공간 지능 (Architectural spatial intelligence), 즉 건축 공간을 인식하고 추론하는 능력은 로봇 내비게이션 (robot navigation), 체화된 상호작용 (embodied interaction), 그리고 3D 장면 이해 및 생성 (3D scene understanding and generation)과 같은 작업에 있어 필수적입니다. 상대적 방향 (relative orientation), 거리 비교 (distance comparison), 객체 수 세기 (object counting)와 같이 시각-언어 모델 (Vision-Language Models, VLMs)의 기본적인 공간 기술을 평가하는 광범위한 연구가 진행되어 왔으나, 이러한 작업들은 공간 인지의 가장 기초적인 수준만을 다루며 레이아웃 이해 (layout understanding), 동선 패턴 (circulation patterns), 기능적 구획 (functional zoning)을 포함한 건축 공간의 고차원적 인지를 크게 간과하고 있습니다.

본 연구에서는 건축학, 인지 과학 (cognitive science), 심리학 (psychology)의 관점을 기반으로 한 건축적 공간 지능을 위한 벤치마크인 ArchSIBench를 제안합니다. ArchSIBench는 인지 (perception), 추론 (reasoning), 내비게이션 (navigation), 변형 (transformation), 구성 (configuration)의 다섯 가지 핵심 차원을 다루며, 17개의 세분화된 하위 작업 (subtasks)으로 구성됩니다. 건축적 배경을 가진 전문가들의 세심한 수동 주석 (manual annotation)을 통해, 건축적 공간 지능의 종합적인 평가를 가능하게 하는 3,000개의 질문-답변 쌍을 구축하였습니다.

ArchSIBench를 바탕으로 다양한 VLMs를 평가한 결과, 대부분의 모델의 건축적 공간 지능이 인간 기준점 (human baselines)과 상당한 차이를 보임을 발견했습니다. 또한, 모델들은 능력 차원 전반에 걸쳐 상당한 가변성을 나타냈습니다. 일부 최첨단 (state-of-the-art) 모델들은 건축 관련 학습 없이도 인간 평가자의 수준에 근접할 수 있었습니다. 그러나 건축 교육을 받은 인간 평가자와 비교했을 때는, 특히 공간 변형 (spatial transformation) 및 구성 추론 (configuration reasoning) 측면에서 명확한 격차가 여전히 존재합니다. 우리는 ArchSIBench가 VLMs의 건축적 공간 지능을 측정하고 발전시키기 위한 중요한 통찰력과 체계적인 자원을 제공할 것이라고 믿습니다. 데이터셋과 코드는 https://huggingface.co/datasets/ArchSIBench/ArchSIBench 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0