arXiv논문2026. 05. 14. 14:28

비전 모델 전반에 걸친 보편적 객체 표현의 특성 규명

요약

본 연구는 다양한 아키텍처, 목적 함수, 데이터셋으로 학습된 비전 모델들이 유사한 시각적 표현으로 수렴한다는 현상을 분석했습니다. 162개의 비전 모델의 객체 유사성 구조를 분해하여 '보편적 차원'과 '모델 특정적 차원'을 구분했으며, 보편적 차원은 해석 가능하고 개념적 이미지 특성에 의해 강력하게 유도됨을 발견했습니다. 나아가, 더 많은 보편적 차원을 가진 모델이 마카크의 IT 활동 및 인간의 유사성 판단을 더 잘 예측하여, 이러한 표현이 생물학적 시각과 정렬되어 있음을 시사합니다.

핵심 포인트

다양한 비전 모델들이 공통적인 '보편적 차원'으로 수렴하는 경향이 관찰됨.
보편적 차원은 해석 가능하며 개념적 이미지 특성에 의해 강력하게 유도되는 반면, 모델 특정적 차원은 그렇지 않음.
모델의 아키텍처나 학습 데이터만으로는 보편성을 설명할 수 없으며, 생물학적 시각과의 정렬이 중요한 요인임.
보편적 표현은 마카크 IT 활동 및 인간 유사성 판단과 높은 상관관계를 보여 생물학적 근원을 가짐을 시사함.

서로 다른 아키텍처 (Architecture), 목적 함수 (Objectives), 그리고 데이터셋 (Datasets)으로 학습된 심층 신경망 (Deep neural networks)들이 유사한 시각적 표현 (Visual representations)으로 수렴한다는 사실이 보고되어 왔습니다. 하지만 모델들이 실제로 어떤 시각적 특성으로 수렴하는지, 그리고 어떤 요인들이 이러한 수렴의 근저에 있는지에 대해서는 여전히 알려지지 않았습니다. 이를 해결하기 위해, 우리는 162개의 다양한 비전 모델 (Vision models)의 객체 유사성 구조 (Object similarity structure)를 소수의 비음수 차원 (Non-negative dimensions) 세트로 분해합니다. 보편적 차원 (Universal dimensions)과 모델 특정적 차원 (Model-specific dimensions)을 구분하기 위해, 각 차원이 모델 전반에 걸쳐 얼마나 자주 재현되는지를 추정합니다. 모델 특정적 차원과 대조적으로, 보편적 차원은 더 해석 가능하며 (Interpretable) 개념적 이미지 특성 (Conceptual image properties)에 의해 더 강력하게 유도되는데, 이는 해석 가능성과 의미론적 콘텐츠 (Semantic content)가 모델 간 보편성을 유도하는 암묵적 요인으로서 관련이 있음을 나타냅니다. 아키텍처 (Architecture), 목적 함수 (Objective function), 학습 데이터 (Training data), 모델 크기 (Model size), 그리고 모델 성능 (Model performance)의 차이는 보편적 차원의 출현을 설명하지 못합니다. 그러나 더 많은 보편적 차원을 가진 모델일수록 마카크 (Macaque) IT 활성 (IT activity)과 인간의 유사성 판단 (Human similarity judgments)을 더 잘 예측하며, 이는 보편성이 생물학적 시각 (Biological vision)과 관련된 표현을 반영함을 시사합니다. 이러한 발견은 심층 신경망 모델의 근저에 있는 창발적 표현 (Emergent representations)과 그것이 생물학적 시각과 정렬 (Alignment)되는 방식을 이해하는 데 중요한 시사점을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

비전 모델 전반에 걸친 보편적 객체 표현의 특성 규명

요약

핵심 포인트

댓글