Transformer Geometry Observatory TGO-II: 표현 유사성 관측소

Vision Transformer (ViT)가 컴퓨터 비전 및 언어 응용 분야 전반에서 놀라운 성공을 거두었지만, 학습 과정 전반에 걸친 내부 표현 (representation)의 기하학적 진화는 여전히 충분히 이해되지 않은 상태로 남아 있습니다. 기존의 분석들은 주로 어텐션 메커니즘 (attention mechanisms)과 다운스트림 성능 (downstream performance)에 집중되어 있어, 표현 기하학 (representation geometry)의 진화는 거의 탐구되지 않았습니다. 본 연구에서는 지도 학습 (supervised training) 동안 Transformer의 표현이 어떻게 진화하는지 조사하기 위해 설계된 표현 기하학 분석 프레임워크인 Transformer Geometry Observatory-II (TGO-II)를 제시합니다. TGO-II는 Centered Kernel Alignment (CKA), Singular Vector Canonical Correlation Analysis (SVCCA), Two-Nearest Neighbor Intrinsic Dimensionality (TwoNN-ID), 그리고 토큰 공분산 (token covariance) 분석을 사용하여 Vision Transformer (ViT-Small/16)의 표현을 분석합니다. 우리의 실험은 세 가지 핵심 관찰 결과를 보여줍니다. 첫째, CKA와 SVCCA 모두 학습 과정 전반에 걸쳐 점진적으로 감소하며, 이는 Transformer 레이어 전반에 걸쳐 표현 전문화 (representational specialization)가 증가함을 나타냅니다. 둘째, 고유 차원 (intrinsic dimensionality)은 안정화되기 전까지 지속적으로 증가하며, 이는 표현 매니폴드 (representation manifold)가 국부적으로 접근 가능한 더 큰 자유도 (degrees of freedom) 집합으로 점진적으로 확장됨을 시사합니다. 셋째, 토큰 공분산 및 결합 (coupling) 분석은 강력한 토큰 상호작용 구조가 학습 전반에 걸쳐 지속됨을 보여주며, 이는 표현 복잡성의 증가가 주로 점진적인 토큰 독립성 (token independence)으로부터 발생한다는 가설에 도전합니다. 이러한 발견은 표현 복잡성과 레이어 전문화가 학습 중에 동시에 나타남을 시사합니다. 매니폴드 확장 (manifold expansion)은 토큰 디커플링 (token decoupling) 없이 발생하는 것으로 보입니다. 종합적으로, 이러한 관찰 결과들은 Vision Transformer가 학습 과정 동안 강력한 토큰 상호작용 구조를 유지하면서도, 점진적으로 더 풍부한 변환 (transformations)을 통해 표현 복잡성을 증가시킨다는 새로운 가설을 뒷받침합니다.

Insights

Transformer Geometry Observatory TGO-II: 표현 유사성 관측소

요약

핵심 포인트

댓글

모델 벤치마크가 아닌 인적 자본이 예측에서의 하이브리드 지능을 예측한다

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

G-RRM: 순환 추론 모델(Recurrent Reasoning Models)을 이용한 심볼릭 솔버(Symbolic Solvers) 가이드

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token

모델 벤치마크가 아닌 인적 자본이 예측에서의 하이브리드 지능을 예측한다

역대 최다 인도인데 −7% 급락? 테슬라 2분기 48만 대의 반전 | 7/2 테슬라 브리핑

G-RRM: 순환 추론 모델(Recurrent Reasoning Models)을 이용한 심볼릭 솔버(Symbolic Solvers) 가이드

텍스트 노이즈 및 중복성 대응: 엔트로피 인지형 밀집 시각 토큰 프루닝 (Entropy-Aware Dense Visual Token