Transformer Geometry Observatory TGO-II: 표현 유사성 관측소
요약
Transformer의 학습 과정 중 내부 표현의 기하학적 진화를 분석하는 프레임워크 TGO-II를 제안합니다. ViT를 대상으로 CKA, SVCCA 등을 활용해 분석한 결과, 레이어별 표현 전문화와 고유 차원의 확장이 동시에 일어남을 확인했습니다.
핵심 포인트
- TGO-II 프레임워크를 통한 Transformer 표현 기하학 분석
- 학습 진행에 따른 레이어별 표현 전문화 증가 확인
- 고유 차원 확장을 통한 표현 매니폴드의 점진적 확장
- 토큰 상호작용 구조를 유지하며 표현 복잡성 증가
Vision Transformer (ViT)가 컴퓨터 비전 및 언어 응용 분야 전반에서 놀라운 성공을 거두었지만, 학습 과정 전반에 걸친 내부 표현 (representation)의 기하학적 진화는 여전히 충분히 이해되지 않은 상태로 남아 있습니다. 기존의 분석들은 주로 어텐션 메커니즘 (attention mechanisms)과 다운스트림 성능 (downstream performance)에 집중되어 있어, 표현 기하학 (representation geometry)의 진화는 거의 탐구되지 않았습니다. 본 연구에서는 지도 학습 (supervised training) 동안 Transformer의 표현이 어떻게 진화하는지 조사하기 위해 설계된 표현 기하학 분석 프레임워크인 Transformer Geometry Observatory-II (TGO-II)를 제시합니다. TGO-II는 Centered Kernel Alignment (CKA), Singular Vector Canonical Correlation Analysis (SVCCA), Two-Nearest Neighbor Intrinsic Dimensionality (TwoNN-ID), 그리고 토큰 공분산 (token covariance) 분석을 사용하여 Vision Transformer (ViT-Small/16)의 표현을 분석합니다. 우리의 실험은 세 가지 핵심 관찰 결과를 보여줍니다. 첫째, CKA와 SVCCA 모두 학습 과정 전반에 걸쳐 점진적으로 감소하며, 이는 Transformer 레이어 전반에 걸쳐 표현 전문화 (representational specialization)가 증가함을 나타냅니다. 둘째, 고유 차원 (intrinsic dimensionality)은 안정화되기 전까지 지속적으로 증가하며, 이는 표현 매니폴드 (representation manifold)가 국부적으로 접근 가능한 더 큰 자유도 (degrees of freedom) 집합으로 점진적으로 확장됨을 시사합니다. 셋째, 토큰 공분산 및 결합 (coupling) 분석은 강력한 토큰 상호작용 구조가 학습 전반에 걸쳐 지속됨을 보여주며, 이는 표현 복잡성의 증가가 주로 점진적인 토큰 독립성 (token independence)으로부터 발생한다는 가설에 도전합니다. 이러한 발견은 표현 복잡성과 레이어 전문화가 학습 중에 동시에 나타남을 시사합니다. 매니폴드 확장 (manifold expansion)은 토큰 디커플링 (token decoupling) 없이 발생하는 것으로 보입니다. 종합적으로, 이러한 관찰 결과들은 Vision Transformer가 학습 과정 동안 강력한 토큰 상호작용 구조를 유지하면서도, 점진적으로 더 풍부한 변환 (transformations)을 통해 표현 복잡성을 증가시킨다는 새로운 가설을 뒷받침합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기