다른 레이어, 다른 다양체: 트랜스포머 최적화에서의 모듈별 가중치 공간 기하학
요약
본 연구는 트랜스포머의 가중치 공간 기하학에서 모듈별 다양체 제약 조건의 비대칭성을 탐구했습니다. 어텐션 블록에는 Stiefel 기하학, MLP 블록에는 DGram 기하학을 할당하는 것이 가장 좋은 성능을 보였습니다. 이는 트랜스포머 최적화가 균일하지 않고 모듈별로 이루어져야 함을 시사합니다.
핵심 포인트
- 어텐션 레이어와 MLP 레이어는 서로 다른 다양체 제약 조건을 선호한다.
- Stiefel 기하학(Attention)과 DGram 기하학(MLP)의 조합이 최적 성능을 보였다.
- 모듈별로 특화된 기하학 인식 최적화가 필요하다.
- 균일한 가중치 공간 제약 조건은 불안정성을 야기할 수 있다.
가중치 공간 기하학(Weight-space geometry)은 신경망 최적화에서 핵심적인 역할을 하지만, 다양체 제약 조건(manifold constraints)은 종종 모든 가중치 행렬에 걸쳐 균일하게 적용됩니다. 본 연구에서는 서로 다른 트랜스포머 모듈들이 각기 다른 다양체 기하학을 선호하는지 질문합니다. 우리는 GPT-2 사전 학습을 위해 Manifold Muon을 연구하고, 어텐션 블록과 MLP 블록에 Stiefel 및 DGram 제약 조건을 레이어별로 할당한 결과를 비교합니다. 우리의 결과는 명확한 비대칭성을 보여줍니다: 어텐션 레이어에는 Stiefel 기하학을 적용하고 MLP 레이어에는 DGram 기하학을 할당하는 것이 테스트된 설정 중 가장 우수한 성능을 보였으며, 반대로 역 할당(inverted assignment)과 모든-DGram 구성은 공유 하이퍼파라미터 설정 하에서 불안정해졌습니다. 우리는 이러한 실패가 DGram 제약 조건이 적용된 어텐션 가중치에서의 특이값 성장으로 인해 발생하며, 이는 어텐션 로짓을 증폭시키고 소프트맥스 포화(softmax saturation)를 유도할 수 있음을 추적했습니다. 이러한 발견들은 트랜스포머에 대한 최적화가 균일하기보다는 모듈별로 이루어지는 대칭성 인식 및 기하학 인식 최적화가 되어야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기