arXiv논문2026. 06. 10. 12:15

Feedback Alignment에서의 랭크 붕괴(Rank Collapse) 극복

요약

Feedback Alignment(FA) 학습 시 발생하는 랭크 붕괴 문제를 분석하고, 이를 해결하기 위한 연구를 소개합니다. Muon 옵티마이저와 은닉 활성화 정규화를 통해 FA의 유효 차원을 높여 더 깊은 아키텍처에서도 성능을 개선할 수 있음을 입증했습니다.

핵심 포인트

FA 모델은 BP 대비 낮은 유효 랭크를 가져 파라미터 탐색이 제한됨
Muon 옵티마이저를 통한 가중치 업데이트 직교화 제안
은닉 활성화 정규화로 활성화의 직교성 촉진
ResNet-18 기반 CIFAR100 실험에서 정확도 9%p 향상 확인

역전파 (Backpropagation, BP)는 오차 전파를 위해 피드백 가중치 (feedback weights)가 순전파 가중치 (forward weights)의 전치 (transpose)여야 한다는 점 때문에 생물학적으로 불가능한 것으로 널리 간주됩니다. 흥미롭게도, 이 문제를 우회하기 위해 고정된 무작위 피드백 가중치를 사용하여 네트워크를 학습시킬 때, 학습 과정에서 순전파 가중치가 피드백 가중치와 정렬되며, 이로 인해 역전파되는 오차 신호가 BP에서 사용되는 표준 그래디언트 (gradient)의 근사치가 됩니다. Feedback Alignment (FA)라고 불리는 이 과정은 MLP 및 매우 얕은 CNN에서는 발생하지만, 더 깊은 아키텍처로 확장하기에는 어려움이 있습니다. 본 연구에서 우리는 먼저 CIFAR10으로 학습된 BP 모델과 FA 모델 간의 차이점을 조사하였으며, 특히 신호의 유효 랭크 (effective rank)에 초점을 맞추었습니다. 우리는 FA 오차가 BP에 비해 상당히 낮은 랭크를 가지며, 따라서 더 낮은 차원의 부분 공간 (subspace)으로 제한되어 파라미터 공간 (parameter space)의 탐색을 제한한다는 것을 발견했습니다. 이러한 관찰에 착안하여, 우리는 FA의 유효 차원을 높이기 위한 두 가지 메커니즘을 평가했습니다: 가중치 업데이트를 직교화 (orthogonalise)하는 옵티마이저 (optimiser)인 Muon, 그리고 활성화의 직교성 (activation orthogonality)을 촉진하는 은닉 활성화 정규화 (hidden activity normalisation)입니다. 더 큰 아키텍처와 벤치마크 전반에 걸쳐, 우리는 이러한 방법들이 FA 베이스라인보다 일관되게 개선됨을 확인했습니다. 예를 들어, Resnet-18을 사용한 CIFAR100에서 정확도가 9 퍼센트 포인트 향상되었습니다. 우리의 결과는 저차원 그래디언트 역학 (low-dimensional gradient dynamics)이 FA 확장의 주요 장애물임을 식별하며, 더 높은 차원의 업데이트 기하학 (update geometry)을 유도하는 것이 역전파의 대안을 확장하기 위한 유망한 경로임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Feedback Alignment에서의 랭크 붕괴(Rank Collapse) 극복

요약

핵심 포인트

댓글