신경 표현(Neural Representations)에서 위상(Phase)의 중요성: 이미지 분류기에 대한 내부 Oppenheim-Lim 테스트
요약
이미지 분류기의 은닉층에서 이미지의 정체성이 위상(Phase) 정보에 의존함을 입증하는 연구입니다. 실험을 통해 ViT와 GFNet 등 주요 모델이 크기(Magnitude)보다 위상 정보를 통해 정체성을 유지함을 확인했습니다.
핵심 포인트
- 이미지 분류기의 정체성은 위상 및 부호 정보에 저장됨
- 이미지 특유의 크기 정보는 판독 과정에서 불필요함
- ResNet-50의 경우 ReLU 이전 단계에서 부호 코드가 존재함
- CNN과 어텐션 모델 간의 질감-형태 간극에 대한 기계론적 설명 제공
Oppenheim과 Lim (1981)은 자연 이미지가 푸리에 위상(Fourier phase)만으로 재구성되어도 식별 가능한 상태를 유지하는 반면, 크기(magnitude)는 이미지의 정체성을 거의 담고 있지 않다는 것을 보여주었습니다. 우리는 학습된 이미지 분류기(image classifiers)가 은닉층(hidden layers) 내부에서 이러한 비대칭성을 재현하는지 질문하며, 이를 인과적으로 테스트합니다. 즉, 두 이미지가 주어졌을 때, 선택된 레이어에서 한 이미지의 위상을 다른 이미지의 크기에 이식(transplant)하고 예측이 어떤 이미지를 따르는지 기록합니다. PRISM2D, GFNet, 그리고 ViT-B/16에서는 예측이 위상 또는 부호(sign) 제공자를 따르며, 이미지 특유의 크기를 모두 삭제해도 정확도는 거의 변하지 않습니다. 따라서 정체성은 위상에 실려 있는 반면, 이미지 특유의 크기는 판독(readout)에 있어 대체로 불필요합니다. ResNet-50은 처음에는 이 패턴을 깨는 것처럼 보이는데, ReLU 이후에 부호를 이식하면 아무런 변화가 없기 때문입니다. 그러나 ReLU 이전의 적절한 개입(intervention)을 통해 후기 블록(late blocks)에 강력한 잠재적 부호 코드(latent sign code)가 있음을 밝혀냈으며, DC-only 대조군(control) 실험을 통해 판독 과정이 채널별 공간 평균(channel-wise spatial average)을 소비한다는 것을 보여주었습니다. 대조군 실험을 통해 크기가 단순히 이미지에 의존하지 않게 되는 사소한 경우(trivial case)를 배제했습니다. 따라서 이러한 아키텍처들은 위상/부호 정체성 코드(phase/sign identity code)를 공유하지만, 정류(rectification) 및 판독 기하학(readout geometry)에 의해 설정된 서로 다른 기저(bases)에서 이를 드러내며, 이는 CNN과 어텐션 모델(attention models) 사이의 질감-형태 간극(texture--shape gap)에 대한 기계론적 설명(mechanistic account)을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기