ConvNeXt V2 논문 해설: CNN을 위한 Masked Autoencoder

서론

최근의 시각 인식에서는 라벨이 있는 데이터뿐만 아니라, 라벨이 없는 데이터로부터 범용적인 표현을 획득하는 자기 지도 학습 (Self-Supervised Learning; SSL)이 중요해지고 있다. 그중에서도 이미지의 일부를 가리고, 남겨진 정보로부터 결손 영역을 복원하는 **masked image modeling (MIM)**은 Vision Transformer (ViT)와 Masked Autoencoder (MAE)의 성공에 힘입어 대표적인 사전 학습 기법이 되었다.

하지만 ViT에서 성공한 MIM을 ConvNet에 그대로 이식할 수 있는 것은 아니다. ViT는 이미지를 patch token의 열로 취급하기 때문에, mask된 token을 encoder에서 제거할 수 있다. 반면, ConvNet은 dense한 2차원 feature map과 합성곱 연산을 전제로 하므로, 입력의 일부를 mask 하더라도 일반적인 convolution에서는 공간 전체에 계산이 수행된다.

ConvNeXt V2 논문이 흥미로운 점은, 이러한 차이에 대해 단순히 ConvNet에 MAE를 얹는 것이 아니라, 자기 지도 학습의 프레임워크와 아키텍처를 동시에 재설계했다는 점에 있다. 구체적으로는 ConvNet을 위한 masked autoencoder인 FCMAE와, masked pretraining 중의 feature collapse를 억제하는 **Global Response Normalization (GRN)**을 결합하고 있다.

본 기사에서는 ConvNeXt V2를 단순한 고성능 ConvNet이 아니라, ConvNet에서 masked image modeling을 성립시키기 위한 설계론으로서 읽는다.

1. 논문의 질문: MAE를 ConvNet으로 이식할 수 있는가

1.1 ConvNet을 유지하는 이유

ViT를 중심으로 하는 transformer 계열 아키텍처는 대규모 데이터와 대규모 모델을 결합했을 때 강력한 스케일링 성능을 보여준다. 자기 지도 학습과의 상성도 좋다.

한편, ConvNet이 과거의 유물이 된 것은 아니다. ConvNeXt는 depthwise convolution, 큰 kernel, inverted bottleneck 방식의 구조, Layer Normalization 등을 도입함으로써, 순수 합성곱 모델로도 transformer 계열 모델에 근접한 성능을 달성할 수 있음을 보여주었다.

ConvNeXt

원문 논문

해설 기사 추천

ConvNet에는 ViT와는 다른 귀납적 편향 (Inductive Bias)이 있다. 국소적인 공간 구조를 다루기 쉽고, 병진 불변성 (Translation Invariance)에 대해 자연스러운 성질을 가지며, 계층적으로 저수준 특징에서 고수준 특징으로 표현을 만들어낸다. 이 성질은 이미지 인식에서 여전히 유효하다.

따라서 ConvNet에서 SSL을 성립시키는 것에는 의미가 있다. 논점은 "ViT의 대체제를 만드는 것"이 아니라, ConvNet의 귀납적 편향을 유지하면서 라벨 없는 데이터로부터 유용한 표현을 학습할 수 있는가이다.

1.2 MAE의 본질

MAE는 이미지의 일부를 mask 하고, 보이는 patch만을 단서로 결손 영역을 복원하는 자기 지도 학습 기법이다. 다만, 목적은 복원 이미지를 깨끗하게 생성하는 것이 아니다. 중요한 것은 복원 태스크를 통해 encoder가 다운스트림 태스크에서 사용할 수 있는 표현을 학습하게 하는 것이다.

MAE에서는 encoder와 decoder의 역할이 비대칭적이다. encoder는 다운스트림 태스크에서 사용할 표현을 만드는 본체이며, decoder는 pretraining 시에 reconstruction loss를 정의하는 보조 모듈이다. 따라서 encoder를 무겁게, decoder를 가볍게 하는 설계로 되어 있다.

ViT-MAE가 성립하기 쉬웠던 이유는 이 비대칭 설계와 ViT의 token-based architecture가 맞물렸기 때문이다. ViT에서는 이미지를 patch token의 열로 취급하므로, mask된 patch를 encoder의 입력에서 제거할 수 있다. 예를 들어 75%를 mask 하는 경우, encoder는 남은 25%의 가시적 token만을 처리하면 된다. mask token은 encoder에는 들어가지 않고, decoder 측에서 처음으로 추가된다.

이 설계에 의해 다음 세 가지가 동시에 성립한다.

encoder가 mask 영역을 직접 보지 않는다.
높은 mask ratio를 통해 encoder 측의 계산량을 줄일 수 있다.
mask token이 decoder 측에 국한되므로, encoder의 입력 분포가 비교적 단순하게 유지된다.

ViT-MAE 원 논문

1.3 ConvNet에서 무너지는 전제

동일한 MIM (Masked Image Modeling)을 ConvNet에 적용하면, MAE가 ViT에서 활용했던 전제가 무너진다. 가장 큰 차이점은 ConvNet이 이미지를 token의 집합이 아니라, dense한 2차원 feature map으로 처리한다는 점에 있다.

일반적인 convolution (합성곱)은 공간 전체에 적용된다. 따라서 입력 이미지의 일부를 0으로 채우거나 mask token으로 대체하더라도, mask된 영역을 포함한 dense한 입력 전체에 계산이 수행된다. 이로 인해 다음과 같은 문제가 발생한다.

mask 설계 문제: convolution은 주변 영역을 참조하기 때문에, mask 영역과 가시 영역의 경계에서 정보가 섞일 수 있다.
계산 효율 문제: ViT-MAE처럼 mask한 만큼 encoder의 계산량이 줄어들지 않는다.
분포 불일치 문제: encoder에 mask token을 넣으면, pretraining (사전 학습) 시에는 존재하던 인위적인 입력이 fine-tuning (미세 조정) / 추론 시에는 사라진다.
특징 공간 문제: ConvNet의 특징 채널이 masked pretraining 하에서 자연스럽게 분화된다고 보장할 수 없다.

즉, ConvNet에 MIM을 적용하는 어려움은 단순히 mask 구현이 번거롭다는 차원의 문제가 아니다. ViT-MAE에서 성립했던 "가시 token만을 encoder에 전달한다"라는 구조를 ConvNet의 계산 형식에 맞춰 다시 만들어야 한다.

이를 위해 제안된 것이 Fully Convolutional Masked Autoencoder, 즉 FCMAE이다.

2. FCMAE: ConvNet을 위해 MIM을 재설계하다

FCMAE는 masked image modeling의 개념을 유지하면서, 이를 ConvNet의 계산 구조에 맞춰 재설계한 framework (프레임워크)이다. 핵심적인 발상은 mask된 이미지를 "값이 결여된 dense image"가 아니라, **가시 영역만으로 구성된 sparse data (희소 데이터)**로 취급한다는 점에 있다.

FCMAE framework. Sparse convolution (희소 합성곱)에 기반한 ConvNeXt encoder와 경량 ConvNeXt block decoder로 구성된다. encoder는 가시 영역에 대응하는 active site (활성 부위)만을 처리하며, decoder는 encoder의 출력과 mask token을 사용하여 이미지를 재구성한다. 손실 (loss)은 mask 영역에 대해서만 계산된다.

2.1 Mask 이미지를 sparse data로 바라보기

통상적으로 이미지에 mask를 적용할 때는 mask된 영역을 0으로 채우거나, 학습 가능한 mask token으로 대체한다. 하지만 이 경우 입력은 여전히 dense한 2차원 배열이며, convolution 또한 이미지 전체에 대해 수행된다. 즉, mask된 위치에서도 계산이 발생한다.

FCMAE는 이러한 관점을 바꾼다. mask된 영역을 inactive site (비활성 부위), 가시 영역을 active site로 간주하고, encoder에서는 active site만을 처리한다. 즉, mask 영역을 사후적으로 0으로 만드는 것이 아니라, 애초에 계산 대상에서 제외한다.

이는 3D point cloud (점 구름)에서 사용되는 sparse convolution과 유사한 발상이다. 점 구름에서는 공간 전체에 dense한 voxel grid를 만들면 낭비가 심하기 때문에, 점이 존재하는 active site만을 처리한다. FCMAE는 이 개념을 MIM에 도입하여, ConvNet에서도 "가시 부분만을 encoder에 전달하는" 구조를 구축했다.

Sparse Convolution이란

Submanifold Sparse Convolution과 ConvNeXt V2

Submanifold Sparse Convolution에 대해 공부하려면 다음 논문이 매우 유용하다.

Submanifold Sparse Convolution의 원 논문. 일반적인 sparse convolution (희소 합성곱)에서는 층을 거듭할수록 active site (활성 위치)가 주변으로 확산되어 버린다. 이에 반해, 입력에서 active 했던 위치에만 출력을 생성함으로써, 희소한 구조를 유지한 채 깊은 CNN을 구성한다는 아이디어를 제안한다.

원 논문의 구현 리포지토리. 일반적인 $3\times3$ convolution에서는 active site가 급격히 증가하는 반면, Submanifold Sparse Convolution에서는 active site가 변하지 않는다는 동작이 그림과 함께 설명되어 있다. 알고리즘의 직관을 파악하기에는 논문보다 이 README가 더 이해하기 쉽다.

Submanifold Sparse Convolution을 3D 점군(point cloud)·voxel segmentation에 응용한 논문. LiDAR나 RGB-D 유래의 점군처럼 3D 공간 내의 아주 일부만이 occupied (점유)되어 있는 데이터에서는, dense convolution (밀집 합성곱)은 매우 비효율적이다. 이러한 맥락에서 Submanifold Sparse Convolution은 상당히 자연스러운 선택지가 된다.

ConvNeXt V2 / FCMAE의 원 논문에서는 Submanifold Sparse Convolution이 3D 점군이 아닌, masked image modeling (마스크 이미지 모델링)에 사용되고 있다.

즉, ConvNeXt V2에서의 Submanifold Sparse Convolution은 단순한 가속화 기술이 아니라, mask token을 encoder에 입력하는 대신 마스크 영역을 아예 계산하지 않기 위한 메커니즘이다.

이런 의미에서, ConvNeXt V2의 FCMAE는 ViT-MAE의 발상을 그대로 ConvNet에 이식한 것이 아니다. ConvNet의 dense sliding window (밀집 슬라이딩 윈도우)라는 특성에 맞춰, masked image를 sparse data (희소 데이터)로서 다시 취급한 점에 설계상의 독창성이 있다.

부록: $3\times3$ 커널을 이용한 Submanifold Sparse Convolution

입력 이미지를 $X$라 하고, 픽셀 위치를 $(i, j)$라 하자.
또한, 비제로(non-zero)이거나 의미 있는 픽셀의 집합을 active site라고 부르며, $\mathcal{S}$라고 정의한다.

$\mathcal{S} = {(i, j) \mid X_{i,j} \neq 0}$ 이다.

일반적인 합성곱에서는 각 픽셀 $Y_{i,j}$를 다음과 같이 계산한다.

$Y_{i,j} = \sum_{m,n} W_{m,n} X_{i+m, j+n}$

반면, Submanifold Sparse Convolution에서는 출력을 계산하는 위치를 active site로 한정한다. 즉,

$Y_{i,j} = 0 \quad \text{if } (i, j) \notin \mathcal{S}$

또한, 주변 픽셀에 대해서도 active site의 값만을 사용한다. 따라서,

$Y_{i,j} = \sum_{(m,n) \in \mathcal{S}} W_{m,n} X_{i+m, j+n} \quad \text{if } (i, j) \in \mathcal{S}$

가 된다.

즉, Submanifold Sparse Convolution은 다음과 같이 쓸 수 있다.

$Y_{i,j} = \begin{cases} \sum_{m,n} W_{m,n} X_{i+m, j+n} & \text{if } (i, j) \in \mathcal{S} \ 0 & \text{otherwise } \end{cases}$

일반적인 sparse convolution과의 차이점은 출력 위치의 처리 방식에 있다.

일반적인 sparse convolution에서는 주변에 active site가 하나라도 있으면 그 위치를 새로운 active site로 출력한다. 그 때문에 층을 쌓으면 active site가 주변으로 퍼져나간다.

반면, Submanifold Sparse Convolution에서는

$\mathcal{S}{out} = \mathcal{S}{in}$

이다.

즉, 입력에서 active 했던 픽셀에만 출력을 만든다. 주변의 active 픽셀로부터 정보는 집약하지만, inactive한 위치에 새로운 active site를 만들지는 않는다.

따라서, Submanifold Sparse Convolution은 active site 상에서만 수행되는 합성곱이라고 생각하면 된다. 커널 가중치를 $W$라고 하자.

여기서는 직관을 설명하기 위해 픽셀 격도상의 합성곱으로 기술했지만, FCMAE의 맥락에서는 mask된 patch / feature map 상의 spatial location (공간적 위치)에 대응하는 active site로 이해하면 된다.

2.2 Sparse convolution encoder

FCMAE에서는 encoder로 ConvNeXt를 사용한다. 단, pretraining (사전 학습) 시에는 일반적인 dense convolution이 아닌 sparse convolution으로 취급한다. 이를 통해 encoder는 가시 영역(visible region)에 대해서만 계산을 수행하며, mask된 영역은 encoder의 계산에 참여하지 않는다.

이 설계의 의미는 명확하다.

mask 영역(mask region)이나 mask token에 의존하는 shortcut을 억제하기 쉽다.
encoder에 mask token을 입력하지 않으므로, pretraining과 fine-tuning 사이의 입력 분포 차이(distribution shift)를 줄일 수 있다.
dense convolution과 달리, masking을 통한 계산량 절감이 가능하다.

논문에서는 sparse convolution의 유무가 fine-tuning accuracy에 큰 영향을 미친다는 점을 보여준다.

설계	ImageNet-1K fine-tuning accuracy
w/o Sparse conv.	79.3
w/ Sparse conv.	83.7

이 차이는 단순히 이미지를 mask 하여 복원하게 하는 것만으로는 불충분하며, encoder가 어느 영역을 처리할지를 명시적으로 설계할 필요가 있음을 시사한다.

참고로, sparse convolution layer는 fine-tuning 시에 표준적인 dense convolution으로 되돌릴 수 있다. 따라서 sparse convolution은 주로 pretraining 시의 메커니즘이며, 다운스트림 태스크(downstream task)에서는 일반적인 ConvNeXt로 취급할 수 있다. 이 점은 실용적인 측면에서도 중요하다.

2.3 경량 decoder와 masked reconstruction

FCMAE에서는 입력 이미지를

encoder에는 ConvNeXt를 사용하고, decoder에는 단일 ConvNeXt block에 기반한 경량 decoder를 사용한다. 여기서 decoder를 과도하게 강력하게 만들지 않는 것이 중요하다. MAE 계열의 SSL (Self-Supervised Learning)에서 다운스트림 태스크에 사용하고자 하는 것은 기본적으로 encoder이며, decoder는 reconstruction loss를 정의하기 위한 보조 모듈에 불과하다. decoder가 너무 강력하면, encoder가 유용한 표현(representation)을 학습하지 않고도 복원해 버릴 가능성이 있다.

재구성 대상은 원 이미지를 patch-wise로 정규화한 이미지이다. 손실 함수에는 mean squared error (MSE)를 사용하며, mask된 patch에 대해서만 계산한다. 가시 영역(visible region)은 이미 encoder에 주어져 있으므로, 그 부분을 복원하게 하는 것은 학습 신호로서 약하다. 모델에 요구되는 것은 보이지 않는 영역을 주변의 문맥(context)이나 이미지 구조로부터 추론하는 것이다.

FCMAE의 설계는 다음과 같이 정리할 수 있다.

입력 이미지를 patch 단위로 분할하고, 그 중 60%를 mask 한다. $32 \times 32$ 계층적 ConvNet에 대응하기 위해, mask를 각 stage의 해상도로 확장한다.
mask된 이미지를 sparse data로 취급한다.
encoder는 sparse convolution을 통해 가시 영역만을 처리한다.
decoder는 encoder 출력과 mask token을 사용하여 결손 영역을 복원한다.
reconstruction loss는 mask 영역에 대해서만 계산한다.

FCMAE는 ConvNet에서 MIM (Masked Image Modeling)을 실행하기 위한 입력 및 계산 구조를 제공했다. 하지만 ConvNeXt V1에 FCMAE를 결합하는 것만으로는, ConvNeXt V1의 강력한 supervised baseline을 명확히 뛰어넘는 수준까지 도달하지는 못한다.

설정	ImageNet-1K fine-tuning accuracy
Sup. 100ep	82.7
...

이 결과는 FCMAE가 유효한 한편, 문제가 masked autoencoder의 설계에만 있었던 것은 아님을 보여준다. 다음 논점은 ConvNet 측의 특징 공간(feature space)이다.

3. Feature collapse: FCMAE만으로는 부족하다

ConvNeXt V1에 FCMAE를 적용하면 masked pretraining 자체는 가능해진다. 하지만 논문에서는 특징 채널의 다양성이 상실되는 feature collapse 현상이 관찰되었다.

특징 활성화 시각화 (Feature activation visualization). 각 특징 채널 (feature channel)의 활성화 맵 (activation map)을 작은 정사각형 형태로 시각화한다. 가독성을 위해 각 시각화에서는 64개의 채널을 표시하고 있다. ConvNeXt V1 모델은 feature collapse 문제를 안고 있으며, 이는 채널 간에 중복되는 활성화 (dead 또는 saturated neuron)가 존재함으로써 특징지어진다.

3.1 활성화 맵 (Activation map)에서 보이는 collapse

활성화 맵 (activation map) 시각화에서는 많은 특징 맵 (feature map)이 거의 반응하지 않거나, 포화(saturated)된 듯한 반응을 보인다. 즉, 각 채널이 서로 다른 정보를 담당하기보다는 유사한 반응이나 사용되지 않는 반응이 늘어나고 있다.

여기서 말하는 feature collapse는 대조 학습 (contrastive learning)에서 문제가 되는 "모든 입력이 동일한 표현이 되는 collapse"와는 조금 다르다. 문제는 채널 방향의 다양성이 상실되는 것이다. 일부 채널이 죽거나(dead), 여러 채널이 유사한 활성화 (activation)를 보임으로써 모델 용량 (model capacity)을 충분히 활용하지 못하게 된다.

자기지도 학습 (SSL)에서는 특정 라벨 집합에 특화된 특징이 아니라, 하류 태스크 (downstream task)로 전이되기 쉬운 범용 표현 (general representation)을 학습하고자 한다. 따라서 특징 채널이 충분히 분화되지 않고 중복된 반응이 늘어나는 것은 문제가 된다. 논문에서는 이 현상이 주로 ConvNeXt 블록 (block) 내의 차원 확장 (dimension-expansion) MLP 층에서 관찰되었다고 보고하고 있다.

3.2 특징 코사인 거리 (Feature cosine distance)를 통한 정량 분석

논문에서는 채널 간의 특징 다양성을 정량화하기 위해 특징 코사인 거리 분석 (feature cosine distance analysis)을 수행한다.

활성화 텐서 (activation tensor)를

이 값은 채널끼리 얼마나 다른 활성화 패턴 (activation pattern)을 갖는지를 나타낸다. 코사인 거리 (cosine distance)가 작을수록 많은 채널이 유사한 반응을 하고 있으며, 특징 중복 (feature redundancy)이 크다고 해석할 수 있다.

특징 코사인 거리 분석 (Feature cosine distance analysis). 아키텍처에 따라 총 층수가 다르기 때문에, 정규화된 층 인덱스 (normalized layer index)에 대해 거리 값 (distance value)을 플롯 (plot)하였다.

그림에서 중요한 점은, FCMAE로 사전 학습된 ConvNeXt V1이 층이 깊어질수록 특징 다양성 (feature diversity)을 크게 상실한다는 점이다. 지도 학습 (supervised learning)된 ConvNeXt에서도 최종 층 부근에서는 특징이 분류에 필요한 방향으로 수렴하지만, FCMAE 사전 학습에서는 더 넓은 범위에서 중복화가 관찰된다.

대조적으로, MAE로 사전 학습된 ViT에서는 특징 다양성 (feature diversity)이 비교적 잘 유지된다. 이는 ViT-MAE가 마스크 이미지 모델링 (MIM)과 구조적으로 잘 맞물려 있다는 점과 일치한다.

이 분석을 통해 문제의 초점이 명확해진다. FCMAE는 ConvNet에 MIM을 적용하기 위한 입력 및 계산 구조를 제공했다. 하지만 ConvNeXt V1 구조 그대로라면, 마스크 사전 학습 (masked pretraining) 중에 특징 채널의 다양성이 상실되기 쉽다. 따라서 ConvNet에서 MIM을 성립시키려면, 아키텍처 내부의 특징 응답 (feature response) 또한 설계해야 한다.

그 결과 도입되는 것이 바로 **전역 응답 정규화 (Global Response Normalization, GRN)**이다.

4. GRN: 특징 채널을 경쟁시키다

GRN의 목적은 채널 간의 특징 경쟁 (feature competition)을 강화하여 특징 다양성 (feature diversity)을 유지하는 것이다. 다시 말해, 각 채널이 유사한 반응으로 뭉개지는 것을 방지하고, 각각의 채널이 서로 다른 특징을 담당하기 쉽게 만들기 위한 메커니즘이다.

ConvNeXt 블록 설계 (ConvNeXt Block Designs). ConvNeXt V2에서는 차원 확장 (dimension-expansion) MLP 층 뒤에 GRN 층을 추가하고, 중복되는 LayerScale을 제거한다.

4.1 GRN은 어디에 들어가는가

GRN은 ConvNeXt block의 dimension-expansion MLP layer 뒤에 삽입된다. 이 위치는 feature collapse가 주로 MLP 층에서 관찰되었다는 점과 일치한다.

ConvNeXt block에서는 먼저 depthwise convolution을 통해 공간적 정보를 처리하고, 그 후 MLP 방식의 채널 변환을 통해 특징을 혼합 및 확장한다. 이 dimension-expansion 부분은 표현력을 높이는 한편, masked pretraining 환경에서는 일부 채널이 중복되기 쉽다.

GRN은 이렇게 고차원화된 특징에 대해 각 채널의 global response를 비교하고, 상대적으로 어떤 채널이 강하게 반응하는지를 이용하여 feature map을 조정한다. 이를 통해 채널 간에 경쟁 관계가 형성되어, 유사한 채널들만 늘어나는 현상을 억제한다.

ConvNeXt V2에서는 GRN의 도입으로 인해 ConvNeXt V1에서 사용되었던 LayerScale은 불필요해져 삭제되었다. 변경 사항은 비교적 작지만, masked pretraining 중에 관찰된 feature collapse라는 구체적인 문제에 대응하고 있다.

4.2 GRN은 무엇을 하고 있는가

GRN의 처리는 크게 세 단계로 나뉜다.

각 채널의 global response를 집약한다.
채널 간에 response를 정규화한다.
정규화된 response를 사용하여 원래의 feature map을 보정한다.

입력 특징을

먼저, GRN은 각 채널의 공간 방향 Frobenius norm을 global response로 집약한다.

이를 모든 채널에 대해 나열하면, global response vector는 다음과 같이 쓸 수 있다.

다음으로, 각 채널의 response를 모든 채널의 response와 비교한다.

여기서,

이는,

마지막으로, 이 정규화된 response를 원래의 feature map에 곱한다.

여기서,

실제 GRN layer에서는 학습 가능한 파라미터(learnable parameter)인

여기서,

GRN은 Batch Normalization (BN)이나 Layer Normalization (LN)처럼 단순히 분포를 정돈하는 층이라기보다, 채널 간의 상대적인 반응을 사용하여 feature competition을 도입하는 층으로 보는 것이 이해하기 쉽다.

GRN PyTorch Implementation

from __future__ import annotations
import torch
from torch import Tensor, nn
...

ConvNeXt-Base를 이용한 GRN ablation 연구. ImageNet-1K에서의 fine-tuning accuracy 결과. 최종적으로 채택한 설정은 gray

로 표시한다.

ablation 연구에서는 global feature aggregation, normalization function, residual connection의 유무, 그리고 다른 normalization layer나 gating method와의 비교가 검토되었다. 중요한 점은 GRN이 단순한 "정규화층의 추가"가 아니라는 것이다. Frobenius norm을 통한 global response, 채널 간의 상대화, residual connection을 포함한 보정의 조합이 masked pretraining에서의 feature diversity 유지에 효과를 발휘한다.

또한, GRN은 pretraining과 fine-tuning 모두에서 필요하다. pretraining 시에만 사용하고 fine-tuning 시에 제거하면 성능이 떨어진다. 반대로, pretraining 시에는 사용하지 않고 fine-tuning 시에만 추가해도 충분히 기능하지 않는다. 즉, GRN은 fine-tuning을 위한 사후 보정이 아니라, 사전 학습(pretraining)에서 형성되는 특징 공간 그 자체와 관련이 있다.

4.3 Co-design: FCMAE와 GRN의 조합

ConvNeXt V2의 핵심적인 주장은 FCMAE와 GRN이 단독으로가 아니라, 결합되었을 때 효과를 발휘한다는 점에 있다.

공동 설계(Co-design)가 중요하다. 아키텍처와 학습 프레임워크를 공동 설계하고 이들을 결합하여 사용할 때, Masked Image Pre-training (MIP)은 ConvNeXt에 효과적으로 작용한다.

FCMAE는 ConvNet에서 MIM (Masked Image Modeling)을 수행하기 위한 학습 프레임워크이다. 마스크(mask) 처리된 이미지를 희소 데이터(sparse data)로 취급하며, 인코더(encoder)가 가시 영역(visible regions)만을 처리하도록 한다. 반면, GRN은 Masked Pre-training 과정 중에 특징 채널(feature channels)이 중복되는 것을 억제하는 아키텍처 수정 사항이다.

ConvNeXt V1에 FCMAE를 적용하면 어느 정도의 개선은 얻을 수 있다. 하지만 그것만으로는 개선 효과가 제한적이다. GRN을 도입한 ConvNeXt V2 역시 지도 학습(supervised learning) 설정에서는 효과가 비교적 작다. 큰 개선이 나타나는 지점은 FCMAE와 GRN을 결합했을 때이다.

ConvNeXt V2 논문 해설: CNN을 위한 Masked Autoencoder

요약

핵심 포인트

서론

1. 논문의 질문: MAE를 ConvNet으로 이식할 수 있는가

1.1 ConvNet을 유지하는 이유

ConvNeXt

원문 논문

해설 기사 추천

1.2 MAE의 본질

1.3 ConvNet에서 무너지는 전제

2. FCMAE: ConvNet을 위해 MIM을 재설계하다

2.1 Mask 이미지를 sparse data로 바라보기

Sparse Convolution이란

Submanifold Sparse Convolution과 ConvNeXt V2

부록: $3\times3$ 커널을 이용한 Submanifold Sparse Convolution

2.2 Sparse convolution encoder

2.3 경량 decoder와 masked reconstruction

3. Feature collapse: FCMAE만으로는 부족하다

3.1 활성화 맵 (Activation map)에서 보이는 collapse

3.2 특징 코사인 거리 (Feature cosine distance)를 통한 정량 분석

4. GRN: 특징 채널을 경쟁시키다

4.1 GRN은 어디에 들어가는가

4.2 GRN은 무엇을 하고 있는가

GRN PyTorch Implementation

4.3 Co-design: FCMAE와 GRN의 조합

댓글