마지막 레이어를 넘어: 시각 토큰화를 위한 다중 레이어 표현 융합
요약
본 논문은 기존의 표현 오토인코더가 마지막 인코더 레이어에서만 특징을 추출하여 발생하는 시각 정보 손실 문제를 해결하기 위해 다중 레이어 특징 융합 모듈 DRoRAE를 제안합니다. DRoRAE는 에너지 제약 라우팅과 증분 보정을 통해 모든 인코더 레이어를 적응적으로 집계하며, 이를 통해 풍부해진 잠재 표현을 생성합니다. 실험 결과, ImageNet-256에서 rFID 및 생성 FID가 크게 개선되었으며, 이는 텍스트-이미지 합성 등 다양한 분야에 전이 가능함을 입증했습니다.
핵심 포인트
- 기존 오토인코더는 마지막 레이어의 특징만 사용해 저수준 시각 디테일 손실 문제가 발생함.
- DRoRAE(Depth-Routed Representation AutoEncoder)는 에너지 제약 라우팅과 증분 보정을 사용하여 모든 인코더 레이어를 적응적으로 융합하는 경량 모듈임.
- 제안된 방법은 ImageNet-256에서 rFID 및 생성 FID를 크게 개선하여 높은 재구성 품질을 달성함.
- 연구진은 '표현 풍부도(representation richness)'라는 새로운 확장 차원을 발견하고, 이를 시각 토큰화기의 예측 가능한 설계 원리로 제시함.
프리징된 사전 학습 비전 인코더를 재사용하는 표현 오토인코더(Representation autoencoders)는 강력한 재구성 및 생성 품질을 달성해 왔습니다. 하지만 기존 방법들은 모든 경우에 마지막 인코더 레이어에서만 특징을 추출하여, 중간 레이어 전반에 걸쳐 분포된 풍부한 계층적 정보를 버리고 있습니다. 우리는 저수준 시각 디테일이 여러 층의 의미론적 추상화 이후 단지 감쇠된 잔여물(attenuated residuals)로 마지막 레이어에 남아있을 뿐이며, 다중 레이어 특징을 명시적으로 융합하는 것이 이 손실된 정보를 상당히 복구할 수 있음을 보여줍니다. 우리는 에너지 제약 라우팅(energy-constrained routing)과 증분 보정(incremental correction)을 통해 모든 인코더 레이어를 적응적으로 집계하는 경량 융합 모듈인 DRoRAE (Depth-Routed Representation AutoEncoder)를 제안합니다. 이는 프리징된 사전 학습 디코더와 호환되는 풍부해진 잠재 표현(enriched latent)을 생성합니다. 3단계 분리 훈련 전략은 먼저 암시적 분포 제약 조건 하에서 융합을 학습하고, 그런 다음 디코더를 미세 조정하여 풍부해진 표현을 완전히 활용하도록 합니다. ImageNet-256에서 DRoRAE는 rFID를 0.57에서 0.29로 줄이고 생성 FID를 1.74에서 1.65(AutoGuidance 사용 시)로 개선했으며, 이러한 이점은 텍스트-이미지 합성에도 전이됩니다. 나아가 우리는 융합 용량과 재구성 품질 사이에 로그-선형 스케일링 법칙($R^2{=}0.86$)을 발견하고, 이를 NLP에서의 어휘 크기(vocabulary size)에 비유하여 시각 토큰화기의 새롭고 예측 가능한 확장 차원인 extit{표현 풍부도}(representation richness)로 식별했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기