arXiv논문2026. 05. 21. 11:53

생성 모델에서의 암기, 수렴 및 일반화

요약

본 연구는 생성 모델이 훈련 데이터를 단순히 암기하는지, 아니면 데이터 분포를 학습하여 일반화하는지를 분석합니다. 선형 생성 모델을 통해 데이터 샘플 수가 입력 차원에 비례할 때 수렴이 발생함을 밝혀냈으며, 데이터 분포의 일치(수렴)와 주요 잠재 요인의 복구는 서로 별개의 과정임을 입증했습니다.

핵심 포인트

생성 모델의 수렴은 샘플 수가 입력 차원에 비례하여 선형적으로 증가할 때 나타납니다.
데이터 분포의 대부분을 일치시키는 '수렴'과 데이터의 주요 잠재 요인을 찾아내는 '복구'는 서로 다른 목표입니다.
수렴은 주요 잠재 요인의 복구 여부와 무관하게 발생하며, 잠재 요인 복구는 급격한 전이(sharp transition)를 통해 이루어집니다.
실험을 통해 합성곱 디노이저 및 실제 데이터셋에서도 수렴과 잠재 요인 복구 사이의 구분이 유효함을 확인했습니다.

생성 신경망 (Generative neural networks)은 방대하지만 유한한 수의 예시로부터 매우 사실적인 이미지를 생성하는 방법을 학습할까요, 아니면 단순히 훈련 세트를 암기 (memorise)하는 것일까요? 이 질문을 해결하기 위해, Kadkhodaie, Guth, Simoncelli 및 Mallat (ICLR '24)은 데이터셋의 서로 다른 부분 집합에 대해 확산 모델 (diffusion models)을 독립적으로 훈련시켰으며, 훈련 이미지의 수가 충분히 많을 때 모델들이 거의 동일한 밀도 (density)로 수렴 (converge)한다는 것을 보여주었습니다. 이 결과는 두 가지 근본적인 질문을 제기합니다: 수렴을 위해 얼마나 많은 데이터가 필요한가, 그리고 수렴이 데이터 분포 (data distribution)를 학습하는 과정에서 무엇을 포착하는가? 본 연구에서는 선형 생성 모델 (linear generative models)에서 암기에서 일반화 (generalisation)로 넘어가는 전이에 대한 정확한 분석적 특성화를 제공함으로써 이러한 질문들을 다룹니다. 우리는 이러한 모델들이 적은 부하 (small load)에서는 암기하지만, 샘플 수가 입력 차원 (input dimension)에 비례하여 선형적일 때 수렴이 연속적으로 나타난다는 것을 발견했습니다. 놀랍게도, 우리는 수렴이 데이터의 주요 잠재 요인 (principal latent factors)의 복구에는 무관하며, 이 요인들은 급격한 전이 (sharp transition)를 통해 복구된다는 것을 발견했습니다. 멱법칙 스펙트럼 (power-law spectra)을 가진 데이터로 우리의 접근 방식을 확장한 후, 합성곱 디노이저 (convolutional denoisers)를 이용한 실험과 Kadkhodaie 등의 데이터에서도 수렴과 잠재 요인 복구 사이의 동일한 구분을 확인했습니다. 따라서 우리는 생성 모델에서의 일반화가 적어도 두 가지의 별개 목표로 분해된다는 것을 보여줍니다: 데이터 분포의 대부분을 일치시키는 것과 주요 잠재 요인을 복구하는 것입니다. 이러한 목표들은 실제 데이터 분포와 학습된 데이터 분포 사이의 두 가지 서로 다른 거리 (distances)에 대응하며, 오직 첫 번째 목표만이 수렴에 의해 포착됩니다.

AI 자동 생성 콘텐츠

원문 바로가기

생성 모델에서의 암기, 수렴 및 일반화

요약

핵심 포인트

댓글