arXiv논문2026. 06. 09. 11:11

확률적 보간 모델(Stochastic Interpolation Models)에서의 암기 및 과적합 현상에 대한 이론적 분석

요약

확률적 보간 모델에서 발생하는 암기 및 과적합 현상을 이론적으로 분석한 논문입니다. 최적 속도장과 스코어 함수를 통해 생성 프로세스가 훈련 샘플을 복구하는 과정을 증명하고, 이산화 오차와 추정 오차가 생성 결과에 미치는 영향을 규명합니다.

핵심 포인트

확률적 보간 모델의 암기 현상에 대한 이론적 설명 제공
이산화 및 추정 오차가 생성 샘플의 편차를 결정함을 입증
생성 모델의 과적합과 과소적합에 대한 이론적 정의 제시
합성 시뮬레이션을 통한 이론적 발견의 검증

본 논문은 확률적 보간 모델(Stochastic Interpolation Models)에서의 암기(memorization)에 대한 이론적 설명을 제공합니다. 최적 속도장(optimal velocity field)과 그와 관련된 스코어 함수(score function)에 대한 폐쇄형 표현식(closed-form expressions)을 활용하여, 연속 시간 오라클(continuous-time oracle) 설정 하에서 결정론적(deterministic) 생성 프로세스와 확률적(stochastic) 생성 프로세스 모두 훈련 샘플을 복구함을 보여줍니다. 오일러 이산화(Euler discretization) 하에서 생성된 샘플은 훈련 샘플 주변에 중심을 유지하며, 편차는 단계 크기(step size)에 의해 제어됩니다. 나아가 우리는 추정 오차(estimation errors)가 존재하는 상황에서의 생성을 분석하며, 누적된 추정 오차가 훈련 세트로부터의 종단점 편차(endpoint deviation)를 제어함을 보여줍니다. 이러한 결과는 생성된 샘플이 세 가지 제어 가능한 항, 즉 이산화로 인한 경계(discretization-induced bound), 추정 오차로 인한 경계(estimation-error-induced bound), 그리고 확률적 가우시안 노이즈(stochastic Gaussian noise)에 의해 섭동(perturbed)된 훈련 샘플로서 표현될 수 있음을 시사합니다. 이러한 특성화를 바탕으로, 우리는 생성 모델에서의 과적합(overfitting)과 과소적합(underfitting)에 대한 이론적 정의를 제공합니다. 합성 시뮬레이션(Synthetic simulations)은 우리의 이론적 발견을 뒷받침합니다.

AI 자동 생성 콘텐츠

원문 바로가기

확률적 보간 모델(Stochastic Interpolation Models)에서의 암기 및 과적합 현상에 대한 이론적 분석

요약

핵심 포인트

댓글