arXiv논문2026. 06. 17. 12:41

마스크 확산 모델 (Masked Diffusion Models)에서의 재귀적 스케일링 (Recursive Scaling)

요약

마스크 확산 모델(MDM)의 성능을 높이기 위해 동일한 디노이징 트랜스포머를 반복 적용하는 재귀적 스케일링 기법인 R-MDM을 제안합니다. 이 방식은 파라미터 수를 늘리지 않고도 모델의 유효 깊이를 증가시켜 파라미터 효율성을 극대화합니다.

핵심 포인트

재귀적 깊이를 새로운 스케일링 축으로 도입하여 파라미터 효율성 향상
파라미터 재사용을 통해 출력의 반복적인 정교화 가능
구조화된 생성 작업에서 기존 모델 대비 높은 성능 달성
추론 시 적은 디노이징 단계로도 높은 생성 품질 유지 가능

마스크 확산 모델 (Masked Diffusion Models, MDMs)은 최근 시퀀스 생성 (sequence generation)을 위한 유망한 패러다임으로 부상했습니다. MDM의 스케일링 (Scaling)은 전통적으로 파라미터 수 (parameter count)나 디노이징 단계 (denoising steps)의 수를 늘림으로써 달성됩니다. 본 논문에서는 각 확산 단계 (diffusion step) 내에서 동일한 디노이징 트랜스포머 (denoising transformer)를 반복적으로 적용하여 재귀적 깊이 (recursive depth)를 세 번째 스케일링 축으로 추가하는 재귀적 마스크 확산 모델 (Recursive Masked Diffusion Models, R-MDMs)을 소개합니다. 재귀 (Recursion)는 파라미터 재사용 (parameter reuse)을 통해 출력의 반복적인 정교화 (iterative refinement)를 가능하게 하며, 파라미터 수를 늘리지 않고도 유효 모델 깊이 (effective model depth)를 증가시킵니다. Sudoku 및 Countdown을 포함한 구조화된 생성 작업 (structured generation tasks) 전반에 걸쳐, R-MDMs가 실질적으로 향상된 파라미터 효율성 (parameter efficiency)을 달성함을 보여줍니다. 즉, $L$번의 재귀적 반복 (recursive iterations)을 수행하는 모델은 대략 $L$배 더 많은 파라미터를 가진 비재귀적 베이스라인 (non-recursive baselines) 모델의 성능과 종종 일치합니다. 또한, 재귀적 정교화 (recursive refinement)는 추가적인 디노이징 단계를 부분적으로 대체할 수 있어, 재귀적 모델이 추론 시 (inference time) 더 적은 순전파 (forward passes)로도 동일한 생성 품질에 도달할 수 있게 합니다. 이러한 결과는 재귀적 깊이가 MDM을 위한 실용적이고 유용한 스케일링 메커니즘이며, 파라미터 효율성과 테스트 시간 연산 (test-time compute) 할당을 모두 개선한다는 것을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

마스크 확산 모델 (Masked Diffusion Models)에서의 재귀적 스케일링 (Recursive Scaling)

요약

핵심 포인트

댓글