본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 17. 12:41

마스크 확산 모델 (Masked Diffusion Models)에서의 재귀적 스케일링 (Recursive Scaling)

요약

마스크 확산 모델(MDM)의 성능을 높이기 위해 동일한 디노이징 트랜스포머를 반복 적용하는 재귀적 스케일링 기법인 R-MDM을 제안합니다. 이 방식은 파라미터 수를 늘리지 않고도 모델의 유효 깊이를 증가시켜 파라미터 효율성을 극대화합니다.

핵심 포인트

  • 재귀적 깊이를 새로운 스케일링 축으로 도입하여 파라미터 효율성 향상
  • 파라미터 재사용을 통해 출력의 반복적인 정교화 가능
  • 구조화된 생성 작업에서 기존 모델 대비 높은 성능 달성
  • 추론 시 적은 디노이징 단계로도 높은 생성 품질 유지 가능

마스크 확산 모델 (Masked Diffusion Models, MDMs)은 최근 시퀀스 생성 (sequence generation)을 위한 유망한 패러다임으로 부상했습니다. MDM의 스케일링 (Scaling)은 전통적으로 파라미터 수 (parameter count)나 디노이징 단계 (denoising steps)의 수를 늘림으로써 달성됩니다. 본 논문에서는 각 확산 단계 (diffusion step) 내에서 동일한 디노이징 트랜스포머 (denoising transformer)를 반복적으로 적용하여 재귀적 깊이 (recursive depth)를 세 번째 스케일링 축으로 추가하는 재귀적 마스크 확산 모델 (Recursive Masked Diffusion Models, R-MDMs)을 소개합니다. 재귀 (Recursion)는 파라미터 재사용 (parameter reuse)을 통해 출력의 반복적인 정교화 (iterative refinement)를 가능하게 하며, 파라미터 수를 늘리지 않고도 유효 모델 깊이 (effective model depth)를 증가시킵니다. Sudoku 및 Countdown을 포함한 구조화된 생성 작업 (structured generation tasks) 전반에 걸쳐, R-MDMs가 실질적으로 향상된 파라미터 효율성 (parameter efficiency)을 달성함을 보여줍니다. 즉, $L$번의 재귀적 반복 (recursive iterations)을 수행하는 모델은 대략 $L$배 더 많은 파라미터를 가진 비재귀적 베이스라인 (non-recursive baselines) 모델의 성능과 종종 일치합니다. 또한, 재귀적 정교화 (recursive refinement)는 추가적인 디노이징 단계를 부분적으로 대체할 수 있어, 재귀적 모델이 추론 시 (inference time) 더 적은 순전파 (forward passes)로도 동일한 생성 품질에 도달할 수 있게 합니다. 이러한 결과는 재귀적 깊이가 MDM을 위한 실용적이고 유용한 스케일링 메커니즘이며, 파라미터 효율성과 테스트 시간 연산 (test-time compute) 할당을 모두 개선한다는 것을 시사합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0