본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 01. 11:03

고정점 마스크 생성 모델링 (Fixed-Point Masked Generative Modeling)

요약

본 연구는 마스크 생성 모델(MGM)의 높은 연산 비용을 해결하기 위해 고정점 솔버를 활용한 FP-MGM 프레임워크인 CoFRe를 제안합니다. 적응형 깊이와 3단계 재사용(3SR) 기술을 통해 파라미터와 학습 시간을 줄이면서도 생성 품질을 크게 개선했습니다.

핵심 포인트

  • 고정점 솔버를 통한 디노이저의 적응형 깊이 구현
  • 교차 단계 일관성 손실로 은닉 표현 정렬
  • 3단계 재사용(3SR)을 통한 효율적인 웜 스타트
  • 기존 MGM을 미세 조정을 통해 FP-MGM으로 변환 가능
  • 학습 시간, VRAM, 파라미터 감소 및 생성 품질 향상

마스크 생성 모델 (Masked Generative Models, MGMs)은 병렬 디코딩 (parallel decoding)을 가능하게 하고 다양한 모달리티 (modalities)에서 강력한 성능을 달성하지만, 매 단계마다 전체 시퀀스 양방향 트랜스포머 (bidirectional transformers)를 필요로 하여 학습 비용이 많이 들고 낮은 샘플링 예산 (sampling budgets) 하에서는 품질이 저하됩니다. 기존 연구들은 더 나은 샘플러 (samplers)나 더 저렴한 고정 깊이 디노이저 (fixed-depth denoisers)를 통해 효율성을 개선해 왔으나, 이들은 여전히 각 정제 단계 (refinement step)에 고정된 양의 디노이저 연산을 할당합니다. 본 연구에서는 공유된 어텐션 레이어 (attention layers) 상에서 고정점 솔버 (fixed-point solver)를 사용하여 디노이저의 일부를 대체함으로써, 더 적은 파라미터로 적응형 깊이 (adaptive depth)를 가능하게 하는 고정점 마스크 생성 모델 (Fixed-Point Masked Generative Models, FP-MGMs)을 소개합니다. 마스크 생성에 더욱 효과적으로 만들기 위해, 첫째로 인접한 디노이징 단계에서의 은닉 표현 (hidden representations)을 정렬하는 교차 단계 일관성 손실 (cross-step consistency loss)을 도입하며, 둘째로 변경되지 않은 토큰, 여전히 마스크된 토큰, 그리고 새로 드러난 토큰을 각각 다르게 취급하여 이전 솔루션을 사용하여 솔버를 웜 스타트 (warm-starts)하는 3단계 재사용 (three-state reuse, 3SR)을 도입합니다. 이러한 구성 요소들은 결합되어 고정점 마스크 생성을 위한 우리의 완전한 학습-추론 프레임워크인 extit{CoFRe}를 정의합니다. 또한 우리는 사전 학습된 MGM이 전체 재학습을 피하면서 짧은 미세 조정 (fine-tuning)을 통해 FP-MGM으로 변환될 수 있음을 보여줍니다. 다양한 모달리티에 걸쳐 CoFRe는 품질과 비용 간의 트레이드오프 (trade-off)를 개선합니다. OpenWebText에서 CoFRe는 MDLM과 비교했을 때, 96회의 트랜스포머 블록 순전파 (transformer-block forward passes) 예산 하에서 생성 퍼플렉서티 (generative perplexity)를 830.8에서 101.8로 개선하는 동시에 파라미터를 38.8%, 학습 시간을 11.5%, VRAM을 16.9% 감소시켰습니다. ImageNette에서는 CoFRe가 학습 시간을 48.6%, VRAM을 50.7% 감소시키는 동시에 테스트된 모든 샘플 예산에서 FID를 개선했습니다. 종합적으로, CoFRe는 더 저렴한 학습과 더 강력한 저예산 마스크 생성을 위한 실용적인 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0