arXiv논문2026. 06. 01. 11:03

고정점 마스크 생성 모델링 (Fixed-Point Masked Generative Modeling)

요약

본 연구는 마스크 생성 모델(MGM)의 높은 연산 비용을 해결하기 위해 고정점 솔버를 활용한 FP-MGM 프레임워크인 CoFRe를 제안합니다. 적응형 깊이와 3단계 재사용(3SR) 기술을 통해 파라미터와 학습 시간을 줄이면서도 생성 품질을 크게 개선했습니다.

핵심 포인트

고정점 솔버를 통한 디노이저의 적응형 깊이 구현
교차 단계 일관성 손실로 은닉 표현 정렬
3단계 재사용(3SR)을 통한 효율적인 웜 스타트
기존 MGM을 미세 조정을 통해 FP-MGM으로 변환 가능
학습 시간, VRAM, 파라미터 감소 및 생성 품질 향상

마스크 생성 모델 (Masked Generative Models, MGMs)은 병렬 디코딩 (parallel decoding)을 가능하게 하고 다양한 모달리티 (modalities)에서 강력한 성능을 달성하지만, 매 단계마다 전체 시퀀스 양방향 트랜스포머 (bidirectional transformers)를 필요로 하여 학습 비용이 많이 들고 낮은 샘플링 예산 (sampling budgets) 하에서는 품질이 저하됩니다. 기존 연구들은 더 나은 샘플러 (samplers)나 더 저렴한 고정 깊이 디노이저 (fixed-depth denoisers)를 통해 효율성을 개선해 왔으나, 이들은 여전히 각 정제 단계 (refinement step)에 고정된 양의 디노이저 연산을 할당합니다. 본 연구에서는 공유된 어텐션 레이어 (attention layers) 상에서 고정점 솔버 (fixed-point solver)를 사용하여 디노이저의 일부를 대체함으로써, 더 적은 파라미터로 적응형 깊이 (adaptive depth)를 가능하게 하는 고정점 마스크 생성 모델 (Fixed-Point Masked Generative Models, FP-MGMs)을 소개합니다. 마스크 생성에 더욱 효과적으로 만들기 위해, 첫째로 인접한 디노이징 단계에서의 은닉 표현 (hidden representations)을 정렬하는 교차 단계 일관성 손실 (cross-step consistency loss)을 도입하며, 둘째로 변경되지 않은 토큰, 여전히 마스크된 토큰, 그리고 새로 드러난 토큰을 각각 다르게 취급하여 이전 솔루션을 사용하여 솔버를 웜 스타트 (warm-starts)하는 3단계 재사용 (three-state reuse, 3SR)을 도입합니다. 이러한 구성 요소들은 결합되어 고정점 마스크 생성을 위한 우리의 완전한 학습-추론 프레임워크인 extit{CoFRe}를 정의합니다. 또한 우리는 사전 학습된 MGM이 전체 재학습을 피하면서 짧은 미세 조정 (fine-tuning)을 통해 FP-MGM으로 변환될 수 있음을 보여줍니다. 다양한 모달리티에 걸쳐 CoFRe는 품질과 비용 간의 트레이드오프 (trade-off)를 개선합니다. OpenWebText에서 CoFRe는 MDLM과 비교했을 때, 96회의 트랜스포머 블록 순전파 (transformer-block forward passes) 예산 하에서 생성 퍼플렉서티 (generative perplexity)를 830.8에서 101.8로 개선하는 동시에 파라미터를 38.8%, 학습 시간을 11.5%, VRAM을 16.9% 감소시켰습니다. ImageNette에서는 CoFRe가 학습 시간을 48.6%, VRAM을 50.7% 감소시키는 동시에 테스트된 모든 샘플 예산에서 FID를 개선했습니다. 종합적으로, CoFRe는 더 저렴한 학습과 더 강력한 저예산 마스크 생성을 위한 실용적인 프레임워크를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

고정점 마스크 생성 모델링 (Fixed-Point Masked Generative Modeling)

요약

핵심 포인트

댓글