멀티 블록 확산 언어 모델 (Multi-Block Diffusion LMs)

MBD-LMs를 소개합니다: 확산 언어 모델 (diffusion language models)에서 병렬 블록 디코딩 (parallel block decoding)을 가능하게 하는 사후 학습 (post-training) 레시피입니다. MBD-LLaDA2-Mini는 정확도를 79.95%에서 81.03%로 향상시키는 동시에, 6.19 tokens/forward로 도약하며 78%의 속도 향상을 달성했습니다.

DMax를 사용하면 처리량 (throughput)은 9.34 tokens/forward에 도달합니다.