멀티 블록 확산 언어 모델 (Multi-Block Diffusion Language Models)
요약
멀티 블록 확산 언어 모델(MBD-LMs)을 제안하여 확산 기반 텍스트 생성의 효율성과 성능을 개선합니다. MultiTF 학습 전략과 블록 버퍼 메커니즘을 통해 추론 시 병렬성을 높이고 생성 속도를 크게 향상시켰습니다.
핵심 포인트
- MultiTF를 통해 티처 포싱과 확산 포싱의 간극을 메우고 학습 효율 개선
- 블록 버퍼 메커니즘으로 디코딩 병렬성을 실제 시간 가속으로 전환
- MBD-LLaDA2-Mini 모델의 평균 패스당 토큰 수(TPF)를 6.19로 증가
- DMax 결합 시 수학 및 코드 벤치마크에서 높은 정확도와 TPF 9.34 달성
블록 확산 언어 모델 (Block Diffusion Language Models, BD-LMs)은 KV 캐싱 (KV caching) 및 가변 길이 생성 (flexible-length generation)을 통해 확산 기반 (diffusion-based) 텍스트 생성을 개선합니다. 자연스러운 다음 단계는 이를 단일 블록 확산 (Single-Block Diffusion, SingleBD)에서 멀티 블록 확산 (Multi-Block Diffusion, MultiBD)으로 확장하는 것이며, MultiBD에서는 블록 간 병렬성 (inter-block parallelism)을 위해 연속된 블록의 extit{running-set}을 동시에 디코딩합니다. 그러나 기존의 BD-LMs는 대부분 모델이 깨끗한 접두사 (clean prefix)에 조건화된 단 하나의 노이즈가 섞인 블록만을 관찰하는 티처 포싱 (teacher forcing) 방식으로 학습됩니다. 최근의 확산 포싱 (diffusion forcing) 전략이 여러 개의 노이즈가 섞인 블록 간의 가시성 (visibility)을 도입했지만, 그 학습 상태는 이질적인 슬롯별 노이즈 패턴 (heterogeneous slot-wise noise patterns)을 가진 제한된 extit{running-set} 상에서 디코딩이 작동하는 MultiBD 추론 상태와 여전히 다릅니다. 이 간극을 메우기 위해, 우리는 멀티 블록 티처 포싱 (Multi-block Teacher Forcing, MultiTF)을 사용하여 BD-LMs를 사후 학습 (post-training)함으로써 얻은 extit{멀티 블록 확산 언어 모델} (Multi-Block Diffusion Language Models, MBD-LMs)을 제안합니다. MultiTF는 깨끗한 접두사에 조건화된 제한된 extit{noise-groups}를 학습함으로써 티처 포싱과 확산 포싱을 통합하며, MultiBD 추론 상태와 더 잘 일치하는 무작위 extit{noise-schedulers}를 사용합니다. MultiBD를 실질적으로 실행 가능하게 만들기 위해, 우리는 접두사 캐시 재사용 (prefix-cache reuse)을 보존하고, 입력 형태 (input shapes)를 정적으로 유지하며, 증가된 디코딩 병렬성을 실제 시간 가속 (wall-clock acceleration)으로 전환하는 extit{블록 버퍼} (Block Buffer) 메커니즘 기반의 최적화된 디코딩 알고리즘을 추가로 도입합니다. 실증적으로, MBD-LLaDA2-Mini는 평균 패스당 토큰 수 (Tokens Per Forward pass, TPF)를 3.47에서 extbf{6.19}로 증가시켰으며, 평균 정확도를 79.95%에서 extbf{81.03%}로 향상시켰습니다. DMax와 결합했을 때, MBD-LLaDA2-Mini-DMax는 수학 및 코드 벤치마크에서 정확도 하락이 1.02%에 불과하면서 평균 TPF extbf{9.34}에 도달합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기