
멀티 블록 확산 언어 모델 (Multi-Block Diffusion LMs)
요약
확산 언어 모델(Diffusion LMs)의 병렬 블록 디코딩을 가능하게 하는 사후 학습 레시피인 MBD-LMs를 소개합니다. 이를 통해 모델의 정확도를 높이는 동시에 디코딩 속도를 획기적으로 향상시켰습니다.
핵심 포인트
- MBD-LMs를 통한 확산 언어 모델의 병렬 블록 디코딩 구현
- MBD-LLaDA2-Mini 모델의 정확도 향상 (79.95% -> 81.03%)
- 디코딩 속도 78% 향상 및 처리량 개선
- DMax 사용 시 최대 9.34 tokens/forward 도달
MBD-LMs를 소개합니다: 확산 언어 모델 (diffusion language models)에서 병렬 블록 디코딩 (parallel block decoding)을 가능하게 하는 사후 학습 (post-training) 레시피입니다. MBD-LLaDA2-Mini는 정확도를 79.95%에서 81.03%로 향상시키는 동시에, 6.19 tokens/forward로 도약하며 78%의 속도 향상을 달성했습니다.
DMax를 사용하면 처리량 (throughput)은 9.34 tokens/forward에 도달합니다.
논문:
https://paperswithcode.co/paper/2606.292
15
…
컬렉션:
https://huggingface.co/collections/SJTU-DENG-Lab/mbd-lms
…
엔진:
https://github.com/SJTU-DENG-Lab/Diffulex
…
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기