DreamReasoner-8B: 확산 추론 모델을 위한 블록 크기 커리큘럼 학습 (Block-Size Curriculum Learning)
요약
블록 확산 언어 모델의 CoT 추론 성능을 높이기 위해 DreamReasoner-8B를 개발하고 블록 크기 커리큘럼 학습을 제안합니다. 작은 블록에서 큰 블록으로 점진적으로 전환하는 학습 방식을 통해 수학 및 코드 추론 성능을 극대화했습니다.
핵심 포인트
- 블록 확산 모델의 CoT 추론 안정성 문제 해결
- 블록 크기 커리큘럼 학습(Block-Size Curriculum Learning) 제안
- 작은 블록에서 큰 블록으로의 점진적 전환을 통한 일반화 성능 확보
- 수학 및 코드 벤치마크에서 선도적인 자기회귀 모델과 대등한 성능 달성
블록 확산 언어 모델 (Block diffusion language models)은 병렬적인 블록 단위 노이즈 제거 (block-wise denoising)를 통해 디코딩을 가속화하지만, 이들이 긴 사고 사슬 (Chain-of-Thought, CoT) 추론을 위해 안정적으로 확장될 수 있는지 여부는 아직 해결되지 않은 과제로 남아 있습니다. 이를 위해 우리는 오픈 소스 블록 확산 추론 모델인 DreamReasoner-8B를 개발하였으며, 훈련 및 추론 블록 크기가 긴 CoT 추론에 어떠한 영향을 미치는지에 대한 체계적인 연구를 수행했습니다. 우리의 분석 결과는 극명한 성능 차이를 보여줍니다. 즉, 큰 블록 크기로 훈련하면 추론 성능이 현저히 떨어지는 반면, 작은 블록 크기는 효과적인 추론 능력을 유지합니다. 이러한 입도 (granularity) 차이를 메우기 위해, 우리는 훈련을 미세한 (fine-grained) 블록 크기에서 거친 (coarse-grained) 블록 크기로 점진적으로 전환하는 블록 크기 커리큘럼 학습 (block-size curriculum learning)을 제안합니다. 이를 통해 한계를 극복하고 다양한 추론 블록 크기에 걸쳐 일반화되는 강력한 추론 성능을 구현할 수 있습니다. 수학 및 코드 추론 벤치마크에서 DreamReasoner-8B는 Qwen3-8B와 같은 선도적인 오픈 자기회귀 (autoregressive) 모델들과 경쟁할 만한 결과를 달성했습니다. 본 연구는 효율적이고 추론 능력을 갖춘 확산 언어 모델을 위한 실질적인 토대를 마련합니다. 우리는 모델을 https://github.com/DreamLM/DreamReasoner 에서 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기