개선된 대규모 언어 확산 모델 (Improved Large Language Diffusion Models)
요약
양방향 어텐션을 사용하는 마스크 확산 언어 모델인 iLLaDA를 소개합니다. 12T 토큰 사전 학습과 대규모 미세 조정을 통해 기존 LLaDA 대비 수학, 코드 등 다양한 벤치마크에서 성능을 크게 향상시켰습니다.
핵심 포인트
- 완전 양방향 어텐션을 사용하는 8B 규모의 마스크 확산 모델 개발
- 12T 토큰 사전 학습 및 25B 토큰 지시어 코퍼스 미세 조정 수행
- 가변 길이 생성 및 신뢰도 기반 점수 산정 방식 도입
- 수학, 코드 등 주요 벤치마크에서 Qwen2.5 7B와 경쟁 가능한 성능 입증
현대의 대규모 언어 모델 (Large Language Models)은 주로 자기회귀적 인수분해 (autoregressive factorization)와 인과적 어텐션 (causal attention)을 사용하여 학습됩니다. 우리는 완전히 양방향 어텐션 (fully bidirectional attention)을 사용하여 처음부터 학습된 8B 마스크 확산 언어 모델 (masked diffusion language model)인 \emph{iLLaDA}를 선보입니다. iLLaDA는 사전 학습 (pre-training)과 지도 미세 조정 (supervised fine-tuning, SFT) 전 과정에서 마스크 확산 목적 함수 (masked diffusion objective)를 유지하며, 사전 학습을 12T 토큰으로 확장하고 25B 토큰의 지시어 코퍼스 (instruction corpus)에 대해 12 에포크 (epochs) 동안 미세 조정을 수행합니다. 우리는 효율성을 위해 가변 길이 생성 (variable-length generation)을 사용하며, 객관식 평가를 위한 신뢰도 기반 점수 산정 (confidence-based scoring) 방식을 도입합니다. LLaDA와 비교했을 때, iLLaDA는 일반, 수학 및 코드 벤치마크 전반에서 성능을 향상시켰습니다. 예를 들어, iLLaDA-Base는 BBH에서 21.6포인트, ARC-Challenge에서 14.9포인트를 향상시켰으며, iLLaDA-Instruct는 MATH에서 14.5포인트, HumanEval에서 16.5포인트를 향상시켰습니다. 비자기회귀적 (non-autoregressive) 학습에도 불구하고, iLLaDA는 여러 벤치마크에서 Qwen2.5 7B와 경쟁할 만한 성능을 유지합니다. 이러한 결과는 처음부터 시작하는 완전 양방향 확산 학습 (fully bidirectional diffusion training)이 강력한 언어 모델로 나아가는 경쟁력 있는 경로임을 보여줍니다. 모델 가중치 및 코드: https://github.com/ML-GSAI/LLaDA.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기