ByteDance iLLaDA: 8B Diffusion LM, Qwen2.5 Base와 대등하나 Instruct 성능은 뒤처져

12T 토큰으로 학습된 8B diffusion LM인 ByteDance iLLaDA는 베이스 벤치마크(63.9 대 63.3)에서 Qwen2.5 7B와 대등한 성능을 보였으나, 인스트럭션 튜닝 (instruction tuning) 이후에는 10점 차이로 뒤처지며 diffusion 모델의 정렬 격차 (alignment gap)를 드러냈습니다.

ByteDance와 Renmin University는 Qwen2.5 7B와 베이스 벤치마크에서는 대등하지만 인스트럭션 튜닝 후에는 10점 차이로 뒤처지는 8B diffusion 언어 모델(language model)인 iLLaDA를 출시했습니다. 12조(12 trillion) 개의 토큰으로 처음부터 학습된 이 모델은 diffusion 방식이 단순히 속도뿐만 아니라 품질 면에서도 자기회귀 생성 (autoregressive generation) 방식과 경쟁할 수 있다는 도박을 상징합니다.

주요 사실

iLLaDA는 LLaDA의 2.3T에서 증가한 12조 개의 토큰으로 학습되었습니다.
iLLaDA-Base는 평균 63.9점을 기록하여 Qwen2.5 7B의 63.3점과 대등합니다.
iLLaDA-Instruct는 67.1점을 기록하여 Qwen2.5 7B Instruct의 77.1점에 비해 낮습니다.
BBH 추론 (reasoning) 점수가 LLaDA 대비 21.6점 상승했습니다.
Google의 DiffusionGemma는 품질을 희생하는 대신 4배 빠른 속도를 제공합니다.

자기회귀 생성에 대한 Diffusion 대안

GPT, Claude, Qwen을 포함한 거의 모든 상용 LLM은 텍스트를 자기회귀 (autoregressively) 방식으로, 즉 왼쪽에서 오른쪽으로 한 번에 하나의 토큰씩 생성합니다. iLLaDA와 같은 diffusion 언어 모델은 마스킹된 토큰 (masked tokens) 시퀀스로 시작하여, 이미지 diffusion 모델이 무작위 픽셀로부터 노이즈를 제거하는 방식과 유사하게 여러 번의 패스를 통해 병렬적으로 이를 정제합니다. 이러한 양방향 어텐션 (bidirectional attention)은 모든 토큰 위치가 동시에 다른 모든 토큰을 참조할 수 있게 합니다.

The Decoder에 따르면, iLLaDA는 2026년 6월에 출시된 Google의 DiffusionGemma를 포함하는 더 넓은 움직임의 일부입니다. 25B 파라미터의 Gemma 4 MoE 백본을 기반으로 구축된 DiffusionGemma는 diffusion을 통해 텍스트를 약 4배 빠르게 생성하지만, MMLU 및 코드 벤치마크에서는 더 낮은 점수를 기록합니다. Google은 이를 품질이 중요한 프로덕션 환경이 아닌, 저지연 (low-latency) 사용 사례에 권장합니다. iLLaDA는 이와 반대되는 접근 방식을 취합니다. 즉, 속도보다 품질을 우선시하며 처음부터 학습된 밀집(dense) 8B 모델입니다.

벤치마크 결과: 베이스 수준의 동등성, Instruct 격차

iLLaDA 팀은 이전 모델인 LLaDA의 2.3조 개 토큰에서 대폭 증가한 12조 개의 토큰으로 모델을 사전 학습(pretrain)했으며, 12 에포크(epoch) 동안 미세 조정(fine-tuning)을 진행했습니다. 논문에 따르면, iLLaDA-Base는 LLaDA에 비해 급격한 성능 향상을 보였으며, 추론 테스트인 BBH에서 21.6포인트 상승했습니다. 평균적으로 63.9포인트를 기록하며, 자기회귀(autoregressive) 모델인 Qwen2.5 7B의 63.3포인트를 근소하게 앞질렀습니다.

경쟁 모델인 확산(diffusion) 모델 Dream 7B와의 비교에서도 iLLaDA가 우위를 점했습니다. Dream은 처음부터 학습된 것이 아니라 기존의 Qwen2.5 체크포인트로부터 미세 조정된 모델입니다. iLLaDA는 강력한 자기회귀 베이스 모델이라는 유리한 출발점 없이도 평균 63.9 대 61.4로 Dream을 앞섰습니다. Dream은 코딩 벤치마크에서만 약간의 우위를 보였습니다.

지시 이행(instruct) 수준에서는 격차가 존재합니다. iLLaDA-Instruct는 67.1포인트를 기록한 반면, Qwen2.5 7B Instruct는 77.1포인트를 기록했으며, 수학과 코드 분야가 이러한 차이의 대부분을 차지했습니다. 저자들은 그 원인으로 iLLaDA에는 결여된 Qwen2.5의 추가적인 강화학습 정렬(reinforcement learning alignment)을 꼽았습니다. 논문의 부록에서는 또한 이 모델이 더 어려운 작업에서 추론 루프(reasoning loops)에 빠질 수 있다고 언급했습니다.

이것이 확산 LLM 경쟁에 의미하는 바

ByteDance의 iLLaDA는 처음부터 학습된 확산 모델이 베이스 수준에서 자기회귀 모델과 대등할 수 있음을 보여주었습니다. 이는 Dream과 같은 이전의 확산 LM들이 초기화를 위해 자기회귀 체크포인트에 의존했다는 점을 고려할 때 결코 사소하지 않은 결과입니다. 그러나 10포인트에 달하는 지시 이행(instruct) 격차는 확산 모델이 아직 마스터하지 못한 RL 기반 정렬의 중요성을 강조합니다. Google의 DiffusionGemma는 더 큰 25B 파라미터 규모임에도 불구하고 유사하게 품질을 속도와 맞바꾸고 있으며, 이는 확산 LM이 현재 품질이 중요한 프로덕션보다는 지연 시간(latency)에 민감한 애플리케이션에 가장 적합함을 시사합니다.

ByteDance는 AI 인프라에 막대한 투자를 해왔습니다. 이전 보도에 따르면, 이 회사는 미국의 수출 통제에도 불구하고 국내 AI 워크로드(workload)를 확장하려는 의지를 나타내며 2026년 6월 클라우드 인프라를 위해 수만 개의 Iluvatar CoreX AI 프로세서를 구매했습니다.

주목해야 할 점

ByteDance가 RL(강화학습) 기반 정렬(alignment)을 적용한 iLLaDA 변형 모델을 출시하여 지시 이행(instruct) 격차를 좁히는지 지켜봐야 합니다. 또한, Google이 DiffusionGemma를 저지연(low-latency) 틈새 시장 너머로 확장하는지도 추적해야 합니다. 만약 확산 LM(diffusion LMs)이 12개월 이내에 자기회귀(autoregressive) 모델 수준의 품질에 도달한다면, LLM 아키텍처 지형이 변화할 것입니다.

출처: the-decoder.com

원문 게시: gentic.news

ByteDance iLLaDA: 8B Diffusion LM, Qwen2.5 Base와 대등하나 Instruct 성능은 뒤처져

요약

핵심 포인트

자기회귀 생성에 대한 Diffusion 대안

벤치마크 결과: 베이스 수준의 동등성, Instruct 격차

이것이 확산 LLM 경쟁에 의미하는 바

주목해야 할 점

댓글