Qwen 3.6 27B AR -> Diffusion - 5090를 이용한 로컬 학습 - Insights | Molayo

open-dllm의 연구를 기반으로 합니다 -

(이 연구는 Qwen 2.5 자기회귀(Autoregressive) -> 확산(Diffusion) 재정렬 헤드(Realignment head)를 달성했습니다. 내부적으로는 완전히 동일한 모델을 사용하여 4배의 성능 향상을 제공합니다.)

요약 (TLDR)

아직 학습된 모델은 없습니다. 그저 타버린 GPU 케이블과 새로 주문한 PSU(전원 공급 장치)만 있을 뿐입니다. 실제로 RTX 4000 GPU를 사용하여 재생성(recreations)을 오프로드(offload)하는 데 도움을 받아 5090에서 포워드 패스(Forward pass)를 수행하는 데는 성공했습니다.

아래는 몇 가지 저수준의 잡담 / 발견 / 관찰 내용입니다.

첫째 - 일반적으로 이를 수행하는 데 필요한 VRAM 양은 600GB 이상이라고 생각합니다 -

여러 시도 끝에, 그리고 Optane 경로를 포기한 후 - QLoRA 폼 팩터로 학습하는 것이 가능하며, 이는 실제로 모델을 가져와 NVIDIA - nvfp4 상에서 학습하게 됩니다.

저는 27B 모델 전체를 5090에서 학습시키려고 시도하고 있습니다.

https://github.com/scrya-com/dLLM-castlehill

공익 광고 - 케이블이 타는 것을 방지하려면, 소비자용 5090 카드의 NVIDIA 최대 전력을 600W에서 400W로 제한(Throttle down)하십시오.

open-dllm을 사용하는 바닐라(Vanilla) 방식은 Qwen 2.5에서 4배의 속도 향상으로 검증되었습니다 (만약 연산 자원이 풍부한 분이 살펴보신다면 제대로 작동할 수도 있습니다). 저는 이를 개선하기 위해 약간의 변형을 시도했으며 몇 가지 논문을 발견했습니다. 그중 하나는 더 빠른 확산 속도를 자랑하는 d3LLM Ultra-Fast Diffusion LLM https://github.com/hao-ai-lab/d3LLM입니다. 그래서 저는 이 코드를 코드베이스에 업스트림(Upstream)하고 그들의 mdm 손실(loss)을 포함시켰으며, 결과는 괜찮아 보입니다. 기본적으로 토큰의 순서도 고려합니다.

확산(Diffusion)을 사용하면 여러 단계(Step)를 거칠 수 있지만(그래프 참조), 그 시간을 단축하여 훨씬 더 높은 처리량(Throughput) / 초당 토큰 수(Tokens per second)를 확인할 수 있습니다. 이론적으로 1단계(1 step)만 수행할 수 있다면, 엄청난 속도를 볼 수 있을 것입니다.

https://wandb.ai/snoozie/open-dllm-compare?nw=nwusersnoozie

제가 1-shot diffusion (1-shot diffusion)을 통한 비디오 재구성을 가속화하기 위해 ltx2를 개선하는 작업을 진행할 때, 한 논문을 바탕으로 이 트릭을 구현하려고 시도했습니다.

variational flow maps (변분 흐름 지도)를 사용하여 노이즈를 생성하는 방식입니다.
https://arxiv.org/abs/2603.07276

여기서 확인하세요.

https://github.com/johndpope/ltx2-castlehill

https://wandb.ai/snoozie/vfm-v4a?nw=nwusersnoozie

이것은 기본적으로 이미지와 거의 흡사해 보이는 노이즈를 정교하게 만들어 1단계(1 step) 이미지 생성을 수행하도록 구축되었습니다.

유사한 방식으로, 텍스트를 활용하여 denoising (디노이징) 단계를 줄이는 것도 가능합니다. VFM (Variational Flow Maps)

https://github.com/scrya-com/dLLM-castlehill/blob/255d13ae45300f6e4aee69f46ba57bbb32df2b8b/tasks/train_vfm.py#L37

https://github.com/scrya-com/dLLM-castlehill/issues/2

https://github.com/pengzhangzhi/Open-dLLM/issues/31

업데이트
README가 업스트림(upstream)으로부터 너무 비대해졌습니다 (죄송하지만 Qwen 3.6 관련 내용으로 바로 건너뛰어 주세요). 하지만 이 모든 작업을 계속 이어가기 위한 핵심 요점은 다음과 같습니다.

open-dllm의 경우 -

교사 모델(teacher model)로부터 어떤 응답의 64개 레이어(layers)를 사용하여 앵커(anchors)를 계산해야 합니다.

또는

d3llm의 경우 -

궤적(trajectories)을 계산하여 학습에 사용합니다.

두 가지 모두 수행할 수 있는 헬퍼 스크립트(helper scripts)가 있습니다. 에이전트(agents)나 Claude, Grok 등이 도움이 될 것입니다. 저는 opencode.ai를 즐겁게 사용하고 있습니다. 아주 적은 비용으로 큰 효과를 볼 수 있습니다. 저는 월 5달러 플랜을 사용 중입니다 https://opencode.ai/go?ref=7C4F1XYS01

Insights

Qwen 3.6 27B AR -> Diffusion - 5090를 이용한 로컬 학습

요약

핵심 포인트

댓글

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

IBM의 Krishna CEO, AI가 자사 소프트웨어 부문을 위협하지 않을 것이라며 투자자 안심시키려 노력

AMD EPYC Zen 7 "Florence", ACE 및 차세대 메모리 탑재 확인