본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 26. 21:02

Qwen 3.6 27B AR -> Diffusion - 5090를 이용한 로컬 학습

요약

Qwen 2.5 모델을 자기회귀(AR) 방식에서 확산(Diffusion) 방식으로 재정렬하는 open-dllm 연구를 기반으로, RTX 5090을 활용한 로컬 학습 시도를 다룹니다. QLoRA와 nvfp4를 사용하여 VRAM 한계를 극복하고 학습 효율을 높이는 실험적 과정을 기록하고 있습니다.

핵심 포인트

  • Qwen 2.5를 Diffusion 모델로 변환하여 성능 및 속도 향상 도모
  • RTX 5090 환경에서 QLoRA 및 nvfp4를 이용한 27B 모델 학습 시도
  • d3LLM의 mdm loss를 통합하여 확산 속도 및 처리량 개선
  • 고전력 사용 시 GPU 전력 제한(400W) 권장

open-dllm의 연구를 기반으로 합니다 -

(이 연구는 Qwen 2.5 자기회귀(Autoregressive) -> 확산(Diffusion) 재정렬 헤드(Realignment head)를 달성했습니다. 내부적으로는 완전히 동일한 모델을 사용하여 4배의 성능 향상을 제공합니다.)

요약 (TLDR)

아직 학습된 모델은 없습니다. 그저 타버린 GPU 케이블과 새로 주문한 PSU(전원 공급 장치)만 있을 뿐입니다. 실제로 RTX 4000 GPU를 사용하여 재생성(recreations)을 오프로드(offload)하는 데 도움을 받아 5090에서 포워드 패스(Forward pass)를 수행하는 데는 성공했습니다.

아래는 몇 가지 저수준의 잡담 / 발견 / 관찰 내용입니다.

첫째 - 일반적으로 이를 수행하는 데 필요한 VRAM 양은 600GB 이상이라고 생각합니다 -

여러 시도 끝에, 그리고 Optane 경로를 포기한 후 - QLoRA 폼 팩터로 학습하는 것이 가능하며, 이는 실제로 모델을 가져와 NVIDIA - nvfp4 상에서 학습하게 됩니다.

저는 27B 모델 전체를 5090에서 학습시키려고 시도하고 있습니다.

https://github.com/scrya-com/dLLM-castlehill

최신 학습 실행 기록

https://wandb.ai/snoozie/open-dllm-27b/runs/arcefpjp?nw=nwusersnoozie

공익 광고 - 케이블이 타는 것을 방지하려면, 소비자용 5090 카드의 NVIDIA 최대 전력을 600W에서 400W로 제한(Throttle down)하십시오.

open-dllm을 사용하는 바닐라(Vanilla) 방식은 Qwen 2.5에서 4배의 속도 향상으로 검증되었습니다 (만약 연산 자원이 풍부한 분이 살펴보신다면 제대로 작동할 수도 있습니다). 저는 이를 개선하기 위해 약간의 변형을 시도했으며 몇 가지 논문을 발견했습니다. 그중 하나는 더 빠른 확산 속도를 자랑하는 d3LLM Ultra-Fast Diffusion LLM https://github.com/hao-ai-lab/d3LLM입니다. 그래서 저는 이 코드를 코드베이스에 업스트림(Upstream)하고 그들의 mdm 손실(loss)을 포함시켰으며, 결과는 괜찮아 보입니다. 기본적으로 토큰의 순서도 고려합니다.

확산(Diffusion)을 사용하면 여러 단계(Step)를 거칠 수 있지만(그래프 참조), 그 시간을 단축하여 훨씬 더 높은 처리량(Throughput) / 초당 토큰 수(Tokens per second)를 확인할 수 있습니다. 이론적으로 1단계(1 step)만 수행할 수 있다면, 엄청난 속도를 볼 수 있을 것입니다.

https://wandb.ai/snoozie/open-dllm-compare?nw=nwusersnoozie

제가 1-shot diffusion (1-shot diffusion)을 통한 비디오 재구성을 가속화하기 위해 ltx2를 개선하는 작업을 진행할 때, 한 논문을 바탕으로 이 트릭을 구현하려고 시도했습니다.

variational flow maps (변분 흐름 지도)를 사용하여 노이즈를 생성하는 방식입니다.
https://arxiv.org/abs/2603.07276

여기서 확인하세요.

https://github.com/johndpope/ltx2-castlehill

https://wandb.ai/snoozie/vfm-v4a?nw=nwusersnoozie

이것은 기본적으로 이미지와 거의 흡사해 보이는 노이즈를 정교하게 만들어 1단계(1 step) 이미지 생성을 수행하도록 구축되었습니다.

유사한 방식으로, 텍스트를 활용하여 denoising (디노이징) 단계를 줄이는 것도 가능합니다. VFM (Variational Flow Maps)

https://github.com/scrya-com/dLLM-castlehill/blob/255d13ae45300f6e4aee69f46ba57bbb32df2b8b/tasks/train_vfm.py#L37

https://github.com/scrya-com/dLLM-castlehill/issues/2

https://github.com/pengzhangzhi/Open-dLLM/issues/31

업데이트
README가 업스트림(upstream)으로부터 너무 비대해졌습니다 (죄송하지만 Qwen 3.6 관련 내용으로 바로 건너뛰어 주세요). 하지만 이 모든 작업을 계속 이어가기 위한 핵심 요점은 다음과 같습니다.

  1. open-dllm의 경우 -

교사 모델(teacher model)로부터 어떤 응답의 64개 레이어(layers)를 사용하여 앵커(anchors)를 계산해야 합니다.

또는

  1. d3llm의 경우 -

궤적(trajectories)을 계산하여 학습에 사용합니다.

두 가지 모두 수행할 수 있는 헬퍼 스크립트(helper scripts)가 있습니다. 에이전트(agents)나 Claude, Grok 등이 도움이 될 것입니다. 저는 opencode.ai를 즐겁게 사용하고 있습니다. 아주 적은 비용으로 큰 효과를 볼 수 있습니다. 저는 월 5달러 플랜을 사용 중입니다 https://opencode.ai/go?ref=7C4F1XYS01

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0