X요약2026. 05. 17. 02:27

여러분, Diffusion LLM 훈련을 이렇게나 아낄 수 있었다고요?

요약

Diffusion Language Model(DLM)의 매력적인 기능에도 불구하고 초기 훈련 비용이 매우 높다는 문제가 있었습니다. Duke 대학 팀은 '다시 훈련하지 말고 정렬하라(Don’t Retrain, Align)'는 접근법을 제시하며, 이미 학습된 Autoregressive LM(AR LM)의 표현 공간(Representation Space)을 동결하고, Masked Diffusion 훈련 시 코사인 유사도를 이용해 DLM의 은닉 상태를 AR teacher 모델에 정렬하는 REPR-ALIGN 기법을 제안했습니다. 이 방법은 훈련 속도를 최대 4배 향상시키고 데이터가 적은 환경에서도 효과적임을 입증했습니다.

핵심 포인트

DLM은 양방향 생성, 비순차적 디코딩 등 장점이 있으나 초기 훈련 비용이 높다.
REPR-ALIGN 기법은 기존 AR LM의 표현 공간을 활용하여 DLM을 효율적으로 학습시키는 방법이다.
추가적인 Adapter나 아키텍처 변경 없이 Attention Mask만 수정하여 구현 가능하다.
Masked Diffusion 훈련과 코사인 유사도를 이용한 은닉 상태 정렬을 결합하여 성능을 최적화한다.
이 접근법은 훈련 속도를 최대 4배 향상시키며, 데이터 효율성이 높다.

모두가 Diffusion Language Model (DLM)이 매우 매력적이라는 것을 알고 있습니다. 양방향 생성 (Bidirectional Generation), 비순차적 디코딩 (Non-sequential Decoding), 유연한 편집 (Flexible Editing)을 지원하기 때문입니다.

하지만 처음부터 훈련하는 비용은 터무니없이 높습니다.

Duke 대학의 PhD Fred Peng (@pengzhangzhi1)와 팀은 직관에 반하는 해답을 직접 제시했습니다:
"다시 훈련하지 말고, 바로 정렬(Align)하세요."

논문 제목은 《Don’t Retrain, Align》입니다.

핵심 아이디어는 매우 간단합니다:

우리는 이미 강력한 사전 훈련된 Autoregressive LM (AR LM)을 가지고 있으며, 그 안에는 이미 대부분의 언어 표현 (Language Representation)이 학습되어 있습니다.

DLM이 진정으로 바꿔야 할 것은 생성 순서와 노이즈 제거 (Denoising) 동작뿐입니다.

그래서 그들은 REPR-ALIGN을 제안했습니다: Masked Diffusion 훈련을 수행하는 동시에, 코사인 유사도 (Cosine Similarity)를 사용하여 DLM의 은닉 상태 (Hidden States)를 동결된 (Frozen) AR teacher 모델에 층별로 정렬합니다.
Adapter를 추가할 필요도 없고, 아키텍처를 변경할 필요도 없으며, 오직 Attention Mask만 변경하면 됩니다.

결과:
그들의 실험 설정에서 훈련 속도가 최대 4배 향상되었으며, 데이터가 적은 시나리오에서 효과가 특히 두드러졌습니다.

한 줄 요약:
표현 공간 (Representation Space)을 처음부터 다시 훈련하지 말고, 그것을 정렬하여 모델이 디코딩 경로 (Decoding Path)를 다시 학습하는 데에만 집중하게 하세요.

Paper:
https://t.co/djnfVWYRco
Code:
https://t.co/SKYEBToFFW

만약 여러분이 Diffusion Model, 생성형 AI (Generative AI) 또는 긴 컨텍스트 생성 (Long Context Generation)을 다루고 있다면, 이 논문은 즉시 읽어볼 가치가 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

여러분, Diffusion LLM 훈련을 이렇게나 아낄 수 있었다고요?

요약

핵심 포인트

댓글