TextLDM: 연속 잠재 확산(Continuous Latent Diffusion)을 이용한 언어 모델링
요약
TextLDM은 연속 잠재 확산(Continuous Latent Diffusion) 기술을 언어 모델링에 적용한 프레임워크입니다. 기존의 시각적 생성(이미지/비디오)에 사용되던 확산 트랜스포머(DiT) 아키텍처를 최소한의 수정만으로 텍스트 생성 영역으로 확장했습니다. 이 방법은 VAE 잠재 공간에서 연속적인 텍스트 표현을 얻기 위해 Representation Alignment (REPA) 기법을 활용하며, OpenWebText2로 사전 학습된 TextLDM은 기존 확산 언어 모델보다 우수한 성능을 보여주었습니다.
핵심 포인트
- 시각적 생성에 사용되던 DiT 아키텍처를 텍스트 생성으로 성공적으로 확장함.
- 핵심 기술인 연속 잠재 공간(Continuous Latent Space)에서 텍스트 표현을 다룸.
- Representation Alignment (REPA) 기법이 다운스트림 텍스트 생성 품질 향상에 필수적임을 입증함.
- TextLDM은 OpenWebText2로 사전 학습되어 기존 확산 언어 모델 대비 높은 성능을 달성함.
흐름 매칭(flow matching)으로 훈련된 확산 트랜스포머(Diffusion Transformers, DiT)는 VAE 잠재 공간에서 이미지와 비디오 전반에 걸쳐 시각적 생성을 통일했습니다. 생성(시각 합성)과 이해(텍스트 생성)를 위한 단일 아키텍처로 나아가는 자연스러운 다음 단계는 이 프레임워크를 언어 모델링에 적용하는 것입니다. 우리는 TextLDM을 제안하며, 이는 최소한의 아키텍처 수정만으로 시각적 잠재 확산 레시피(visual latent diffusion recipe)를 텍스트 생성으로 이전합니다. 트랜스포머 기반 VAE는 이산 토큰을 연속 잠재 공간으로 매핑하며, 고정된 사전 학습 언어 모델을 이용한 표현 정렬(Representation Alignment, REPA)로 향상되어 조건부 노이즈 제거에 효과적인 표현을 생성합니다. 표준 DiT는 이후 이 잠재 공간에서 흐름 매칭을 수행하며, 이는 시각적 대응물과 아키텍처가 동일합니다. 우리가 다루는 핵심 과제는 고품질의 연속 텍스트 표현을 얻는 것입니다: 우리는 재구성 충실도(reconstruction fidelity)만으로는 불충분하며, REPA를 통해 잠재 특징을 사전 학습 언어 모델에 정렬하는 것이 다운스트림 생성 품질에 매우 중요함을 발견했습니다. OpenWebText2로 처음부터 훈련된 TextLDM은 이전의 확산 언어 모델보다 상당히 우수하며 동일한 설정에서 GPT-2와 동등합니다. 우리의 결과는 시각적 DiT 레시피가 언어로 효과적으로 전이됨을 입증하며, 멀티모달 생성 및 이해를 위한 통일된 확산 아키텍처로 구체적인 단계를 밟았습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기