Continuous Latent Diffusion Language Model
요약
본 논문은 기존 자기회귀(autoregressive) 방식의 한계를 극복하고, 텍스트를 계층적 잠재 공간에서 생성하는 새로운 접근 방식인 Cola DLM을 제안합니다. Cola DLM은 Text VAE와 블록-인과적 DiT를 결합하여 안정적인 잠재 매핑과 전역적 의미 모델링을 수행하며, 이를 통해 토큰 수준의 복원 대신 잠재 선행(latent prior) 전송에 초점을 맞춥니다. 이 설계는 비자기회귀 유도 편향을 제공하고 연속적 모달리티로의 확장을 용이하게 하며, 기존 LLM 대비 우수한 스케일링 행동과 생성 품질을 입증합니다.
핵심 포인트
- Cola DLM은 텍스트를 계층적 잠재 공간에서 생성하는 새로운 모델입니다.
- 기존 자기회귀 방식의 제약(순차적 방향성)을 벗어나 비자기회귀 유도 편향을 제공합니다.
- 잠재 선행 전송(latent prior transport)에 초점을 맞춰 전역적 의미 조직과 지역적 텍스트 실현을 분리합니다.
- Text VAE와 블록-인과적 DiT를 통합하여 안정적인 잠재 매핑 및 강력한 전역적 의미 모델링 능력을 확보했습니다.
- 제안된 모델은 이산적 텍스트뿐만 아니라 다른 연속적 모달리티로의 확장 가능성을 제시합니다.
자기회귀 패러다임 (autoregressive paradigm) 하에서 대규모 언어 모델은 놀라운 성과를 거두었으나, 고품질의 텍스트 생성이 고정된 좌우로 방향의 순서에 묶여있을 필요는 없다. 기존 대안들은 여전히 생성 효율성, 확장 가능한 표현 학습, 효과적인 전역적 의미 모델링을 동시에 달성하는 데 어려움을 겪고 있다. 우리는 텍스트를 계층적 정보 분해를 통해 생성하는 계층적 잠재 확산 언어 모델인 Cola DLM 을 제안한다. Cola DLM 은 먼저 Text VAE 를 사용하여 안정적인 텍스트-잠재 매핑을 학습한 후, 블록-인과적 DiT (block-causal DiT) 를 사용하여 연속적 잠재 공간에서 전역적 의미 선행 모델을 세운다. 마지막으로 조건부 디코딩을 통해 텍스트를 생성한다. 통합된 마르코프 경로 관점 (unified Markov-path perspective) 에서, Cola DLM 의 확산 과정은 토큰 수준의 관찰 복원 (token-level observation recovery) 이 아닌 잠재 선행 모델링 (latent prior transport) 을 수행함으로써 전역적 의미 조직과 지역적 텍스트 실현을 분리한다. 이러한 설계는 더 유연한 비자기회귀 유도 편향 (non-autoregressive inductive bias) 을 제공하고, 연속적 공간에서의 의미 압축 및 선행 적합을 지원하며, 자연스럽게 다른 연속적 모달리티로 확장된다. 4 개의 연구 질문, 8 개의 벤치마크를 아우르는 실험과 ~2B 파라미터의 자기회귀 및 LLaDA 베이스라인을 엄격하게 매칭하고, 약 2000 EFLOPs까지 스케일링 곡선을 통해 Cola DLM 의 효과적인 전체 구성을 식별하며 텍스트 생성에 대한 강력한 스케일링 행동을 검증한다. 종합적으로, 이러한 결과는 생성 품질과 스케일링 행동이 가능성보다 더 잘 모델의 능력을 반영할 수 있으며, 이산적 텍스트 및 연속적 모달리티를 아우르는 통합 모델링으로 가는 구체적인 경로를 제시함으로써 계층적 연속 잠재 선행 모델링을 엄격하게 토큰 수준의 언어 모델링에 대한 원칙적인 대안으로 확립한다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기