STARFlow2: 언어 모델과 정규화 흐름을 연결하여 통합 멀티모달 생성을 위한 방법
요약
STARFlow2는 언어 모델과 정규화 흐름(Normalizing Flows)의 공통적인 자기회귀적 특성을 활용하여 통합 멀티모달 생성을 목표로 합니다. 기존 방식이 텍스트 생성과 이미지 디노이징 과정에서 구조적 불일치를 겪었던 문제를 해결하기 위해, STARFlow2는 자기회귀 정규화 흐름을 도입합니다. 이 접근법은 LLM과 동일한 인과 마스크 및 순차적 구조를 공유함으로써, 텍스트와 이미지를 매끄럽게 연결하는 진정한 통합 멀티모달 시스템을 구축할 수 있게 합니다.
핵심 포인트
- 기존의 멀티모달 생성 모델은 텍스트(LLM)와 이미지(확산 모델)를 개별적으로 처리하여 구조적 불일치 문제를 안고 있었다.
- STARFlow2는 자기회귀 정규화 흐름이 트랜스포머 기반 LLM과 동일한 인과적, 순차적 구조를 공유한다는 점에 착안했다.
- 이러한 공통점을 활용하여 텍스트와 비전 생성을 하나의 일관된 프레임워크 내에서 통합하는 것이 가능하다.
딥 생성 모델은 텍스트와 비전 전반에 걸쳐 빠르게 발전해 왔으며, 이는 상호작용하는(interleaved) 텍스트-이미지 시퀀스를 이해하고 추론하며 생성할 수 있는 통합 멀티모달 시스템을 촉진했습니다. 기존의 대부분 접근 방식은 자기회귀 언어 모델링과 확산 기반 이미지 생성기를 결합하는데, 이로 인해 인과적 텍스트 생성과 반복적인 비전 디노이징(denoising) 사이에 구조적 불일치(structural mismatch)가 발생합니다. 우리는 자기회귀 정규화 흐름(autoregressive normalizing flows)이 자기회귀 트랜스포머(Transformer)라는 점에 주목했습니다. 즉, 이들은 LLM과 동일한 인과 마스크(causal mask), KV-캐시 메커니즘, 그리고 좌측에서 우측으로 진행되는 구조를 공유하므로, 진정한 통합 멀티모달을 위한 가장 자연스러운 패러다임을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기