
동영상 생성 AI의 돌파구(Breakthrough)는 무엇인가
요약
동영상 생성 AI의 비약적 발전은 Diffusion 모델과 Transformer 아키텍처의 결합(DiT) 및 시공간 통합 학습을 통해 이루어졌습니다. 이를 통해 AI는 단순 이미지 생성을 넘어 물리 법칙을 시뮬레이션하는 세계 모델(World Model)로 진화하고 있습니다.
핵심 포인트
- Diffusion 모델의 엔진을 Transformer로 교체하여 스케일링 법칙 획득
- 시공간 패치(Space-Time Patches) 기술로 영상의 일관성 문제 해결
- 텍스트, 이미지, 영상을 동일 토큰으로 처리하는 네이티브 멀티모달 구현
- 물리 법칙과 인과관계를 이해하는 세계 모델(World Model)로의 진화
동영상 생성 AI의 비약적인 진화(Breakthrough)는 단일한 발견이 아니라, 몇 가지 중요한 기술적 전환이 겹치면서 일어났습니다.
가장 큰 돌파구는 「Diffusion(확산) 모델」과 「Transformer 아키텍처」의 융합(DiT: Diffusion Transformer), 그리고 「시공간(Spatiotemporal) 통합 학습」입니다.
초기의 이미지·동영상 생성 AI(Midjourney v4나 초기 Stable Diffusion 등)는 이미지의 노이즈를 제거하여 그림을 만드는 「Diffusion 모델」의 엔진으로서, 「U-Net」이라는 합성곱 신경망(CNN)을 사용하고 있었습니다.
하지만 U-Net은 고해상도나 장시간의 동영상이 되면 계산 효율이 떨어지고, 스케일 업(Scale-up, 모델을 거대화하는 것)이 어렵다는 벽이 있었습니다.
여기서 일어난 돌파구가 Diffusion 모델의 엔진을 LLM(대규모 언어 모델)에서 큰 성공을 거두었던 「Transformer」로 교체한 것입니다(이를 DiT라고 부릅니다).
스케일 법칙(Scaling Law)의 획득: Transformer는 「계산 자원과 데이터를 제공하면 할수록, 한계 없이 똑똑해진다」는 특성을 가지고 있습니다. DiT를 통해 동영상 생성 AI도 LLM과 마찬가지로, 거대한 슈퍼컴퓨터로 힘껏 학습시키면 시킬수록 물리 법칙이나 움직임의 정합성을 극적으로 이해할 수 있게 되었습니다.
또 다른 큰 벽은 「동영상이란 무엇인가」를 AI에게 어떻게 이해시킬 것인가였습니다.
이전에는 「먼저 이미지를 만든 다음, 그것을 조금씩 변화시켜 동영상으로 만든다」는 접근 방식이 주류였으나, 이 방식으로는 팔다리가 갑자기 사라지거나 배경이 흐물흐물하게 왜곡되는 「일관성의 붕괴」가 발생했습니다.
돌파구는 동영상을 「공간(가로세로 픽셀)」과 「시간(프레임)」의 덩어리(패치, Patch)로 잘게 나누어, 동시에 Transformer가 처리하게 하는 수법입니다(Space-Time Patches).
- 이를 통해 AI는 「사과가 떨어진다」는 현상을 「첫 번째 사과, 두 번째 사과…」와 같이 개별적으로 이해하는 것이 아니라, 「공간과 시간을 가로지르는 하나의 연속된 덩어리」로서 이해할 수 있게 되었습니다. OpenAI의 Sora나 Google의 Veo 등은 이 접근 방식을 통해 「물리 법칙의 시뮬레이션」에 가까운 압도적인 일관성을 획득했습니다.
최근의 돌파구(Gemini Omni 등에 대표되는)는 텍스트, 이미지, 동영상, 음성을 모두 동일한 「토큰(Token)」으로 취급하여 동시에 학습·처리하는 **네이티브 멀티모달(Native Multimodal)**입니다.
- AI가 단순히 픽셀을 생성하는 것이 아니라, 「물은 아래로 흐른다」, 「거울에는 반전되어 비친다」와 같은 현실 세계의 물리 법칙이나 인과관계(세계 모델, World Model)를 내부에서 시뮬레이션한 결과로서 동영상을 출력하게 되었습니다.
요약하자면:
동영상 생성의 돌파구는 LLM에서 성공한 Transformer의 스케일 파워를 동영상 생성(Diffusion)에 도입하고, 시간과 공간을 동시에 학습시킴으로써 AI에게 「물리 세계의 시뮬레이터」를 만들게 한 것이라고 할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기