동영상 생성 AI의 돌파구(Breakthrough)는 무엇인가

동영상 생성 AI의 비약적인 진화(Breakthrough)는 단일한 발견이 아니라, 몇 가지 중요한 기술적 전환이 겹치면서 일어났습니다.

가장 큰 돌파구는 「Diffusion(확산) 모델」과 「Transformer 아키텍처」의 융합(DiT: Diffusion Transformer), 그리고 「시공간(Spatiotemporal) 통합 학습」입니다.

초기의 이미지·동영상 생성 AI(Midjourney v4나 초기 Stable Diffusion 등)는 이미지의 노이즈를 제거하여 그림을 만드는 「Diffusion 모델」의 엔진으로서, 「U-Net」이라는 합성곱 신경망(CNN)을 사용하고 있었습니다.

하지만 U-Net은 고해상도나 장시간의 동영상이 되면 계산 효율이 떨어지고, 스케일 업(Scale-up, 모델을 거대화하는 것)이 어렵다는 벽이 있었습니다.

여기서 일어난 돌파구가 Diffusion 모델의 엔진을 LLM(대규모 언어 모델)에서 큰 성공을 거두었던 「Transformer」로 교체한 것입니다(이를 DiT라고 부릅니다).

스케일 법칙(Scaling Law)의 획득: Transformer는 「계산 자원과 데이터를 제공하면 할수록, 한계 없이 똑똑해진다」는 특성을 가지고 있습니다. DiT를 통해 동영상 생성 AI도 LLM과 마찬가지로, 거대한 슈퍼컴퓨터로 힘껏 학습시키면 시킬수록 물리 법칙이나 움직임의 정합성을 극적으로 이해할 수 있게 되었습니다.

또 다른 큰 벽은 「동영상이란 무엇인가」를 AI에게 어떻게 이해시킬 것인가였습니다.

이전에는 「먼저 이미지를 만든 다음, 그것을 조금씩 변화시켜 동영상으로 만든다」는 접근 방식이 주류였으나, 이 방식으로는 팔다리가 갑자기 사라지거나 배경이 흐물흐물하게 왜곡되는 「일관성의 붕괴」가 발생했습니다.

돌파구는 동영상을 「공간(가로세로 픽셀)」과 「시간(프레임)」의 덩어리(패치, Patch)로 잘게 나누어, 동시에 Transformer가 처리하게 하는 수법입니다(Space-Time Patches).

이를 통해 AI는 「사과가 떨어진다」는 현상을 「첫 번째 사과, 두 번째 사과…」와 같이 개별적으로 이해하는 것이 아니라, 「공간과 시간을 가로지르는 하나의 연속된 덩어리」로서 이해할 수 있게 되었습니다. OpenAI의 Sora나 Google의 Veo 등은 이 접근 방식을 통해 「물리 법칙의 시뮬레이션」에 가까운 압도적인 일관성을 획득했습니다.

최근의 돌파구(Gemini Omni 등에 대표되는)는 텍스트, 이미지, 동영상, 음성을 모두 동일한 「토큰(Token)」으로 취급하여 동시에 학습·처리하는 **네이티브 멀티모달(Native Multimodal)**입니다.

AI가 단순히 픽셀을 생성하는 것이 아니라, 「물은 아래로 흐른다」, 「거울에는 반전되어 비친다」와 같은 현실 세계의 물리 법칙이나 인과관계(세계 모델, World Model)를 내부에서 시뮬레이션한 결과로서 동영상을 출력하게 되었습니다.

요약하자면:

동영상 생성의 돌파구는 LLM에서 성공한 Transformer의 스케일 파워를 동영상 생성(Diffusion)에 도입하고, 시간과 공간을 동시에 학습시킴으로써 AI에게 「물리 세계의 시뮬레이터」를 만들게 한 것이라고 할 수 있습니다.

Insights

동영상 생성 AI의 돌파구(Breakthrough)는 무엇인가

요약

핵심 포인트

댓글

업데이트: MoonPay가 Model Context Protocol을 통해 Perplexity AI에 암호화폐 온램핑 (Onramping)

FutureX · Physical AI Daily — Issue 46 (07/03)

중국이 웹 앱의 미래를 방금 공개했습니다.

업데이트: MoonPay가 Model Context Protocol을 통해 Perplexity AI에 암호화폐 온램핑 (Onramping)

FutureX · Physical AI Daily — Issue 46 (07/03)

중국이 웹 앱의 미래를 방금 공개했습니다.