Gemini Omni는 비디오 생성을 편집에 더 가깝게 만듭니다

비디오 생성 (Video generation)은 빌더들에게 늘 어색한 작업이었는데, 그 이유는 보통 도박처럼 느껴지기 때문입니다. 프롬프트 (Prompt)를 작성하고, 기다리고, 결과를 유심히 살펴본 뒤, 캐릭터의 옷이 바뀌었거나 카메라가 장면을 잊었거나 혹은 물리 법칙 (Physics)이 작동하지 않는다는 이유로 처음부터 다시 시작해야 합니다.

Google의 새로운 Gemini Omni 제안은 다릅니다. 비디오를 단 한 번의 렌더링 (One-shot render)으로 취급하지 마십시오. 언어를 통해 계속해서 편집할 수 있는 대상으로 취급하십시오. 제품 데모, 설명 영상, 사역 미디어, 앱 출시 영상, 또는 동일한 피사체가 하나 이상의 지시 사항을 유지해야 하는 빠른 프로토타입 (Prototype) 제작 등에 사용한다고 상상해 보기 전까지는 이 차이가 작게 느껴질 수 있습니다.

저는 여전히 신중한 입장입니다. 모든 AI 비디오 출시에는 완벽한 데모 클립과 엉망인 실제 사례 (Edge cases)가 공존하기 때문입니다. 하지만 Gemini Omni는 비디오 생성을 일반적인 창작 워크플로우 (Creative workflow)에 더 가깝게 밀어붙이기 때문에 주목할 가치가 있습니다. 즉, 무언가를 참조하고, 장면을 생성한 다음, 모든 것을 버리지 않고 계속해서 변경할 수 있다는 점입니다.

Google이 발표한 내용

Google은 Gemini Omni 제품군의 첫 번째 모델로 Gemini Omni Flash를 소개했습니다. 이 모델은 비디오 출력을 시작으로 텍스트, 이미지, 비디오, 오디오의 조합을 입력으로 받습니다. Google은 이 모델이 Gemini의 세상 지식 (World knowledge)에 기반하여 비디오를 생성하고, 참조를 이해하며, 대화를 통해 편집할 수 있다고 말합니다.

중요한 부분은 단순히 "AI가 비디오를 만든다"는 것이 아닙니다. 그것은 이미 존재합니다. 더 유용한 아이디어는 연속성 (Continuity)입니다. Google은 캐릭터가 일관성을 유지하고, 장면이 이전 지시 사항을 기억하며, 변화 과정에서도 물리 법칙이 더 믿을만하게 작동하는 편집 방식을 설명합니다. 만약 이것이 다듬어진 데모 외부에서도 유지된다면, AI 비디오 작업에서 가장 큰 짜증 유발 요소 중 하나를 제거하게 될 것입니다.

이것이 사용자에게 주는 것

유용한 사고 모델 (Mental model)은 "대화형 비디오 편집 (Conversational video editing)"입니다. 서로 연결되지 않은 열 개의 클립을 생성하는 대신, 대략적인 방향으로 시작하여 계속해서 형태를 잡아나갈 수 있습니다.

스케치, 제품 스크린샷, 사진 또는 짧은 클립을 비디오 컨셉으로 변환합니다.
후속 프롬프트(follow-up prompt)를 통해 배경, 움직임, 카메라 각도 또는 분위기를 변경합니다.
참조 이미지(reference image)나 텍스트 설명을 사용하여 결과물을 의도에 더 가깝게 유지합니다.
시각적 요소가 단순히 영화처럼 보이는 것이 아니라 컨셉과 일치해야 하는 짧은 설명 영상(explainers)을 제작합니다.
전체 편집 환경을 구축할 필요 없이 소셜 클립을 더 빠르게 리믹스(Remix)합니다.

개발자들에게 있어 명백한 사용 사례는 After Effects를 대체하는 것이 아닙니다. 그것은 "아이디어가 있다"에서 "이것이 어떤 느낌일지 사람들에게 보여줄 수 있다"의 단계로 단 몇 분 만에 도달하는 것입니다. 이는 랜딩 페이지, 앱 데모, 피치 덱(pitch decks), 튜토리얼 및 내부 제품 논의에서 매우 중요합니다.

강점을 보이는 부분

Gemini Omni는 작업에 참조(references)와 반복(iteration)이 필요할 때 가장 강력해 보입니다. 많은 AI 미디어 도구들은 단 하나의 정확한 변경을 요청하기 전까지는 인상적입니다. 하지만 요청을 하면 전체를 다시 생성해 버리고, 그 과정에서 기존에 잘 작동하던 부분까지 실수로 망가뜨리곤 합니다.

만약 Omni가 편집 과정 전반에 걸쳐 캐릭터, 객체, 장면 레이아웃 및 움직임을 보존할 수 있다면, 훨씬 더 실용적인 도구가 될 것입니다. 빌더(Builders)들은 프로젝트를 처음부터 다시 시작하지 않고도 제품 워크스루(walkthrough)의 첫 버전을 만든 뒤, 더 가까운 카메라 샷을 요청하거나, 설정을 변경하거나, 배경을 단순화하거나, 더 자연스러운 전환(transition)을 추가할 수 있습니다.

Google은 또한 물리 법칙(physics)과 세상에 대한 지식(world knowledge)에 강력하게 집중하고 있습니다. 이는 매우 중요한데, 품질이 낮은 AI 비디오는 종종 미묘한 방식으로 실패하기 때문입니다. 예를 들어 손이 물체를 통과하거나, 액체가 이상하게 움직이거나, 그림자가 빛과 일치하지 않거나, 움직임이 꿈처럼 느껴지는 식입니다. 더 나은 물리 법칙은 비디오를 실제처럼 만드는 것은 아니지만, 생성된 클립이 사람들의 주의를 분산시키지 않고 사용하기 더 쉽게 만들어 줍니다.

주의해야 할 부분

첫 번째 약점은 제어력(control)입니다. 자연어(Natural language)는 편리하지만 모호할 수 있습니다. 전문 편집자들에게는 여전히 타임라인(timelines), 마스크(masks), 키프레임(keyframes), 고정된 참조(locked references), 버전 기록 및 내보내기 설정(export settings)이 필요합니다. 만약 Gemini Omni가 주로 프롬프트 주도(prompt-driven) 방식으로 머물러 있다면, 초안 작성이나 소셜 클립 제작에는 훌륭하겠지만 정밀한 제작 작업(production work)에서는 답답함을 줄 것입니다.

두 번째 약점은 신뢰성입니다. AI 비디오는 시청자가 자신이 무엇을 보고 있는지 항상 알 수 없을 정도로 충분히 발전하고 있습니다. Google은 Gemini Omni의 출력물에 SynthID 워터마킹이 포함되며, Gemini, Chrome, Search를 통해 검증할 수 있다고 밝히고 있습니다. 이는 도움이 되지만, 제작자(builders)는 맥락상 사람들을 오도할 가능성이 있는 경우 생성된 미디어를 명확하게 라벨링해야 합니다.

세 번째 약점은 가용성입니다. 현재 발표된 내용은 소비자 대상입니다: Gemini 앱, Flow, YouTube Shorts Remix, 그리고 YouTube Create가 이에 해당합니다. 만약 깔끔한 개발자 API (developer API), 예측 가능한 가격 책정, 그리고 자동화 훅 (automation hooks)을 기다리고 있다면, 이를 기반으로 제품을 계획하기 전에 출시 과정을 지켜보시기 바랍니다.

제작자가 지금 바로 활용할 수 있는 실질적인 방법들

리스크가 낮은 작업부터 시작하세요. Gemini Omni를 최종 결과물이 아닌 프로토타입 (prototypes) 제작에 사용하십시오. 몇 가지 유용한 실험 예시는 다음과 같습니다:

스크린샷과 짧은 스크립트를 사용하여 15초 분량의 앱 기능 티저 제작.
블로그 포스트 섹션을 Shorts 또는 Reels를 위한 시각적 설명 영상으로 변환.
편집자나 애니메이터를 고용하기 전에 강의 인트로 프로토타입 제작.
제품 출시를 위한 세 가지 시각적 방향을 생성한 후, 하나를 선택하여 수동으로 다듬기.
디자인 작업이 시작되기 전 팀원들이 아이디어에 대해 반응할 수 있도록 내부 컨셉 영상 제작.

워크플로우를 정직하게 유지하십시오. 프롬프트 (prompts)를 저장하고, 버전을 저장하며, 생성된 클립에 라벨을 붙이십시오. AI 비디오를 사용하여 제품의 기능, 증언, 인물 또는 사건을 조작하지 마십시오. 이 도구는 그러한 유혹을 느낄 만큼 강력하며, 바로 그렇기 때문에 제작자들은 마감 압박이 닥치기 전에 규칙을 세워야 합니다.

더 큰 변화

Gemini Omni는 멀티모달 AI (multimodal AI)가 "프롬프트를 입력하고 기다리는" 방식에서 상호작용형 제작 (interactive creation) 방식으로 이동하고 있다는 또 다른 신호입니다. 이 모델은 단순히 질문에 답하는 것이 아닙니다. 사용자가 장면을 변경하는 동안 그 장면을 메모리에 유지하려고 시도합니다.

그것이 바로 제작자들이 주목해야 할 부분입니다. 모델이 텍스트, 이미지, 오디오, 비디오 및 편집 전반에 걸쳐 맥락 (context)을 유지할 수 있게 되면, 무언가를 만드는 인터페이스가 변화합니다. 빈 캔버스는 줄어들고, 대화는 늘어납니다. 처음부터 렌더링 (rendering)하는 일은 줄어들고, 조종 (steering)하는 일은 늘어날 것입니다.

여전히 이상한 클립들이 만들어질 것입니다. 여전히 인간의 취향 (human taste)이 필요할 것입니다. 하지만 편집 루프 (editing loop)가 실질적으로 작동한다면, Gemini Omni는 AI 비디오를 슬롯머신 같은 방식이 아니라, 실제로 지시 (direct)할 수 있는 거친 창의적 파트너 (creative partner)에 더 가깝게 만들어 줄 수 있습니다.

References

원문 게시 위치: https://blog.jenuel.dev/blog/gemini-omni-video-editing-model