Gemini Omni Flash: Google의 대화형 비디오 생성기
요약
Google이 대화형 편집 기능을 갖춘 비디오 생성 모델 Gemini Omni Flash를 출시했습니다. 기존 모델과 달리 텍est 프롬프트로 전체를 재생성할 필요 없이, 대화를 통해 특정 디테일만 정교하게 수정할 수 있는 것이 특징입니다.
핵심 포인트
- 대화형 편집을 통한 반복적 비디오 수정 가능
- 텍스트, 이미지, 오디오를 동시에 처리하는 멀티모달 입력 지원
- YouTube Shorts를 통해 무료 체험 및 Google AI Plus 구독 지원
- Sora, Veo 대비 빠른 반복 작업 속도 강점
Google이 I/O 2026에서 Gemini Omni Flash를 출시했습니다. 이는 실제로 대화를 통해 편집할 수 있는 최초의 AI 비디오 모델입니다. 이제 단 하나의 디테일을 수정하기 위해 클립 전체를 다시 생성할 필요가 없습니다. 무엇을 변경할지 말하면, 그 부분만 변경됩니다. 무엇이 다른지, 어떻게 사용하는지, 그리고 시간을 들일 가치가 있는지 알아보겠습니다.
Omni Flash가 다른 점
대부분의 비디오 생성기는 텍스트 프롬프트 (text prompt)를 입력받아 클립을 제공합니다. 만약 마음에 들지 않는 부분이 있다면, 처음부터 다시 생성하며 다음 결과물이 더 나을 것이라고 기도해야 합니다. Omni Flash는 그런 방식으로 작동하지 않습니다. 클립을 생성한 다음, 후속 메시지를 통해 이를 정교하게 다듬습니다:
"배경을 노을지는 해변으로 만들어줘"
"카메라 팬 (camera pan) 속도를 늦춰줘"
"아트 스타일을 수채화로 바꿔줘"
각 지시 사항은 다른 모든 것을 유지하면서 기존 클립을 수정합니다. 이것이 워크플로 (workflow)의 변화입니다. 무작위 생성에 도박을 거는 대신, 여러분의 비전에 맞춰 반복적으로 개선해 나가는 것입니다.
또 다른 독특한 특징은 멀티모달 입력 (multimodal input)입니다. 텍스트, 이미지, 오디오, 비디오를 한꺼번에 입력할 수 있습니다. 제품 사진에 음성 해설 (voiceover)을 넣어 애니메이션으로 만들고 싶나요? 두 가지를 함께 입력하세요. 모델이 이를 한 번에 처리하므로 오디오 타이밍이 시각적 움직임과 일치합니다.
시작하기
가장 쉬운 진입점은 YouTube Shorts입니다. 모바일에서 YouTube를 열고 생성 버튼을 누르면 인터페이스에서 Gemini Omni를 볼 수 있습니다. 프롬프트를 입력하면 Shorts 형식으로 직접 클립이 생성됩니다. 이것은 완전히 무료입니다. Gemini 앱이나 Google Flow를 통해 전체 권한을 얻으려면 월 $7.99의 Google AI Plus 구독이 필요합니다. 이를 통해 매월 200 크레딧을 받게 되며, 이는 약 50개의 표준 클립에 해당합니다.
기본적인 워크플로는 다음과 같습니다:
개념적 예시 (API는 아직 공개되지 않음)
from gemini import OmniFlash
client = OmniFlash ( api_key = " your_key " )
초기 생성
video = client . generate ( prompt = " A coffee cup on a wooden table, morning light " , duration = 10 )
대화형 편집
video = client . edit ( video_id = video .
id, instruction = "컵에서 김이 모락모락 피어오르게 해줘" )
video = client.edit(video_id = video.id, instruction = "테이블을 대리석으로 바꿔줘" )
video.download("output.mp4")
이 API는 아직 사용할 수 없지만, 이것이 의도된 워크플로우(workflow)입니다. 한 번 생성한 다음, 편집을 통해 반복(iterate)하는 방식입니다.
Sora 및 Veo와의 비교
저는 세 가지 모델을 모두 테스트해 보았습니다. 솔직한 분석은 다음과 같습니다:
Sora는 캐릭터 일관성(character consistency) 측면에서 더 뛰어납니다. 동일한 캐릭터가 여러 샷에 걸쳐 등장하는 단편 영화를 제작한다면, Sora가 더 안정적으로 처리합니다. 또한 더 긴 클립(최대 25초)을 생성합니다.
Veo 3.1은 시네마틱(cinematic) 작업에 적합한 선택입니다. 속도는 더 느리고 비용은 더 많이 들지만, 결과물이 더 의도된 대로 보입니다. 카메라 제어와 조명이 더 뛰어납니다.
Omni Flash는 반복 속도(iteration speed)에서 승리합니다. 대화형 편집(conversational editing) 덕분에 최종 결과물에 도달하기까지 사용하는 크레딧을 줄일 수 있습니다. 많은 양의 콘텐츠가 필요한 소셜 미디어 크리에이터들에게 이는 매우 중요한 요소입니다. 또한 멀티모달(multimodal) 입력 방식도 독특합니다. 다른 어떤 모델도 텍스트, 이미지, 오디오, 비디오를 단일 프롬프트(prompt)에 결합할 수 있게 해주지 않습니다.
실제 활용 사례
- YouTube Shorts 및 TikTok: 무료 Shorts 통합 기능은 가장 마찰이 적은 경로입니다. 앱을 떠나지 않고도 아이디어에서 게시된 Shorts까지 바로 진행할 수 있습니다.
- 제품 데모 (Product demos): 제품 사진을 입력하고 장면을 설명하면 데모 클립을 얻을 수 있습니다. 브랜드 가이드라인에 맞을 때까지 반복하여 수정할 수 있습니다.
- 설명 영상 (Explainer videos): 아바타 기능을 통해 자신의 디지털 버전을 만들 수 있습니다. 한 번만 녹화하면, 다시 녹화할 필요 없이 다양한 주제를 발표하는 자신을 생성할 수 있습니다.
- 광고 크리에이티브 (Ad creative): 컨셉을 생성하고, 변형을 테스트하며("파란색 배경으로 해줘", "텍스트를 더 크게 만들어줘"), 가장 좋은 결과물을 내보냅니다. 처음부터 다시 생성하는 것보다 반복당 비용이 저렴합니다.
현재의 한계점
10초 클립 제한이 가장 큰 제약 사항입니다. Google은 이것이 기술적 한계가 아닌 정책적 결정이라고 밝히고 있으므로, 더 긴 클립은 나중에 제공될 수 있습니다. 현재로서는 여러 클립을 생성한 다음 외부에서 함께 편집해야 합니다. 오디오 편집은 비활성화되어 있습니다. 생성된 비디오 내의 음성을 수정할 수는 없습니다.
Google은 딥페이크 (deepfake) 우려를 이유로 해당 기능을 제한했습니다. 텍스트 렌더링 (Text rendering)은 부정확할 수 있습니다. 프롬프트 (prompt)에 화면상의 텍스트가 포함되어 있다면, 글자가 깨지거나 철자가 틀릴 수 있음을 예상해야 합니다. 복잡한 동작 장면은 일관성 (consistency) 문제가 발생할 수 있습니다. 빠른 카메라 움직임이나 복잡한 안무는 물리 모델 (physics model)을 깨뜨릴 수 있습니다. 커스텀 음악이나 효과음은 제공되지 않습니다. 음성과 주변 소리 (ambient sound)만 제공됩니다. 개발자 API (developer API)는 아직 사용할 수 없습니다. 프로덕션 통합 (production integrations)을 구축 중이라면 여전히 Veo 3.1을 사용해야 합니다.
가격:
YouTube Shorts: 무료
Google AI Plus: 월 $7.99 (200 크레딧, 약 50개 클립)
Google AI Pro: 월 약 $20 (1,000 크레딧, 약 250개 클립)
Google AI Ultra: 월 약 $50 (10,000~25,000 크레딧)
월간 구독을 원하지 않는 경우, 제3자 플랫폼에서 비디오당 $0.15부터 시작하는 종량제 (pay-per-use) 가격을 제공합니다.
사용해야 할까요?
소셜 미디어를 위한 숏폼 (short-form) 콘텐츠를 제작 중이라면, 그렇습니다. 무료 Shorts 통합과 대화형 편집 (conversational editing)은 컨셉에서 게시된 비디오까지 가는 가장 빠른 경로를 제공합니다. 일관된 캐릭터가 등장하는 서사적 콘텐츠를 제작 중이라면 Sora 2를 계속 사용하세요. 영화 같은 품질과 정밀한 카메라 제어가 필요하다면 Veo 3.1을 사용하세요. API를 통해 프로덕션 통합을 구축 중이라면 기다리십시오. API는 아직 공개되지 않았습니다.
대화형 편집이 이곳의 진정한 혁신입니다. 이는 워크플로우 (workflow)를 "생성하고 기도하기"에서 "생성하고 개선하기"로 바꿉니다. 이는 단 하나의 디테일을 맞추기 위해 크레딧을 소진해 본 사람이라면 누구에게나 의미 있는 개선입니다. 모든 출력물에는 SynthID 워터마크 (watermark)가 포함됩니다. 이를 끌 수는 없습니다. 전통적인 방식으로 제작된 것처럼 보여야 하는 콘텐츠에 이 기능을 사용할 계획이라면 이 점을 반드시 알아두어야 합니다.
다음 단계:
Google은 API가 Gemini API와 Vertex AI를 통해 모두 제공될 것임을 확인했지만, 일정이나 가격은 발표되지 않았습니다. Veo 3.1 가격(Vertex AI에서 생성당 $0.50)을 기준으로 할 때, 유사하거나 약간 더 높은 요율을 예상할 수 있습니다. 10초 제한은 향후 늘어날 가능성이 높습니다.
Google은 이를 명시적으로 정책적 결정이라고 밝혔으며, 이는 초기 출시 단계에서 긴 형태의 콘텐츠(longer-form content)를 다루는 데 신중을 기하고 있음을 시사합니다. 오디오 편집 기능은 나중에 추가될 수 있지만, Google은 안전상의 이유로 해당 기능을 보류한다는 점을 분명히 했습니다. 조만간 해당 기능이 제공될 것이라고 기대하지는 마십시오. 현재로서는 빠르게 대량의 콘텐츠를 제작해야 하는 소셜 미디어 크리에이터나 마케터라면 Omni Flash를 테스트해 볼 가치가 있습니다. YouTube Shorts를 통한 무료 티어(free tier) 덕분에 위험 부담 없이 시도해 볼 수 있습니다. 더 높은 해상도의 출력물(최대 4K)과 유연한 가격 정책을 원한다면, 추가 기능을 제공하며 Gemini Omni Flash 접근 권한을 부여하는 제3자 플랫폼을 확인해 보시기 바랍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기