【동영상 생성】Gemini Omni를 사용해 보았다

요약

Google I/O 2026에서 발표된 Gemini Omni는 Veo의 기술을 계승한 차세대 멀티모달 동영상 생성 모델입니다. 텍스트, 이미지, 음성 등 다양한 입력을 조합하여 물리 법칙을 준수하는 고품질 영상을 생성하며, 대화형 인터페이스를 통해 정교한 단계적 편집이 가능합니다.

핵심 포인트

Veo의 기술과 Gemini의 멀티모달 능력이 결합된 최첨단 모델
물리 법칙과 세계관을 이해하여 현실적인 움직임 구현
대화형 멀티턴 지시를 통한 자연스러운 동영상 편집 및 수정
스케치, 참조 영상, 사진 등을 활용한 고도의 제어 기능
사용자 사진 기반의 AI 아바타 생성 및 시각화 지원

Gemini Omni는 Google I/O 2026에서 발표된 새로운 멀티모달 (Multimodal) AI 모델 패밀리입니다.

주로 다음과 같은 특징을 가지고 있습니다

논리적이고 자연스러운 영상을 생성하면서도, 전체적인 문맥이나 세계관을 무너뜨리지 않고 몇 번이고 단계적으로 작품을 편집할 수 있음

Veo의 후속 모델- 동영상 생성 AI 「Veo」의 기술을 내포하며, Gemini의 강력한 멀티모달 (Multimodal) 기반과 융합된 최첨단 모델

멀티모달 (Multimodal) 생성- 텍스트, 이미지, 동영상, 음성 등의 입력을 조합하여 고퀄리티의 동영상을 생성

고도의 세계 이해와 추론 능력- Gemini가 가진 역사, 과학, 문화 등의 지식이나 중력, 유체역학 같은 물리 법칙을 직관적으로 이해하고 있음

단순히 리얼할 뿐만 아니라
현실 세계의 로직을 반영한 의미 있는 영상을 생성

대화형 조작성- 마치 채팅으로 대화하는 듯한 감각으로, 자연스러운 언어를 통한 지시로 간단하게 동영상을 작성·편집

자유로운 소재로부터의 동영상 생성- 텍스트, 사진(
최대 5장), 동영상, 음성을 조합하여 제로(Zero) 상태에서 동영상을 작성

텍스트, 사진(

멀티턴 (Multi-turn, 대화 형식) 동영상 편집-
이전의 문맥을 유지한 채, 단계적으로 동영상을 텍스트 지시만으로 수정할 수 있음 - (예) 인물 교체, 조명 조절, 배경 변경, 카메라 앵글 조절 등

레퍼런스 (Reference, 참조)를 통한 고도의 편집-
다른 동영상의 움직임이나 포즈를 이미지 내의 캐릭터에 적용할 수 있음

손으로 그린 스케치를 움직임의 가이드라인으로 삼아 리얼한 동영상을 작성할 수 있음

AI 아바타의 활용- 사용자의 사진으로부터 디지털 상의 「AI 아바타」를 작성

자신과 똑 닮은 외형이나 목소리를 가진 캐릭터를 동영상에 등장시킬 수 있음

복잡한 개념의 시각화- 보유하고 있는 과학적 지식 등을 활용하여, 어려운 아이디어나 개념을 이해하기 쉬운 해설 동영상 (클레이 애니메이션 풍 등)으로 생성할 수 있음

울창한 숲속의 앤티크한 테이블.
크리스털로 된 티팟에서, 빛을 반사하는 황금빛 홍차가 찻잔에 담기는 모습.
홍차가 담길 때의 유체역학적인 움직임과, 표면의 파문, 피어오르는 김을 매우 리얼하게 표현해줘.

현실 세계처럼 홍차가 담기는 모습과 소리가 표현되어 있습니다.

홍차가 담기는 타이밍에 맞춰서,
이 스케치의 새를 실사화하여 테이블 위로 내려앉게 해줘.

제로(Zero)에서 생성한 동영상의 세계관을 유지하면서, 이 대충 그린 새가 움직임도 자연스럽게 실사화되어 있습니다

지구가 우주를 배경으로 회전하는 모습을 지구 전체가 보이는 앵글로.
회전하는 동안 지구와 배경의 묘사 스타일을 변화시켜줘.
실사 지구 → 8bit 애니메이션 같은 지구 → 클레이 애니메이션 같은 지구 → 사이버틱한 지구
...

참고 이미지의 질감 재현 + 질감이 변하는 순간의 전환 방식도 각각의 소재에 맞춰서 바꿔줍니다

음악도 각각의 소재의 무게감에 맞는 것을 붙여줍니다.

지금까지의 Veo 3.1보다 더 세밀하게 조정할 수 있으며, 지정한 질감에 맞는 물리적인 리얼함을 낼 수 있습니다

정밀한 동영상을 긴 프롬프트(Prompt) 없이도 작성할 수 있으니, 꼭 한번 시도해 보세요!

AI 자동 생성 콘텐츠

원문 바로가기

【동영상 생성】Gemini Omni를 사용해 보았다

요약

핵심 포인트

댓글