본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 31. 20:40

【동영상 생성】Gemini Omni를 사용해 보았다

요약

Google I/O 2026에서 발표된 Gemini Omni는 Veo의 기술을 계승한 차세대 멀티모달 동영상 생성 모델입니다. 텍스트, 이미지, 음성 등 다양한 입력을 조합하여 물리 법칙을 준수하는 고품질 영상을 생성하며, 대화형 인터페이스를 통해 정교한 단계적 편집이 가능합니다.

핵심 포인트

  • Veo의 기술과 Gemini의 멀티모달 능력이 결합된 최첨단 모델
  • 물리 법칙과 세계관을 이해하여 현실적인 움직임 구현
  • 대화형 멀티턴 지시를 통한 자연스러운 동영상 편집 및 수정
  • 스케치, 참조 영상, 사진 등을 활용한 고도의 제어 기능
  • 사용자 사진 기반의 AI 아바타 생성 및 시각화 지원

Gemini Omni는 Google I/O 2026에서 발표된 새로운 멀티모달 (Multimodal) AI 모델 패밀리입니다.

주로 다음과 같은 특징을 가지고 있습니다

:eyes: :eyes:

논리적이고 자연스러운 영상을 생성하면서도, 전체적인 문맥이나 세계관을 무너뜨리지 않고 몇 번이고 단계적으로 작품을 편집할 수 있음

Veo의 후속 모델- 동영상 생성 AI 「Veo」의 기술을 내포하며, Gemini의 강력한 멀티모달 (Multimodal) 기반과 융합된 최첨단 모델

멀티모달 (Multimodal) 생성- 텍스트, 이미지, 동영상, 음성 등의 입력을 조합하여 고퀄리티의 동영상을 생성

고도의 세계 이해와 추론 능력- Gemini가 가진 역사, 과학, 문화 등의 지식이나 중력, 유체역학 같은 물리 법칙을 직관적으로 이해하고 있음

  • 단순히 리얼할 뿐만 아니라
    현실 세계의 로직을 반영한 의미 있는 영상을 생성

대화형 조작성- 마치 채팅으로 대화하는 듯한 감각으로, 자연스러운 언어를 통한 지시로 간단하게 동영상을 작성·편집

자유로운 소재로부터의 동영상 생성- 텍스트, 사진(
최대 5장), 동영상, 음성을 조합하여 제로(Zero) 상태에서 동영상을 작성

  • 텍스트, 사진(

멀티턴 (Multi-turn, 대화 형식) 동영상 편집-
이전의 문맥을 유지한 채, 단계적으로 동영상을 텍스트 지시만으로 수정할 수 있음 - (예) 인물 교체, 조명 조절, 배경 변경, 카메라 앵글 조절 등

레퍼런스 (Reference, 참조)를 통한 고도의 편집-
다른 동영상의 움직임이나 포즈를 이미지 내의 캐릭터에 적용할 수 있음

  • 손으로 그린 스케치를 움직임의 가이드라인으로 삼아 리얼한 동영상을 작성할 수 있음

AI 아바타의 활용- 사용자의 사진으로부터 디지털 상의 「AI 아바타」를 작성

  • 자신과 똑 닮은 외형이나 목소리를 가진 캐릭터를 동영상에 등장시킬 수 있음

복잡한 개념의 시각화- 보유하고 있는 과학적 지식 등을 활용하여, 어려운 아이디어나 개념을 이해하기 쉬운 해설 동영상 (클레이 애니메이션 풍 등)으로 생성할 수 있음

울창한 숲속의 앤티크한 테이블.
크리스털로 된 티팟에서, 빛을 반사하는 황금빛 홍차가 찻잔에 담기는 모습.
홍차가 담길 때의 유체역학적인 움직임과, 표면의 파문, 피어오르는 김을 매우 리얼하게 표현해줘.

현실 세계처럼 홍차가 담기는 모습과 소리가 표현되어 있습니다.

홍차가 담기는 타이밍에 맞춰서,
이 스케치의 새를 실사화하여 테이블 위로 내려앉게 해줘.

제로(Zero)에서 생성한 동영상의 세계관을 유지하면서, 이 대충 그린 새가 움직임도 자연스럽게 실사화되어 있습니다

:thumbsup: :thumbsup:

지구가 우주를 배경으로 회전하는 모습을 지구 전체가 보이는 앵글로.
회전하는 동안 지구와 배경의 묘사 스타일을 변화시켜줘.
실사 지구 → 8bit 애니메이션 같은 지구 → 클레이 애니메이션 같은 지구 → 사이버틱한 지구
...

참고 이미지의 질감 재현 + 질감이 변하는 순간의 전환 방식도 각각의 소재에 맞춰서 바꿔줍니다

:thumbsup: :thumbsup:

음악도 각각의 소재의 무게감에 맞는 것을 붙여줍니다.

지금까지의 Veo 3.1보다 더 세밀하게 조정할 수 있으며, 지정한 질감에 맞는 물리적인 리얼함을 낼 수 있습니다

:eyes: :eyes:

정밀한 동영상을 긴 프롬프트(Prompt) 없이도 작성할 수 있으니, 꼭 한번 시도해 보세요!

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0