본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 05. 24. 22:32

【토픽 확인】Gemini Omni Flash 발표 ― 영상 생성과 대화형 영상 편집으로 무엇이 변할 것인가

요약

Google I/O 2026에서 발표된 Gemini Omni Flash는 텍i스트, 이미지, 영상, 음성을 통합 처리하는 네이티브 멀티모달 모델입니다. 단순 영상 생성을 넘어 대화를 통해 영상의 맥락과 캐릭터 일관성을 유지하며 편집할 수 있는 혁신적인 기능을 제공합니다.

핵심 포인트

  • 대화형 인터페이스를 통한 연속적 영상 편집 가능
  • 캐릭터 일관성 및 물리 법칙 준수 능력 강화
  • Gemini 앱, YouTube Shorts 등 다양한 서비스에 순차 적용
  • 사용자 맞춤형 디지털 아바타(Avatars) 기능 도입

Google I/O 2026에서 Google은 새로운 모델 패밀리인 Gemini Omni와 그 첫 번째 모델인 Gemini Omni Flash를 발표했습니다.

이 기사는 Google 공식 블로그의 내용을 바탕으로, 개발자·이용 부문·경영진의 관점에서 "무엇이 발표되었고, 무엇을 눈여겨봐야 하는가"를 정리한 개인 메모입니다.

참고로, 발표는 2026년 5월 19일, Google Japan Blog의 일본어 기사는 2026년 5월 20일 자로 공개되었습니다. API 제공은 "수주 이내"라고 되어 있으므로, 구현을 전제로 한 상세 내용은 향후 공식 문서를 확인해야 합니다.

※ 본 기사는 개인의 정리 메모입니다. 최신이며 정확한 정보는 공식 문서를 확인해 주시기 바랍니다.

Gemini Omni Flash는 Google I/O 2026에서 발표된 Gemini 관련 업데이트의 일부입니다. 같은 타이밍에 Gemini 앱의 대규모 업데이트와 Gemini 3.5 Flash, Daily Brief, Gemini Spark 등도 소개되었습니다.

또한, Google은 공식 블로그에서 작년에 공개한 이미지 생성 모델 Nano Banana를 언급하며, 거기서부터 영상·음성·편집으로 확장되는 흐름으로서 Gemini Omni를 위치시키고 있습니다. 즉, Gemini Omni Flash는 단독 영상 생성 모델이라기보다, Google의 생성 미디어 기능을 확장하는 흐름 속에 있는 발표로 이해하는 것이 쉬울 것입니다.

공식 블로그에서도 Gemini는 당초부터 "네이티브 멀티모달 (Native Multimodal)"로 만들어져 왔으며, Omni는 그 "다음 단계"라고 설명되어 있습니다. 새로운 단일 기능이라기보다, 패밀리로서 확장되어 나가는 전제로 보고 있는 것이 좋습니다.

Gemini Omni Flash는 텍스트·이미지·영상·음성과 같은 입력을 조합하여 영상을 생성 및 편집할 수 있는 모델로 소개되었습니다.

큰 포인트는 단순한 "텍스트 투 비디오 (Text-to-Video)"가 아니라, 기존의 소재나 문맥을 사용하면서 대화하듯이 영상을 편집할 수 있는 방향으로 기울어져 있다는 점입니다.

공식 블로그에서는 "모든 지시가 바로 이전의 지시 위에 쌓인다", "캐릭터의 일관성이 유지된다", "물리 법칙이 성립한다", "장면이 직전의 내용을 기억한다"라고 설명하고 있습니다.

영상 내용을 대화를 통해 몇 번이고 다시 써 내려갈 수 있다는 점이 기존의 "일회성 생성"과는 다른 부분입니다.

제공 대상은 Gemini 앱, Google Flow, YouTube Shorts, YouTube Create app으로 명시되었습니다. 다만, 제공 조건에는 차이가 있습니다.

  • Gemini 앱 및 Google Flow: Google AI Plus / Pro / Ultra 유료 구독자에게 순차적으로 제공
  • YouTube Shorts 및 YouTube Create app: 이번 주부터 무료로 순차 제공
  • 개발자·기업용 API: 향후 수주 이내에 제공 예정

또한, Google DeepMind의 모델 페이지에는 "기능은 플랜이나 지역에 따라 다름 (Features vary by tier and geography)"이라는 주의 사항이 있습니다. 실제로 무엇을 사용할 수 있는지는 자신의 플랜이나 거주지에 따라 달라질 가능성이 있으므로, 이용 시에는 공식 대응 상황을 확인하는 것이 안전할 것입니다.

"어디서 사용할 수 있는가"뿐만 아니라, "누가, 언제, 어떤 조건으로 사용할 수 있는가"를 나누어 살펴보는 것이 좋습니다.

공식 블로그에서는 디지털 아바타 기능도 언급되었습니다. Avatars라는 기능명으로, 자신의 목소리를 사용하고 외형과 목소리 모두 자신과 닮은 영상을 생성할 수 있는 기능으로 소개되었습니다.

한편, 영상 내의 음성이나 대화를 편집하는 기능은 책임 있는 제공을 위해 신중하게 테스트 중이라고 합니다. 즉, "대화형으로 영상을 편집할 수 있다"라는 방향성은 제시되었지만, 음성이나 대화 편집을 포함한 모든 기능이 즉시 일반 제공되는 것은 아닌 것으로 보입니다.

또한, 공식 블로그에서는 음성 레퍼런스(Audio Reference)부터 대응하고, 향후 다른 입력 방식에도 대응할 예정이라고 설명되어 있습니다. 음성·대화 관련 기능은 단계적으로 확장될 전제로 보고 있는 것이 좋습니다.

이 점은 업무 이용 시 특히 중요합니다. 인물의 외형이나 목소리를 다루는 기능은 편리한 반면, 본인 확인, 동의, 사내 리뷰, 공개 범위 설계가 필요합니다.

"Omni로 무엇을 할 수 있는가"를 말할 때는,

  • 영상은 생성할 수 있다
  • 아바타(본인과 닮은 영상)는 만들 수 있다
  • 영상 내의 음성이나 대화 편집은 향후 단계적으로

이 세 가지를 나누어 살펴보면, 기능의 현재 위치를 오해 없이 정리하기 쉬울 것입니다.

이번 발표에서 주목할 점은, Google이 Gemini Omni를 단순한 '동영상 생성 모델 (Video Generation Model)'로서뿐만 아니라, Gemini의 추론 능력 및 세계 지식 (World Knowledge)과 결합된 모델로 설명하고 있다는 점입니다.

공식 블로그에서는 물리 법칙, 역사, 과학, 문화적 배경 지식을 사용하여 다음에 어떤 일이 일어날지를 추론하는 방식의 설명이 이루어지고 있습니다. 예를 들어, "중력이나 운동 에너지, 유체 역학에 대한 직관적인 이해가 개선되었다", "복잡한 아이디어를 짧은 프롬프트 (Prompt)로부터 설명 영상으로 시각화할 수 있다"와 같은 사례가 소개되었습니다.

이것이 실무에서 효과를 발휘하게 되면, 단발적인 아름다운 영상을 만드는 것을 넘어 다음과 같은 용도로 확장될 가능성이 있습니다.

  • 상품 설명이나 절차 설명용 단편 영상을 제작
  • 기존 촬영 소재를 바탕으로 배경, 시점, 스타일을 조정
  • 교육 및 연수용으로 복잡한 개념을 짧은 영상으로 변환
  • YouTube Shorts 등의 숏폼 콘텐츠 제작 속도 향상
  • 자신의 목소리와 외형을 사용한 설명 영상 및 사내 메시지 제작

한편, 현시점에서는 API 사양, 요금, 생성 가능한 길이, 상업적 이용 시의 조건, 권리 처리, 리전 (Region) 제약 등을 확인할 필요가 있습니다.

개발자 관점에서는 API가 공개된 후 다음과 같은 사항을 확인하고 싶을 것입니다.

  • 입력으로 다룰 수 있는 파일 형식 및 크기
  • 영상의 길이, 해상도, 음성 유무, 생성 시간
  • 참조 이미지, 참조 영상, 참조 음성의 지정 방법
  • 음성 레퍼런스 (Voice Reference)로부터 시작되는 단계적 입력 대응 범위
  • 대화형 편집의 상태 관리 및 이력 처리
  • 음성 및 대화 편집 기능의 제공 범위
  • SynthID 또는 C2PA Content Credentials 획득 가능 여부
  • 기존 Gemini API / Vertex AI / Google Flow와의 관계

특히 업무용 애플리케이션에 통합하는 경우에는 '영상을 만들 수 있다'는 사실보다, 생성 프로세스를 어디까지 제어, 감사, 재현할 수 있는지가 중요해질 것으로 보입니다.

이용 부서 입장에서는 영상 제작의 진입 장벽이 상당히 낮아질 가능성이 있습니다. 지금까지 촬영, 편집, 나레이션, 소재 조정으로 나뉘어 있던 작업이 프롬프트와 소재 지정 중심으로 진행될 수 있습니다.

경영진 입장에서는 콘텐츠 제작 비용의 절감뿐만 아니라, 거버넌스 (Governance) 설계가 논점이 됩니다.

Google은 Gemini Omni로 작성된 모든 영상에 SynthID 전자 워터마크를 삽입한다고 설명하고 있습니다. 또한, Google DeepMind의 모델 페이지에서는 SynthID에 더해 C2PA Content Credentials에도 대응하고 있다고 설명되어 있습니다.

확인 수단에 대해서는 우선 Gemini 앱 상에서 검증할 수 있으며, Chrome 및 Google 검색에서의 확인 기능은 coming soon (제공 예정)이라고 설명되어 있습니다. 일본어판 공식 블로그에서는 Gemini 앱, Gemini in Chrome, Google 검색을 통한 확인을 언급하고 있지만, Chrome과 Search의 기능 제공은 앞으로라는 것이 현재의 위치인 듯합니다.

이는 실무상의 안심 요인이지만, 조직 측의 운용 규칙을 불필요하게 만드는 것은 아닙니다.

생성된 영상을 외부로 공개할 경우, 다음 사항은 미리 규칙화해 두는 것이 좋습니다.

  • AI 생성 및 편집 콘텐츠임을 표시하는 방침
  • 브랜드, 인물, 음성, 저작물을 참조할 경우의 허가
  • 디지털 아바타나 본인과 닮은 표현을 사용할 경우의 동의
  • 사내 리뷰 및 공개 승인 프로세스
  • 생성물의 보관, 재사용, 삭제 규칙
  • SynthID 등의 워터마크 및 검증 기능 취급 방식

기술 측면의 워터마크와 조직 측의 규칙 설계는 별개의 문제라고 정리해 두면 논의가 끊기지 않고 이어질 수 있을 것입니다.

API가 출시되기 전까지는 이용 가능한 환경에서 다음과 같은 관점을 확인하는 것이 도입 판단에 도움이 될 것입니다.

  • 동일한 소재에 대해 배경 변경, 시점 변경, 스타일 변경을 단계적으로 지시
  • 캐릭터나 제품의 외형이 여러 번의 편집 후에도 유지되는지 확인
  • 음성이나 움직임의 타이밍이 설명 용도로 적합한지 확인
  • 디지털 아바타 기능을 사용할 경우, 본인 동의나 공개 범위 규칙을 먼저 결정
  • 생성물에 대한 사내 리뷰 관점 도출
  • 향후 API화되었을 때 자사 워크플로우 (Workflow)의 어느 단계에 들어갈지 가설 수립

개인적으로는 '영상 생성' 그 자체보다, '기존 소재를 대화로 계속 편집할 수 있다'는 점이 실무로의 진입점이 될 것이라고 느꼈습니다. 단편 영상을 한 번에 만드는 것보다, 이미 가지고 있는 소재를 어떻게 편집하고 재사용할 수 있는지가 업무와의 접점을 만들기 더 쉬울 것으로 보입니다.

Gemini Omni Flash는 텍스트, 이미지, 동영상, 음성을 입력으로 처리하며, 우선 동영상 생성 및 동영상 편집 기능부터 제공되는 Gemini Omni 제품군(family)의 첫 번째 모델입니다.

요점을 정리하면 다음과 같습니다.

  • Google I/O 2026에서 발표된 Gemini Omni 제품군의 첫 번째 모델
  • 입력은 텍스트·이미지·동영상·음성, 출력은 우선 동영상부터 제공 (이미지·음성 출력은 향후 지원 예정)
  • Gemini 앱과 Google Flow는 유료 구독자 대상, YouTube Shorts와 YouTube Create 앱은 무료로 순차 제공 (기능은 플랜이나 지역에 따라 다를 수 있음)
  • 개발자 및 기업용 API는 향후 몇 주 이내에 제공 예정
  • 아바타(Avatars)를 통해 자신의 목소리 및 외형과 유사한 동영상 제작이 가능해지는 한편, 동영상 내 음성·대화 편집 기능은 신중하게 테스트 중
  • 모든 동영상에는 SynthID의 전자 워터마크(digital watermark)와 C2PA 콘텐츠 자격 증명(Content Credentials)이 부여되며, Gemini 앱에서 검증 가능 (Chrome / 검색 기능은 출시 예정)

개발자는 API 사양과 제어성(controllability)을, 이용 부서는 제작 프로세스에의 통합 방법을, 경영진은 거버넌스(governance)와 공개 규칙을 살펴두는 것이 좋습니다. 특히 인물의 외형이나 목소리를 다루는 아바타 기능, 음성·대화 편집의 제공 범위, SynthID 확인 수단은 실무 도입 전에 반드시 파악해 두어야 할 포인트입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0