본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 02. 23:04

Google의 새로운 AI 「Gemini Omni」와 「Gemini Spark」의 차이점──생성 AI는 '만드는 것'에서 '움직이는 것'으로

요약

Google I/O 2026에서 발표된 Gemini Omni와 Gemini Spark의 차이점을 분석합니다. Omni는 멀티모달 콘텐츠 생성을, Spark는 사용자의 작업을 수행하는 에이전트 역할을 수행하며 AI의 패러다임이 생성에서 실행으로 변화함을 보여줍니다.

핵심 포인트

  • Gemini Omni: 텍스트, 영상 등을 조합해 고품질 콘텐츠를 생성 및 편집하는 모델
  • Gemini Spark: Workspace와 통합되어 태스크를 수행하는 퍼스널 AI 에이전트
  • AI 패러다임의 변화: 단순 결과물 출력을 넘어 실행 중심의 에이전트로 진화
  • Gemini Omni의 특징: 자연어 기반 영상 편집 및 물리 법칙에 대한 이해력 강화

Google I/O 2026에서, Google은 새로운 AI 관련 기능으로서 「Gemini Omni」와 「Gemini Spark」를 발표했습니다.

이름만 보면 둘 다 Gemini의 새로운 기능처럼 보입니다.

하지만 역할은 상당히 다릅니다.

거칠게 말하자면, Gemini Omni는 「콘텐츠를 만드는 AI」입니다. 반면, Gemini Spark는 「태스크(Task)를 실행하는 AI」입니다.

지금까지의 생성 AI (Generative AI)는 문장을 쓰거나, 이미지를 만들거나, 영상을 만들거나, 요약하는 등의 「출력 (Output)」이 중심이었습니다. 그런데 이번 발표를 보면, Google은 AI를 단순한 답변 도구에서 사용자를 대신해 작업을 진행하는 에이전트 (Agent)로 진화시키려 한다는 것을 알 수 있습니다.

본고에서는 Google의 공식 발표를 바탕으로, Gemini Omni와 Gemini Spark의 차이점, 기술적인 의미, 그리고 이용 시 주의해야 할 포인트를 초보자용으로 정리합니다.

Gemini Omni와 Gemini Spark는 같은 Gemini 브랜드 안에 있지만, 바라봐야 할 축이 다릅니다.

항목Gemini OmniGemini Spark
주요 역할영상 등의 콘텐츠 생성·편집사용자를 대신해 태스크를 실행
...

Gemini Omni는 텍스트, 이미지, 영상 등을 조합하여 고품질 영상을 생성·편집하는 모델로 설명되고 있습니다. Google은 Gemini Omni에 대해 "영상을 비롯하여, 모든 입력으로부터 다양한 것을 창조할 수 있다"라고 설명하고 있습니다1.

한편, Gemini Spark는 24시간 체제로 사용자의 디지털 라이프를 지원하는 퍼스널 AI 에이전트 (Personal AI Agent)입니다. Google의 설명에 따르면, Spark는 사용자의 지시 아래 움직이며 Gmail, Docs, Slides 등의 Workspace 계열 도구와 깊게 통합된다고 합니다2.

여기서 중요한 것은, "AI가 무엇을 내놓는가"뿐만 아니라, "AI가 어디까지 실행하는가"로 초점이 옮겨가고 있다는 점입니다.

Gemini Omni의 특징은 단순히 영상을 생성하는 것에 그치지 않습니다.

Google의 설명에 따르면, Gemini Omni는 이미지, 음성, 영상, 텍스트를 자유롭게 조합하여 입력하고 영상을 생성할 수 있는 모델입니다. 또한, 자연어 (Natural Language)로 대화하듯이 영상 편집을 할 수 있다는 점이 강조되고 있습니다1.

예를 들어, 기존의 영상 편집에서는 다음과 같은 작업이 필요했습니다.

  • 소재를 촬영한다
  • 편집 소프트웨어에 불러온다
  • 타임라인 상에서 자르고 붙인다
  • 효과 (Effect)를 조정한다
  • 음성이나 BGM을 맞춘다
  • 내보내기 (Export)를 한다

Gemini Omni의 방향성은 이 작업을 "프롬프트 (Prompt)로 지시하는" 형태로 가깝게 만드는 것입니다.

예를 들어, 다음과 같은 지시가 상정될 수 있습니다.

이 영상의 배경을 밤의 도쿄로 변경해 주세요.
카메라를 조금 멀리서 잡는 느낌으로 해서, 영화 예고편 같은 분위기로 만들어 주세요.
인물의 외형은 유지한 채로, 비가 내리는 표현을 추가해 주세요.

기존 방식이라면 이것은 영상 편집, 합성, CG, 컬러 그레이딩 (Color Grading), 경우에 따라서는 재촬영이 필요한 작업입니다.

Gemini Omni가 목표로 하는 것은 이것들을 자연어로 다룰 수 있게 하는 것입니다.

이는 생성 AI의 진화로서 보면 상당히 큰 변화입니다. 왜냐하면 AI가 "제로에서 만드는" 것뿐만 아니라, "기존의 소재를 이해하고, 문맥을 유지한 채로 편집하는" 방향으로 나아가고 있기 때문입니다.

특히 주목해야 할 점은, Google이 Gemini Omni에 대해 물리 법칙이나 세계 지식의 이해를 강조하고 있다는 것입니다. Google은 중력, 운동 에너지, 유체 역학 등에 대한 이해가 향상되어, 물이나 물체의 움직임을 더욱 자연스럽게 표현할 수 있다고 설명하고 있습니다1.

즉, 단순한 그림 만들기가 아닙니다.

"그럴듯한 영상"에서 "문맥과 움직임이 파괴되기 어려운 영상"으로 다가가려 하는 것입니다.

Gemini Spark는 Gemini Omni와는 다른 방향의 진화입니다.

Gemini Omni가 콘텐츠 생성 AI라면, Gemini Spark는 업무나 생활의 태스크를 진행하는 AI입니다.

Google은 Gemini Spark에 대해, 24시간 체제로 디지털 라이프 관리를 서포트하는 퍼스널 AI 에이전트라고 설명하고 있습니다2.

여기서 말하는 에이전트란 단순히 답변하는 AI가 아닙니다. 사용자의 지시에 기반하여, 여러 정보원이나 도구를 사용하여 일정 수준의 작업을 진행하는 AI를 말합니다.

예를 들어, Google의 설명에서는 Spark로 다음과 같은 사용법이 상정되어 있습니다3.

  • 매월 신용카드 명세서를 분석하여 새로운 구독 비용을 탐지한다
  • 자녀의 학교에서 오는 메일을 확인하여 중요한 마감 기한을 추출하고 가족과 공유한다
  • 메일이나 채팅의 회의 메모를 정리하여 Google Docs에 요약하고, 관계자에게 보낼 메일 초안까지 작성한다

이러한 방향성은 상당히 실무적입니다.

지금까지의 AI 활용에서는 인간이 다음과 같은 절차를 밟았습니다.

인간이 메일을 찾는다
→ AI에 붙여넣는다
→ AI에게 요약시킨다
...

Gemini Spark의 방향성에서는 이 흐름이 다음과 같이 바뀝니다.

인간이 목적을 지시한다
→ AI가 관련 정보를 찾는다
→ AI가 정리한다
...

즉, AI의 역할이 '작업의 일부'에서 '작업 흐름 전체'로 확장됩니다.

이 변화는 기업의 업무 설계에도 영향을 미칩니다. AI를 단순한 챗봇(Chatbot)으로 도입하는 것이 아니라, 어떤 업무 플로우(Workflow)를 맡길 것인지, 어디에서 인간이 승인할 것인지, 어떤 데이터에 접근하게 할 것인지를 설계할 필요가 생깁니다.

이번 발표에서 주목해야 할 포인트는 AI의 진화가 세 가지 방향으로 나아가고 있다는 점입니다.

멀티모달 (Multimodal)이란 텍스트, 이미지, 음성, 영상 등 여러 종류의 정보를 다룰 수 있는 것을 말합니다.

Gemini Omni는 텍스트뿐만 아니라 이미지, 음성, 영상 등을 조합하여 입력하고 영상을 생성하는 방향을 제시하고 있습니다1.

이는 AI가 '문장만을 이해하는 도구'에서 '현실 세계에 가까운 정보를 종합적으로 다루는 도구'로 변하고 있음을 의미합니다.

에이전트화 (Agentic)란 AI가 단순히 답하는 것에 그치지 않고, 사용자의 목적에 따라 태스크 (Task)를 수행하는 것을 말합니다.

Gemini Spark는 Google Workspace 등과 통합되어 사용자를 대신해 복잡한 태스크를 처리하는 방향을 제시하고 있습니다3.

이때 중요해지는 것은 AI의 성능만이 아닙니다.

  • 어떤 앱에 접근할 수 있는가
  • 어떤 데이터를 읽을 수 있는가
  • 어떤 조작을 실행할 수 있는가
  • 실행 전에 인간에게 확인할 것인가
  • 로그 (Log)를 어떻게 남길 것인가

이러한 운영 설계가 중요해집니다.

생성 AI가 영상이나 음성을 자연스럽게 만들 수 있게 될수록, "이것이 진짜인가"라는 문제가 커집니다.

Google은 Gemini Omni로 작성된 영상에는 SynthID라는 전자 워터마크 (Digital Watermark) 기술을 삽입한다고 설명하고 있습니다1. 또한 Google 검색, Gemini, Chrome, Pixel, Google Cloud에서의 콘텐츠 투명성과 검증 도구의 확장도 발표했습니다4.

이는 생성 AI의 보급에 있어 피할 수 없는 논점입니다.

AI가 고품질의 영상을 만들 수 있게 될수록 생성물의 편의성은 올라갑니다. 하지만 동시에 사칭, 오정보, 변조, 저작권 침해의 리스크도 높아집니다.

따라서 AI 생성물을 어떻게 식별하고 어떻게 검증할 것인가는 기술적 문제일 뿐만 아니라 사회적 과제이기도 합니다.

Gemini Omni와 Gemini Spark는 편리한 도구이지만, 도입한다고 해서 바로 안전하게 사용할 수 있는 것은 아닙니다.

특히 다음과 같은 리스크는 의식할 필요가 있습니다.

리스크관련 기능주의 사항
저작권·초상권Gemini Omni참조 이미지, 영상, 음성의 이용 권한을 확인한다
...

특히 Gemini Spark와 같은 에이전트형 AI에서는 권한 관리가 중요합니다.

채팅 AI라면 잘못된 답변을 하더라도 인간이 그것을 읽고 판단할 수 있습니다. 하지만 에이전트형 AI가 외부 도구를 조작할 경우, 잘못된 판단이 그대로 실행으로 이어질 가능성이 있습니다.

Google은 Spark에 대해 결제나 메일 전송과 같은 중요한 액션 (Action) 전에는 확인을 요청하도록 설계되어 있다고 설명합니다3.

이는 중요한 설계입니다.

다만, 기업 이용에서는 그것만으로 충분하지 않을 수 있습니다.

예를 들어, 다음과 같은 규칙을 마련해 두면 안전합니다.

  • AI가 읽을 수 있는 데이터의 범위를 한정한다
  • 전송, 삭제, 구매, 계약과 관련된 조작은 반드시 인간의 승인을 거치도록 한다
  • AI의 실행 로그를 저장한다
  • 누구의 권한으로 AI가 조작했는지를 기록한다
  • 기밀 정보가 포함된 문서는 AI 연동 대상에서 제외한다
  • 정기적으로 AI의 출력과 실행 결과를 리뷰 (Review)한다

AI 에이전트는 편리하지만, 업무 플로우에 도입하려면 운영 설계가 필요합니다.

Gemini Omni와 Gemini Spark는 동일한 Gemini 관련 발표임에도 불구하고, 바라보는 방향이 다릅니다.

Gemini Omni는 동영상을 중심으로 한 생성 및 편집 AI입니다. 텍스트, 이미지, 동영상, 음성을 조합하여 자연어 (Natural Language)로 영상을 만드는 방향으로 나아가고 있습니다.

Gemini Spark는 사용자를 대신하여 작업을 수행하는 AI 에이전트 (AI Agent)입니다. Gmail, Docs, Slides 등과 연동하여 정보 정리, 문서 작성, 워크플로 (Workflow) 실행을 지원합니다.

이 두 가지를 나란히 놓고 보면, 생성 AI (Generative AI)의 현주소가 보입니다.

AI는 단순히 '글을 쓰는 도구'가 아니게 되어가고 있습니다.

한쪽에서는 영상이나 음성을 포함한 콘텐츠를 만드는 방향으로 나아가고 있습니다. 다른 한쪽에서는 사용자를 대신하여 태스크 (Task)를 실행하는 방향으로 나아가고 있습니다.

즉, 앞으로의 AI 활용에서는 다음의 두 가지를 나누어 생각할 필요가 있습니다.

  • AI에게 무엇을 만들게 할 것인가
  • AI에게 어디까지 실행하게 할 것인가

전자는 크리에이티브 (Creative)의 문제입니다.

후자는 업무 설계와 거버넌스 (Governance)의 문제입니다.

단순히 편리해 보이니까 사용한다는 것만으로는 위험합니다. 무엇을 맡기고 무엇을 맡기지 않을 것인가. 어디에서 인간이 확인할 것인가. 어떤 데이터에 접근하게 할 것인가.

그 단계까지 설계해야 비로소 AI 에이전트는 업무에서 사용할 수 있는 도구가 됩니다.

다음에 해야 할 일은 기능 목록을 훑어보는 것이 아닙니다.

자신의 업무나 조직 내에서 AI에게 맡겨도 좋은 작업과, 인간이 끝까지 책임을 져야 하는 작업을 구분하는 것입니다.

Gemini Omni와 Gemini Spark의 발표는 AI의 진화를 알리는 뉴스인 동시에, 우리의 업무 설계를 재검토하는 계기이기도 합니다.

Google Japan Blog 「Gemini Omni 를 발표」 - Gemini Omni의 개요, 입력 형식, 동영상 생성·편집, SynthID에 관한 근거 ↩ ↩

2↩3↩4↩5 -
Google Japan Blog 「Gemini 앱이 에이전트로 진화: 24시간 365일 서포트 실현」 - Gemini 앱, Gemini Spark, Daily Brief, macOS 앱에 관한 근거 ↩ ↩

2 -
Google Blog 「The Gemini app becomes more agentic, delivering proactive, 24/7 help」 - Spark의 구체적인 유스케이스 (Use Case), Workspace 연동, 확인 설계에 관한 근거 ↩ ↩

2↩3 -
Google Japan Blog 「콘텐츠의 작성이나 편집 이력을 알기 쉽게 하기 위해」 - SynthID, C2PA, 생성 콘텐츠 검증에 관한 근거 ↩

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0