본문으로 건너뛰기

© 2026 Molayo

DeepMind중요헤드라인2026. 04. 24. 05:32

Veo 2와 Imagen 3로 구현하는 최첨단 영상 및 이미지 생성 기술

요약

본 글은 Google의 최신 AI 모델인 Veo 2(영상)와 Imagen 3(이미지)를 소개하며, 이들이 현존 최고 수준의 결과물을 달성했음을 강조합니다. Veo 2는 4K 해상도 및 분 단위 길이까지 지원하며 영화 촬영 기법(cinematography)을 이해하여 프롬프트에 렌즈 종류나 심도 표현 등을 지정할 수 있습니다. Imagen 3는 더 밝고 구성이 뛰어나며, 다양한 예술 스타일과 디테일을 높은 정확도로 구현합니다. 또한, 이미지 기반으로 아이디어를 조합하고 재창조하는 새로운 도구 Whisk가 공개되었습니다.

핵심 포인트

  • Veo 2는 인간 평가자 비교에서 최고 수준의 영상 생성 성능을 보여주었으며, 최대 4K 해상도와 분 단위 길이까지 지원합니다.
  • Veo 2는 '18mm lens'나 'shallow depth of field' 같은 영화 촬영 전문 용어를 이해하여 높은 사실성과 디테일을 구현합니다.
  • Imagen 3는 더 밝고 구성이 뛰어난 이미지를 생성하며, 포토리얼리즘부터 애니메이션까지 다양한 예술 스타일을 정확하게 표현합니다.
  • 새로운 실험 도구 Whisk는 Imagen 3와 Gemini의 시각 이해 능력을 결합하여 이미지 프롬프팅 및 리믹스를 가능하게 합니다.

Google은 최신 AI 모델인 Veo 2(영상)와 Imagen 3(이미지)를 공개하며, 콘텐츠 제작 분야에서 현존 최고 수준의 결과물을 선보였습니다. 이 모델들은 현재 VideoFX, ImageFX 및 새로운 실험 도구 Whisk를 통해 접근 가능합니다.

🎬 Veo 2: 차세대 영상 생성 기술

Veo 2는 광범위한 주제와 스타일에서 매우 높은 품질의 영상을 생성하는 능력을 갖추고 있습니다. 인간 평가자들과의 비교 테스트에서 최고 수준(state-of-the-art)의 성능을 입증했습니다.

주요 특징 및 개선점:

  • 사실성 및 물리 이해도 향상: 실제 세계의 물리학적 원리와 인간 움직임, 표정의 미묘한 차이를 깊이 있게 이해하여 전반적인 디테일과 사실성이 크게 향상되었습니다. 이로 인해 기존 모델에서 발생하던 '손가락 추가'와 같은 오류(hallucination) 현상이 줄어들어 결과물의 현실성이 높아졌습니다.
  • 영화 촬영 기법 (Cinematography) 지원: Veo 2는 단순한 프롬프트를 넘어 영화 제작의 전문 언어를 이해합니다. 사용자가 장르 지정, 특정 렌즈 사양(예: '18mm lens'를 입력하면 광각 샷을 구현), 시네마틱 효과 제안 등을 할 경우 이를 반영하여 영상을 제작할 수 있습니다.
  • 고화질 및 길이: 최대 4K 해상도에 이르며, 분 단위의 긴 영상까지 생성할 수 있는 확장성을 보여줍니다. 또한, 'shallow depth of field'와 같은 프롬프트를 통해 배경 흐림 효과(bokeh)를 정교하게 제어할 수 있습니다.
  • 책임감 있는 개발: Veo 2가 출력하는 모든 영상에는 AI 생성물임을 식별할 수 있는 비가시적 워터마크인 SynthID가 포함되어, 잘못된 정보 확산 및 출처 오용을 방지합니다.

✨ Imagen 3: 정교하고 다채로운 이미지 생성

Imagen 3는 이전 버전에 비해 더욱 밝고 구도가 뛰어난 이미지를 생성하며, 전 세계 100개국 이상에서 ImageFX를 통해 배포됩니다. 이 모델은 다양한 예술 스타일을 높은 정확도로 구현하는 데 중점을 두었습니다.

  • 스타일 다양성: 포토리얼리즘(Photorealism)부터 인상주의(Impressionism), 추상화, 애니메이션에 이르기까지 광범위한 예술적 표현이 가능합니다. 더불어 프롬프트를 더욱 충실하게 따르며 풍부하고 섬세한 질감을 구현합니다.

🎨 Whisk: 이미지 기반 아이디어 리믹스 도구

Google Labs의 최신 실험 도구인 Whisk는 사용자가 가지고 있는 이미지를 입력하거나 생성하여 주제, 장면, 스타일을 전달할 수 있게 합니다. 이 기능을 통해 디지털 봉제 인형(plushie)이나 에나멜 핀 같은 다양한 형태로 아이디어를 조합하고 재창조(remix)할 수 있습니다.

  • 작동 원리: Whisk는 Imagen 3와 Gemini의 시각 이해 및 설명 능력을 결합했습니다. Gemini가 사용자가 제공한 이미지에 대한 상세한 설명을 자동으로 작성하면, 이 텍스트 설명이 Imagen 3로 전달되어 독창적인 결과물을 만들어냅니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Google DeepMind의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0