본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 04. 15:04

GPT Image 2 입문 — DALL-E 3 후속 모델의 API 구현 및 이행 가이드

요약

OpenAI가 출시한 GPT Image 2의 주요 기능과 DALL-E 3로부터의 이행 가이드를 다룹니다. Python SDK를 활용한 API 구현 방법과 Thinking mode를 통한 정밀한 이미지 생성 기술을 설명합니다.

핵심 포인트

  • DALL-E 3는 2026년 5월 12일부로 Deprecated 예정
  • 텍스트 묘사 정밀도가 99% 이상으로 대폭 향상
  • Thinking mode를 통한 추론 기반의 고품질 이미지 생성 지원
  • 단일 API 호출로 최대 10장의 일관된 이미지 생성 가능

2026년 4월 21일, OpenAI는 GPT Image 2(gpt-image-2)를 정식 출시했습니다. ChatGPT Images 2.0으로도 전개되는 이 모델은 DALL-E 3의 후속 모델로 자리 잡고 있으며, DALL-E 2와 DALL-E 3는 2026년 5월 12일부로 비권장(Deprecated) 상태가 됩니다¹.

본 기사에서는 공식 문서에 기반하여 GPT Image 2의 주요 기능, Python API 구현 방법, DALL-E 3로부터의 이행(Migration) 절차를 해설합니다.

  • GPT Image 2의 주요 기능과 DALL-E 3와의 차이점

  • Python SDK를 사용한 API의 기본적인 사용법

  • Thinking mode의 활용 방법

  • DALL-E 3에서 이행하기 위한 구체적인 절차

  • 품질 레벨과 가격 선택 방법

  • OpenAI API로 이미지 생성을 구현하고 있는 엔지니어

  • DALL-E 3를 이미 사용 중이며 이행을 검토하고 있는 분

  • GPT Image 2의 기능을 파악하고 싶은 분

  • Python 3.10 이상

  • openai Python SDK (최신 버전)

  • OpenAI API 키

  • GPT Image 2는 DALL-E 3의 후속 모델이며,
    2026년 5월 12일에 DALL-E 3는 폐지 - 텍스트 묘사 정밀도가
    99% 이상으로 향상 (OpenAI 공식 발표²) -
    Thinking mode (추론 기반 생성)로 복잡한 프롬프트에 대응 - 단일 API 호출로 시리즈 이미지를 **최대 10장 (n=1~10)**까지 일관되게 생성 가능

  • 이행은 모델 지정(Model specification)을
    dall-e-3gpt-image-2로 변경하는 것만으로 완료

텍스트 묘사 정밀도가 99% 이상으로 대폭 개선되었습니다² (DALL-E 3에서는 제3자 비교 시 약 60% 정도로 알려져 있었습니다). UI의 버튼 라벨, 간판의 글자, CJK 문자 (일본어·중국어·한국어), 포스터 카피 등, 기존에는 부정확해지기 쉬웠던 텍스트가 정확하게 묘사됩니다.

특히 일본어를 포함한 프롬프트에서의 이미지 생성이나, UI 목업(Mockup)·슬라이드 소재 생성에 있어 큰 혜택이 있습니다.

GPT Image 2는 O 계열의 추론 엔진을 기반으로 설계되었으며, **묘사 전 플래닝(Planning)과 자기 수정(Self-correction)**을 수행하는 최초의 이미지 생성 모델입니다². 복잡한 프롬프트나 정밀한 텍스트 레이아웃이 요구되는 경우, 일반 모드보다 고품질의 출력을 기대할 수 있습니다.

Thinking mode는 일반 모드보다 처리 시간이 대폭 증가합니다 (제3자 측정에서는 일반 모드 35초 대비 Thinking mode는 1030초 정도). 또한 입력 토큰 비용이 증가하므로, 용도에 따라 quality="high"와의 구분 사용을 검토하십시오.

n 파라미터 (1~10)를 지정함으로써, 단일 API 호출로 최대 10장의 일관된 캐릭터나 장면 이미지를 생성할 수 있습니다³. 스토리보드, 프레젠테이션 자료, EC 사이트의 상품 이미지 시리즈 등, 통일감이 필요한 복수 이미지 생성에 활용할 수 있습니다.

사양GPT Image 2DALL-E 3
최대 해상도3840px (장변)1024px
...
from openai import OpenAI
import base64
client = OpenAI()
...

기본 반환 형식은 b64_json (Base64 인코딩된 바이너리)입니다.

GPT Image 2에는 Thinking mode (추론 기반 생성)가 내장되어 있어, 복잡한 프롬프트에 대해 더욱 정밀한 출력을 얻을 수 있습니다. 현재 공식 API에서는 quality="high"를 사용함으로써 Thinking mode가 활용되도록 설계되어 있습니다.

result = client.images.generate(
    model="gpt-image-2",
    prompt="일본어 라벨이 적힌 대시보드 목업. 왼쪽에 그래프, 오른쪽에 통계 수치 표시",
    ...
)

n 파라미터로 복수 매수를 지정하면 (이하는 n=8의 예시), 일관된 캐릭터나 장면 이미지를 생성할 수 있습니다.

result = client.images.generate(
    model="gpt-image-2",
    prompt="파란색 슈트를 입은 로봇 캐릭터. 다양한 포즈",
    ...
)

기존 이미지에 대해 부분적인 편집 (인페인팅, Inpainting)이 가능합니다.

with open("original.png", "rb") as image_file:
    result = client.images.edit(
        model="gpt-image-2",
        ...
result = client.images.generate(
    model="gpt-image-2",
    prompt="전문적인 프레젠테이션용 배경 이미지",
    ...

output_format="webp"output_compression (0~100)을 조합하여 파일 크기를 최적화할 수 있습니다.

GPT Image 2의 가격은 품질 수준과 크기에 따라 변동됩니다3.

품질1024×10241024×1536 / 1536×1024
Low$0.006$0.005
...
용도권장 품질이유
---------
프로토타입·확인용Low빠르고 저렴한 비용
...

Thinking mode를 활성화하면 입력 토큰이 2.5배로 곱해지므로, High 퀄리티 + Thinking mode를 많이 사용하는 경우에는 사전에 비용 견적을 내는 것을 권장합니다.

2026년 4월 21일: GPT Image 2 출시 -
2026년 5월 12일: DALL-E 2 / DALL-E 3 폐지 (사용 불가)4

5월 12일 이전에 API 통합을 업데이트해야 합니다.

# 변경 전
result = client.images.generate(
    model="dall-e-3",
    ...

quality="hd"는 GPT Image 2에서 quality="high"에 대응합니다.

DALL-E 3에서는 response_format="url"을 사용할 수 있었으나, GPT Image 2에서는 b64_json이 기본값입니다. URL 형식을 사용하고 있는 경우 Base64 디코딩으로의 변경이 필요합니다.

# DALL-E 3 (URL 형식)
result = client.images.generate(
    model="dall-e-3",
    ...

DALL-E 3에서 지원되었던 사이즈는 GPT Image 2에서도 계속 사용할 수 있습니다 (1024x1024, 1792x1024, 1024x1792). 새로운 사이즈 (2048x2048 등)를 활용하고 싶다면 추가 변경이 필요합니다.

gpt-image-2는 에일리어스 (Alias)입니다. 재현성이 중요한 프로덕션 환경에서는 스냅샷 ID (예: gpt-image-2-2026-04-21)를 명시함으로써 모델 업데이트로 인한 출력 변화를 방지할 수 있습니다3.

result = client.images.generate(
    model="gpt-image-2-2026-04-21", # 스냅샷 지정으로 출력을 고정
    prompt="...",
    ...

GPT Image 2는 현재 시점에서 스트리밍 출력 (Streaming output)을 지원하지 않습니다. 생성 완료까지 대기하는 설계가 필요합니다.

모델의 파인튜닝 (Fine-tuning)은 지원되지 않습니다. 스타일이나 일관성 유지를 위해서는 상세한 프롬프트 엔지니어링 (Prompt Engineering)이나 n 파라미터를 통한 다중 이미지 생성 방식을 활용하는 것이 권장됩니다.

moderation 파라미터로 auto (기본값) 또는 low를 지정할 수 있습니다. low는 콘텐츠 필터의 엄격도를 낮추지만, 이용 약관 범위 내에서 사용해야 합니다.

GPT Image 2는 텍스트 정확도의 대폭 향상, Thinking mode를 통한 추론 기반 생성, 멀티 이미지 시리즈 생성 (n=1~10) 등 DALL-E 3로부터 여러 개선 사항이 도입된 모델입니다.

중요 일정: 2026년 5월 12일에 DALL-E 2/3가 폐지되므로, 현재 DALL-E 3 API를 사용 중인 프로젝트는 지금 바로 이행 대응이 필요합니다. 이행 자체는 모델명 변경과 응답 형식 조정만으로 대응 가능한 경우가 대부분입니다.

  • 텍스트 정밀도가 향상됨에 따라 UI 목업(UI Mockup)이나 일본어 텍스트를 포함한 이미지 생성이 실용적으로 변함

  • Thinking mode는 복잡한 프롬프트(Prompt)에 유효하지만 비용 증가에 주의 필요

  • n 파라미터(최대 10)를 통해 일관된 시리즈 이미지를 생성할 수 있어, EC 상품 페이지나 교육 콘텐츠 제작에 활용 가능

  • 이행 마감일은 2026년 5월 12일 (DALL-E 3 폐지)

  • Introducing ChatGPT Images 2.0 | OpenAI — 서론 및 TL;DR 섹션에서 인용

  • Image generation | OpenAI API Docs — API 사용법 및 가격 체계 섹션에서 인용

  • GPT Image 2 Model | OpenAI API — 기능 사양 섹션에서 인용

  • Deprecations | OpenAI API — DALL-E 폐지 일정 확인

  • Introducing gpt-image-2 - OpenAI Developer Community — 릴리스 상세 내용

Deprecations | OpenAI API (OpenAI — dall-e-2 / dall-e-3의 폐지일 2026-05-12 확인) ↩

Introducing ChatGPT Images 2.0 (OpenAI, 2026-04-21) ↩ ↩

2↩3 -
Image generation | OpenAI API Docs (OpenAI) ↩ ↩

2↩3 -
GPT Image 2: Release Date, Features, and Everything You Need to Know (AI/ML API Blog, 2026) ↩

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0