본문으로 건너뛰기

© 2026 Molayo

Zenn헤드라인2026. 05. 24. 00:31

Microsoft MAI-Image-2 입문 — Arena.ai 3위 AI 이미지 생성 API를 Python으로 구현하기

요약

Microsoft의 새로운 이미지 생성 모델인 MAI-Image-2의 특징과 Python API 구현 방법을 소개합니다. Arena.ai 3위에 오른 이 모델은 뛰어난 포토리얼리즘과 이미지 내 텍스트 생성 능력을 갖추고 있습니다.

핵심 포인트

  • Arena.ai 텍스트-이미지 모델 3위 기록
  • 높은 포토리얼리즘 및 이미지 내 텍스트 생성 정확도
  • Microsoft Foundry API를 통한 Python 구현 가능
  • 최대 1024x1024 해상도 및 PNG 출력 지원

서론

2026년 4월 2일, Microsoft는 새로운 AI 이미지 생성 모델인 MAI-Image-2를 발표했습니다. Microsoft Foundry(구 Azure AI Foundry)를 통해 API 액세스가 가능하며, Arena.ai 리더보드에서 텍스트→이미지(Text-to-Image) 모델 3위에 즉시 이름을 올린 주목할 만한 모델입니다.

이 기사에서는 MAI-Image-2의 개요, 주요 기능, 스펙을 정리하고, Microsoft Foundry API를 사용한 Python 구현 예시를 설명합니다.

이 기사에서 배울 수 있는 내용

  • MAI-Image-2의 특징, 주요 기능, 스펙
  • Microsoft Foundry로의 배포(Deployment) 절차
  • Python(API 키 인증 / Entra ID 인증)을 이용한 이미지 생성 구현
  • 요금, 속도 제한(Rate Limit), 주의사항

전제 조건

  • Azure 구독 (유효한 결제 수단 포함)
  • Microsoft Foundry 프로젝트에 대한 액세스 권한
  • Python 3.9+

TL;DR

  • MAI-Image-2는 2026년 4월 2일에 출시된 Arena.ai 3위의 고성능 텍스트→이미지 모델

  • 엔드포인트(Endpoint):
    https://<resource-name>.services.ai.azure.com/mai/v1/images/generations

  • 최대 해상도: 1024×1024 (가로세로 각각 최소 768px), PNG 출력

  • 요금: 입력 $5/1M 토큰, 출력 $33/1M 토큰

  • 기존 모델(MAI-Transcribe-1, MAI-Voice-1)과 동일한 Foundry에서 통합 관리 가능

MAI-Image-2란

MAI-Image-2는 Microsoft가 자체 개발한 확산 기반 (Diffusion-based) 텍스트→이미지 생성 모델입니다. 텍스트 프롬프트(Prompt)를 입력으로 받아 단계적으로 노이즈를 제거함으로써 고품질 이미지를 생성합니다.

경쟁 모델과의 비교

모델Arena.ai 순위제공처특징
FLUX1.1 [pro]1위Black Forest Labs최고 품질 · 상업적 이용
Midjourney V72위Midjourney예술적 품질
MAI-Image-23위Microsoft포토리얼(Photoreal) · 텍스트 생성
Imagen 44위~GoogleGoogle 생태계 통합

MAI-Image-2의 특기할 점은 인바운드 텍스트 생성 (이미지 내 텍스트 정확도)과 포토리얼한 인물·풍경 묘사가 이번 세대 모델에서 대폭 향상되었다는 점입니다.

주요 기능 및 스펙

3가지 강점

1. 포토리얼리즘 (Photorealism)

자연스러운 빛, 정확한 피부톤, 생활감이 느껴지는 배경 묘사에 뛰어나 제품 사진, 마케팅 비주얼, 브랜드 에셋 생성에 적합합니다.

2. 인바운드 텍스트 생성 (Inbound Text Generation)

인포그래픽, 슬라이드, 도해 등 이미지 내에 문자를 포함하는 콘텐츠의 생성 정확도가 높으며, 프롬프트의 의도를 충실히 재현합니다. Arena.ai 평가에서도 Text Rendering 카테고리에서 이전 세대보다 대폭 개선된 것이 확인되었습니다 [1].

3. 복잡한 장면 구성 (Complex Scene Composition)

초현실주의적 컨셉, 정교한 구도, 시네마틱한 비주얼 등 복잡한 지시 사항에 대한 대응력이 향상되었습니다.

모델 스펙

항목
입력 형식텍스트 (최대 32,000 토큰)
...

배포 절차

1. Azure CLI를 통한 배포

az cognitiveservices account deployment create \
--name <ACCOUNT_NAME> \
--resource-group <RESOURCE_GROUP> \
...

배포 가능한 리전(Region): West Central US, East US, West US, West Europe, Sweden Central, South India

2. 환경 변수 설정

export AZURE_ENDPOINT="https://<resource-name>.services.ai.azure.com"
export AZURE_API_KEY="<your-api-key>"
export DEPLOYMENT_NAME="<your-deployment-name>"

API 키와 엔드포인트는 Azure Portal의 "키 및 엔드포인트 (Keys and Endpoints)" 섹션 또는 Foundry Portal의 배포 상세 페이지에서 확인할 수 있습니다.

Python을 이용한 구현

패턴 1: API 키 인증

가장 단순한 구현 방법입니다.

pip install requests
import os
import base64
import requests
...

응답 형식 (JSON):

{
"data": [
{
...

패턴 2: Microsoft Entra ID 인증 (권장)

운영 환경에서는 API 키 대신 Entra ID (구 Azure AD) 토큰을 사용하는 것이 권장됩니다.

pip install azure-identity
import os
import base64
import requests
...

패턴 3: cURL (REST API)

curl -X POST "https://<resource-name>.services.ai.azure.com/mai/v1/images/generations" \
-H "Content-Type: application/json" \
-H "api-key: $AZURE_API_KEY" \
...

요금 및 속도 제한 (Rate Limits)

요금 체계

과금 대상요금
입력 토큰 (텍스트 프롬프트)$5.00 / 1M 토큰
출력 토큰 (이미지 생성)$33.00 / 1M 토큰

1024×1024 이미지 1장 생성 비용은 프롬프트 길이에 따라 다르지만, 일반적으로 수 센트 (cents) 정도입니다.

속도 제한 (RPM: Requests Per Minute)

티어RPM
19
...

쿼터 (Quota) 증설이 필요한 경우, 쿼터 증설 요청 양식을 통해 신청할 수 있습니다.

에러 대응

에러 코드원인대응
401 UnauthorizedAPI 키가 무효하거나 토큰이 만료됨Azure Portal에서 키를 재생성. Entra ID 인증의 경우 스코프 https://cognitiveservices.azure.com/.default 확인
404 Not Found배포 이름 또는 엔드포인트 URL이 잘못됨Foundry Portal의 Deployments에서 배포 이름 및 엔드포인트 확인
400 Bad Requestwidth / height가 768 미만이거나 총 픽셀 수가 1,048,576을 초과함해상도 제약 확인. width × height ≤ 1,048,576 이고 양변 ≥ 768 이어야 함
429 Too Many Requests속도 제한 초과재시도 또는 쿼터 증설 신청

이용 가능한 플랫폼

MAI-Image-2는 개발자용 API 외에도 다음 Microsoft 제품에 순차적으로 출시되고 있습니다:

  • Microsoft Copilot: 채팅 내 이미지 생성
  • Bing Image Creator: 웹 검색 연동 이미지 생성
  • PowerPoint: 슬라이드용 이미지 자동 생성
  • MAI Playground: 무료 프리뷰 (시용 가능)

요약

Microsoft MAI-Image-2의 핵심 포인트를 정리합니다.

  • Arena.ai 3위: 세계 최고 수준의 이미지 생성 품질을 가진 Microsoft 최초의 본격적인 텍스트-이미지 (Text-to-Image) API
  • 강력한 인바운드 텍스트 생성: 도식 및 인포그래픽에 최적화
  • 간결한 구현: requests

라이브러리의 POST 요청 한 번으로 이미지 생성 완료

  • Foundry에서 통합 관리: MAI-Transcribe-1(전사)·MAI-Voice-1(음성)과 동일한 Foundry 프로젝트에서 일원 관리 가능
  • 운영 환경에서는 Entra ID 인증 권장: DefaultAzureCredential을 통한 안전한 인증

MAI-Image-2는 Copilot, Bing, PowerPoint에 통합됨으로써 Microsoft 생태계 전반에 걸쳐 확산될 것으로 예상됩니다. 개발자는 Foundry API를 통해 동일한 기능을 애플리케이션에 구현할 수 있습니다.

참고 링크

  • Deploy and use MAI-Image-2 model in Microsoft Foundry — Microsoft Learn — 구현 예시로 인용
  • Introducing MAI-Image-2: for limitless creativity — Microsoft AI — 기능 소개로 인용
  • Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 — Microsoft Community Hub — 스펙 확인으로 인용
  • Microsoft MAI-Image-2: Foundry Preview — Windows Forum — 해설로 인용
  • Microsoft Foundry Model Catalog — MAI-Image-2 — 배포 방법으로 인용

Discussion

AI 자동 생성 콘텐츠

본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0