
Microsoft MAI-Image-2 입문 — Arena.ai 3위 AI 이미지 생성 API를 Python으로 구현하기
요약
Microsoft의 새로운 이미지 생성 모델인 MAI-Image-2의 특징과 Python API 구현 방법을 소개합니다. Arena.ai 3위에 오른 이 모델은 뛰어난 포토리얼리즘과 이미지 내 텍스트 생성 능력을 갖추고 있습니다.
핵심 포인트
- Arena.ai 텍스트-이미지 모델 3위 기록
- 높은 포토리얼리즘 및 이미지 내 텍스트 생성 정확도
- Microsoft Foundry API를 통한 Python 구현 가능
- 최대 1024x1024 해상도 및 PNG 출력 지원
서론
2026년 4월 2일, Microsoft는 새로운 AI 이미지 생성 모델인 MAI-Image-2를 발표했습니다. Microsoft Foundry(구 Azure AI Foundry)를 통해 API 액세스가 가능하며, Arena.ai 리더보드에서 텍스트→이미지(Text-to-Image) 모델 3위에 즉시 이름을 올린 주목할 만한 모델입니다.
이 기사에서는 MAI-Image-2의 개요, 주요 기능, 스펙을 정리하고, Microsoft Foundry API를 사용한 Python 구현 예시를 설명합니다.
이 기사에서 배울 수 있는 내용
- MAI-Image-2의 특징, 주요 기능, 스펙
- Microsoft Foundry로의 배포(Deployment) 절차
- Python(API 키 인증 / Entra ID 인증)을 이용한 이미지 생성 구현
- 요금, 속도 제한(Rate Limit), 주의사항
전제 조건
- Azure 구독 (유효한 결제 수단 포함)
- Microsoft Foundry 프로젝트에 대한 액세스 권한
- Python 3.9+
TL;DR
-
MAI-Image-2는 2026년 4월 2일에 출시된 Arena.ai 3위의 고성능 텍스트→이미지 모델
-
엔드포인트(Endpoint):
https://<resource-name>.services.ai.azure.com/mai/v1/images/generations -
최대 해상도: 1024×1024 (가로세로 각각 최소 768px), PNG 출력
-
요금: 입력 $5/1M 토큰, 출력 $33/1M 토큰
-
기존 모델(MAI-Transcribe-1, MAI-Voice-1)과 동일한 Foundry에서 통합 관리 가능
MAI-Image-2란
MAI-Image-2는 Microsoft가 자체 개발한 확산 기반 (Diffusion-based) 텍스트→이미지 생성 모델입니다. 텍스트 프롬프트(Prompt)를 입력으로 받아 단계적으로 노이즈를 제거함으로써 고품질 이미지를 생성합니다.
경쟁 모델과의 비교
| 모델 | Arena.ai 순위 | 제공처 | 특징 |
|---|---|---|---|
| FLUX1.1 [pro] | 1위 | Black Forest Labs | 최고 품질 · 상업적 이용 |
| Midjourney V7 | 2위 | Midjourney | 예술적 품질 |
| MAI-Image-2 | 3위 | Microsoft | 포토리얼(Photoreal) · 텍스트 생성 |
| Imagen 4 | 4위~ | Google 생태계 통합 |
MAI-Image-2의 특기할 점은 인바운드 텍스트 생성 (이미지 내 텍스트 정확도)과 포토리얼한 인물·풍경 묘사가 이번 세대 모델에서 대폭 향상되었다는 점입니다.
주요 기능 및 스펙
3가지 강점
1. 포토리얼리즘 (Photorealism)
자연스러운 빛, 정확한 피부톤, 생활감이 느껴지는 배경 묘사에 뛰어나 제품 사진, 마케팅 비주얼, 브랜드 에셋 생성에 적합합니다.
2. 인바운드 텍스트 생성 (Inbound Text Generation)
인포그래픽, 슬라이드, 도해 등 이미지 내에 문자를 포함하는 콘텐츠의 생성 정확도가 높으며, 프롬프트의 의도를 충실히 재현합니다. Arena.ai 평가에서도 Text Rendering 카테고리에서 이전 세대보다 대폭 개선된 것이 확인되었습니다 [1].
3. 복잡한 장면 구성 (Complex Scene Composition)
초현실주의적 컨셉, 정교한 구도, 시네마틱한 비주얼 등 복잡한 지시 사항에 대한 대응력이 향상되었습니다.
모델 스펙
| 항목 | 값 |
|---|---|
| 입력 형식 | 텍스트 (최대 32,000 토큰) |
| ... |
배포 절차
1. Azure CLI를 통한 배포
az cognitiveservices account deployment create \
--name <ACCOUNT_NAME> \
--resource-group <RESOURCE_GROUP> \
...
배포 가능한 리전(Region): West Central US, East US, West US, West Europe, Sweden Central, South India
2. 환경 변수 설정
export AZURE_ENDPOINT="https://<resource-name>.services.ai.azure.com"
export AZURE_API_KEY="<your-api-key>"
export DEPLOYMENT_NAME="<your-deployment-name>"
API 키와 엔드포인트는 Azure Portal의 "키 및 엔드포인트 (Keys and Endpoints)" 섹션 또는 Foundry Portal의 배포 상세 페이지에서 확인할 수 있습니다.
Python을 이용한 구현
패턴 1: API 키 인증
가장 단순한 구현 방법입니다.
pip install requests
import os
import base64
import requests
...
응답 형식 (JSON):
{
"data": [
{
...
패턴 2: Microsoft Entra ID 인증 (권장)
운영 환경에서는 API 키 대신 Entra ID (구 Azure AD) 토큰을 사용하는 것이 권장됩니다.
pip install azure-identity
import os
import base64
import requests
...
패턴 3: cURL (REST API)
curl -X POST "https://<resource-name>.services.ai.azure.com/mai/v1/images/generations" \
-H "Content-Type: application/json" \
-H "api-key: $AZURE_API_KEY" \
...
요금 및 속도 제한 (Rate Limits)
요금 체계
| 과금 대상 | 요금 |
|---|---|
| 입력 토큰 (텍스트 프롬프트) | $5.00 / 1M 토큰 |
| 출력 토큰 (이미지 생성) | $33.00 / 1M 토큰 |
1024×1024 이미지 1장 생성 비용은 프롬프트 길이에 따라 다르지만, 일반적으로 수 센트 (cents) 정도입니다.
속도 제한 (RPM: Requests Per Minute)
| 티어 | RPM |
|---|---|
| 1 | 9 |
| ... |
쿼터 (Quota) 증설이 필요한 경우, 쿼터 증설 요청 양식을 통해 신청할 수 있습니다.
에러 대응
| 에러 코드 | 원인 | 대응 |
|---|---|---|
401 Unauthorized | API 키가 무효하거나 토큰이 만료됨 | Azure Portal에서 키를 재생성. Entra ID 인증의 경우 스코프 https://cognitiveservices.azure.com/.default 확인 |
404 Not Found | 배포 이름 또는 엔드포인트 URL이 잘못됨 | Foundry Portal의 Deployments에서 배포 이름 및 엔드포인트 확인 |
400 Bad Request | width / height가 768 미만이거나 총 픽셀 수가 1,048,576을 초과함 | 해상도 제약 확인. width × height ≤ 1,048,576 이고 양변 ≥ 768 이어야 함 |
429 Too Many Requests | 속도 제한 초과 | 재시도 또는 쿼터 증설 신청 |
이용 가능한 플랫폼
MAI-Image-2는 개발자용 API 외에도 다음 Microsoft 제품에 순차적으로 출시되고 있습니다:
- Microsoft Copilot: 채팅 내 이미지 생성
- Bing Image Creator: 웹 검색 연동 이미지 생성
- PowerPoint: 슬라이드용 이미지 자동 생성
- MAI Playground: 무료 프리뷰 (시용 가능)
요약
Microsoft MAI-Image-2의 핵심 포인트를 정리합니다.
- Arena.ai 3위: 세계 최고 수준의 이미지 생성 품질을 가진 Microsoft 최초의 본격적인 텍스트-이미지 (Text-to-Image) API
- 강력한 인바운드 텍스트 생성: 도식 및 인포그래픽에 최적화
- 간결한 구현:
requests
라이브러리의 POST 요청 한 번으로 이미지 생성 완료
- Foundry에서 통합 관리: MAI-Transcribe-1(전사)·MAI-Voice-1(음성)과 동일한 Foundry 프로젝트에서 일원 관리 가능
- 운영 환경에서는 Entra ID 인증 권장: DefaultAzureCredential을 통한 안전한 인증
MAI-Image-2는 Copilot, Bing, PowerPoint에 통합됨으로써 Microsoft 생태계 전반에 걸쳐 확산될 것으로 예상됩니다. 개발자는 Foundry API를 통해 동일한 기능을 애플리케이션에 구현할 수 있습니다.
참고 링크
- Deploy and use MAI-Image-2 model in Microsoft Foundry — Microsoft Learn — 구현 예시로 인용
- Introducing MAI-Image-2: for limitless creativity — Microsoft AI — 기능 소개로 인용
- Introducing MAI-Transcribe-1, MAI-Voice-1, and MAI-Image-2 — Microsoft Community Hub — 스펙 확인으로 인용
- Microsoft MAI-Image-2: Foundry Preview — Windows Forum — 해설로 인용
- Microsoft Foundry Model Catalog — MAI-Image-2 — 배포 방법으로 인용
Discussion

AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기