이미지 생성 비용을 실제로 결정짓는 요인은 무엇인가

우리는 텍스트 LLM (Large Language Models)을 위해 구축된 게이트웨이에 이미지 생성 기능을 추가하고 모델, 해상도 (resolution), 이미지 개수, 품질 (quality)이라는 네 가지 변수에 따라 비용을 결정하는 요인을 측정했습니다. 가장 큰 레버(lever)는 품질 (quality)로, 대부분의 이미지 API가 노출하고 있으며 대부분의 호출자가 기본값으로 남겨두는 파라미터입니다. 해상도 (resolution), 프롬프트 캐싱 (prompt caching), 배치 (batching)는 사람들이 예상하는 것보다 훨씬 덜 중요합니다.

이미지 모델의 차이점

이미지 모델은 서로 즉시 교체 가능한(drop-in swaps) 대상이 아닙니다. 모델들은 여러 축에서 갈라지며, 그중 오직 하나(과금 형태)만이 가격에 관한 것입니다. 현재 활성화된 카탈로그를 살펴보면 다음과 같습니다:

제품군	과금 방식	`quality` 조절 노브	배치 `n>1`	해상도
`gpt-image` (OpenAI)	토큰당 (per-token)	✓ `low`/`med`/`high`	✓	최대 약 2K
...

한 모델이 다른 모델처럼 동작할 것이라고 가정할 때 문제가 되는 축들은 다음과 같습니다:

과금 형태 (Billing shape). 토큰당 (gpt-image, gemini) 방식 또는 이미지당 고정 금액 (qwen, wan, seedream) 방식입니다. 이것이 귀하의 청구 금액을 결정하는 축이며, 다음 섹션의 주제입니다.
quality 조절 노브. 오직 gpt-image만이 이를 가지고 있습니다 (low/medium/high). Gemini는 모델 티어 (flash에서 pro로) 또는 image_size를 통해 충실도 (fidelity)를 변경합니다. 고정형 모델들은 이러한 다이얼이 없습니다. 이 하나의 노브가 비용을 약 36배나 변화시키므로, 아래에서 다룰 주요 비용 레버입니다.
배치 (n>1)는 보편적이지 않습니다. gpt-image, qwen, wan은 호출당 여러 장의 이미지를 반환합니다. 모든 Gemini 및 Seedream 이미지 모델은 호출당 하나의 이미지만 반환합니다: n=2를 요청하면 400 에러가 반환되므로, N개의 요청을 직접 발행하고 배치를 스스로 오케스트레이션해야 합니다.
해상도 제한은 양날의 검입니다. gemini-2.5-flash-image는 1K (1 MP)로 제한되는 반면, gemini-3는 2K/4K에 도달합니다 (그리고 1K에서 4K로 갈 때 비용이 대략 두 배로 증가합니다). Seedream 4.5/5.0은 약 1920²의 하한선을 강제하며 그보다 작은 것은 거부합니다. qwen-image는 512²–2048² 범위 내에서 작동합니다. 높은 해상도가 항상 사용 가능한 것은 아니며, 비용을 절감하기 위해 해상도를 낮추는 것이 항상 허용되는 것도 아닙니다.
제어 노브(Control knobs)와 이미지 투 이미지(image-to-image)는 다릅니다. 일부 모델만 seed, negative_prompt, 또는 guidance_scale을 허용하며, 편집을 위한 참조 이미지(reference-image) 제한은 3개(gemini-2.5)에서 16개(gpt-image)까지 다양합니다.

quality 노브에는 한 가지 명확하지 않은 속성이 있습니다. gpt-image의 경우, 출력 토큰(output token)은 과금 단위이며, 귀하가 받는 파일의 측정값이 아닙니다. OpenAI는 공개된 per-(quality × size) 요율표에 따라 개수를 할당합니다 (gpt-image-1의 1024² 해상도 기준 low / medium / high는 각각 272 / 1,056 / 4,160 토큰). 따라서 토큰 수는 반환된 바이트(bytes)에서 유도되는 것이 아니라 quality에 의해 설정됩니다. 저희가 확인해 본 결과, 세 가지 티어 모두에서 1024² 해상도로 동일한 프롬프트를 사용했을 때 거의 동일한 파일 크기(약 0.9 MB)의 동일한 1024×1024 PNG 이미지가 생성되었지만, 청구된 토큰은 각각 196, 1,756, 7,024개였습니다. 해상도는 같고 바이트 크기도 같지만, 비용은 36배 차이가 납니다. 귀하는 픽셀이 아니라 렌더링 노력(rendering effort)에 대해 비용을 지불하는 것이며, 이것이 바로 출력을 눈으로 확인하기보다 usage를 읽어야 하는 이유입니다.

이 모델들 중 어느 것도 갖추지 못한 기능 중 하나는 프롬프트 캐싱(prompt caching)인데, 이는 보통 사람들이 가장 먼저 떠올리는 비용 절감 아이디어입니다. 이미지 생성은 상태가 없는(stateless) 방식입니다. 재사용할 대화나 KV 상태(KV state)가 없으며, usage 객체에는 캐시 필드가 포함되어 있지 않고, (아래에서 측정하듯) 배치(batching) 또한 프롬프트를 공유하지 않습니다. 캐싱은 채팅 기능이지 이미지 기능이 아니며, 이는 이미지 비용을 절감할 수 있다는 일반적인 가정을 배제합니다.

측정 결과

동일한 이커머스 스타일의 제품 프롬프트를 사용하여 게이트웨이를 통해 실제 생성을 수행하였고, 각 모델의 공개 요율에 따라 반환된 usage를 기준으로 비용을 계산했습니다. 별도의 스윕(sweep)을 통해 얻은 다섯 가지 결과입니다.

1. 비용은 프롬프트가 아니라 이미지입니다. 텍스트 투 이미지(text-to-image, 프롬프트 입력 후 이미지 출력)의 경우, 청구액의 97~100%는 출력 토큰(output tokens)입니다. 1024² gpt-image-2 생성은 입력 21 토큰과 출력 196 토큰(약 $0.0001 + $0.0059)이며, gemini-2.5-flash-image는 입력 10 토큰이 소요됩니다. 귀하가 작성하는 프롬프트는 텍스트이기 때문에 반올림 오차 수준에 불과합니다. 하지만 대신 이미지를 입력하면(

모델	t2i 입력	i2i 입력 (참조 1개)	출력
`gpt-image-2` (low)	21 tok	1,043 tok	196 tok
`gemini-2.5-flash-image`	10 tok	1,297 tok	1,290 tok

입력 토큰이 50~130배 급증하며, 이는 선형적으로 증가합니다. gpt-image-2의 경우 참조가 하나씩 추가될 때마다 약 1,025 토큰이 추가됩니다 (1개, 2개, 3개의 참조를 각각 1,043, 2,068, 3,093 토큰으로 측정). 저품질(low quality) 설정에서는 이러한 입력 토큰이 생성된 출력 토큰보다 5배나 더 많습니다. 원리는 어느 쪽이든 동일합니다. 이미지를 직접 생성하든 직접 제공하든 비용을 결정하는 것은 이미지이며, 프롬프트는 결코 그렇지 않습니다. 이 글의 나머지 부분은 텍스트 투 이미지 (text-to-image)를 다룹니다. 더 포괄적인 이미지 투 이미지 (image-to-image) 경제학은 별도의 후속 글에서 다룰 예정입니다.

2. 모델 선택은 6배의 레버리지(lever)입니다. 동일한 1024² 요청, 기본 품질 기준:

모델	과금 방식	이미지당 비용
`gpt-image-2`	토큰 · `quality` 노브 (knob)	$0.0060
...

가장 저렴한 경로와 가장 비싼 경로 사이에 6.4배의 차이가 발생하며, 이는 전적으로 각 모델이 방출하는 출력 토큰 수에 의해 결정됩니다.

3. 해상도는 거의 영향을 미치지 않습니다. gpt-image-2의 해상도를 1024²에서 2048²로 변경했을 때, 이미지당 비용은 거의 일정하게 유지되었습니다 ($0.0060에서 $0.0121로). 출력 토큰은 픽셀 수에 비례하지 않기 때문입니다. gemini-2.5-flash-image는 요청한 크기에 관계없이 동일한 1,290 토큰을 반환했는데, 이는 해당 모델이 1K 전용이며 size 옵션은 종횡비(aspect ratio)만 변경하기 때문입니다. (gemini-3 이미지 티어는 image_size를 준수하여 1K에서 4K로 갈 때 비용이 대략 두 배로 증가하지만, 여기서 비용을 측정한 모델인 2.5-flash-image는 그렇지 않습니다.) 이미지당 고정 비용을 받는 모델은 정의상 해상도에 독립적입니다. 지금까지는 토큰당 과금 모델이 극복하기 어려워 보입니다.

4. 품질은 교차점(crossover)입니다. gpt-image-2를 품질 티어별로 살펴보면:

품질 (quality)	1024²	2048²
low	$0.0060 (196 tok)	$0.0121 (397 tok)
...

출력 토큰 (Output tokens)은 low에서 medium으로 갈 때 약 9배, low에서 high로 갈 때 약 36배 증가합니다. low 품질에서는 토큰당 과금 (per-token model) 방식이 가장 저렴한 옵션이지만, medium 또는 high 품질에서는 고정 이미지 가격 ($0.03–0.035)을 넘어섭니다. 교차점 (crossover)은 산술적으로 계산된 지점인 약 1,000 출력 토큰 부근($0.03 ÷ $30/M)에 위치합니다: low는 이보다 낮고, medium은 이보다 높습니다. 이는 우리의 이전 결론을 바로잡아 줍니다. "토큰당 과금이 항상 가장 저렴하다"는 결론은 기본값인 low 품질에서 테스트했을 때 나타난 현상이었습니다.

The same prompt rendered by gpt-image-2 at low, medium and high quality: three equally sharp 1024² product photos labelled 196 / 1,756 / 7,024 output tokens and $0.006 / $0.053 / $0.215.

동일한 프롬프트, gpt-image-2, 1024². low / medium / high는 각각 196 / 1,756 / 7,024 출력 토큰을 사용하며, 비용은 $0.006 / $0.053 / $0.215입니다: 동일한 해상도에서 36배의 차이가 발생합니다. 이와 같은 깔끔한 제품 사진(product shot)의 경우 세 품질을 구분하기 어려우므로, 가장 저렴한 티어로도 충분한 경우가 많습니다. 기본값인 high를 사용하는 대신 작업에 맞춰 quality를 설정하십시오.

5. 이미지 간에 프롬프트를 공유할 수 없습니다. 한 번의 호출로 n개의 이미지를 생성한다고 해서 프롬프트 비용이 분할 amortize 되지 않습니다. gpt-image-2는 이를 N번 과금합니다: n=4일 때 입력 토큰 (input tokens)은 28에서 112로 증가했으며, 긴 브랜드 프롬프트는 499에서 1,996으로 증가했습니다. 이미지당 비용은 n=1일 때와 n=4일 때 동일했습니다. 캐싱 (caching) 또한 없기 때문에, 이미지 생성에는 프롬프트 비용 공유 메커니즘이 존재하지 않습니다. 출력 이미지당 비용을 지불하며, 프롬프트는 매번 다시 과금됩니다.

결정 규칙 (The decision rule)

텍스트 투 이미지 (text-to-image)의 경우, 사람들이 추측하는 요소들이 아니라 품질에 따라 결정됩니다:

저품질 / 초안 / 썸네일 품질 (Low / draft / thumbnail quality): 품질 기반 토큰 모델 (gpt-image, 약 $0.006–0.012). 약 2K 해상도까지는 어떤 해상도에서든 가장 저렴함.
중간 / 고품질 (Medium / high quality): 요청당 고정 요금제 (flat rate) (seedream / qwen, $0.03–0.035). 토큰당 과금 방식은 비용이 급격히 상승하며 (우리의 조사 결과 $0.05–0.43), 고정 요금제가 더 저렴할 뿐만 아니라 품질과 무관함.
gemini (기본 1K 기준 약 $0.039)는 비용 측면에서 최적의 선택인 경우가 드묾. 저품질에서는 gpt-image에 밀리고, 중간 및 고품질에서는 요청당 고정 요금제에 밀림. gemini는 quality 조절 다이얼이 없으며, 출력 품질을 높이기 위해 Pro 티어나 더 높은 image_size를 선택해야 할 뿐, 가격을 위해 선택하는 모델은 아님.
해상도 변경은 동일 품질 계층 내에서 비용을 약 2배 정도 변화시키지만, 선택을 뒤집을 만큼의 차이는 아님. 선택을 뒤집는 것은 품질임.
n>1, 캐싱 (caching), 배치 (batching)는 이미지당 비용을 절대 줄여주지 않음. 공유할 수 있는 요소가 없기 때문임.
이미지 투 이미지 (Image-to-image): 기본적으로 이미지당 고정 요금제를 선택할 것. 참조 이미지가 입력되면 토큰 기반 모델은 이에 대해 추가 요금을 부과하지만 (각각 약 1,025 토큰), 고정 요금제 모델은 이를 무료로 포함함. 편집의 경우, 보통 seedream / qwen이 승리함. gpt-image는 몇 개의 참조 이미지를 사용하는 저품질 편집에서만 고정 가격보다 저렴하게 유지되며 (약 5개를 넘어가면 고정 가격보다 비싸짐), 품질이나 참조 이미지 수가 늘어나면 불리해짐.

이커머스(E-commerce)가 가장 명확한 사례임. 카탈로그의 모든 품목에 대해 동일한 긴 브랜드 프롬프트 (brand prompt)를 보내 제품 사진을 생성한다고 가정하고, 반복되는 프롬프트를 캐싱하면 비용을 아낄 수 있다고 생각할 수 있음. 하지만 이는 두 가지 이유로 실패함: 프롬프트는 비용의 원인이 아니었으며 (이미지가 원인임), 생성 과정에는 어차피 캐싱이 적용되지 않기 때문임. 실제 제품 이미지는 중간 품질 이상이므로, 프롬프트가 얼마나 반복되느냐에 관계없이 더 저렴하고 예측 가능한 이미지당 고정 요금제 모델을 선택하는 것이 올바른 선택임.

서론 섹션에서 언급한 기능적 제약 사항 (capability gates)이 여전히 선택을 좌우할 수 있음: 호출당 이미지 1장 제한 모델, 해상도 하한선 및 상한선, 데이터 거주성 (data-residency) 제한, 그리고 모델이 노출하는 조절 노브 (seed, negative_prompt, guidance_scale) 등임. 먼저 비용을 기준으로 선택한 다음, 해당 기능이 적합한지 확인하십시오.

이 수치들을 신뢰할 수 있는 이유

이 수치들은 추정치가 아니라 각 벤더(vendor)의 리스트 가격(list rates)을 기준으로 실제 usage(사용량)를 측정한 결과입니다. 당사 게이트웨이의 이미지 과금은 세션리스(sessionless) 방식입니다. 즉, 2xx 응답이 발생할 때만 정산되며(생성에 실패한 경우 비용이 청구되지 않음), 비용을 지출하기 전에 최악의 경우 발생할 비용을 사전 점검(pre-check)합니다. 또한 usage 응답이 누락된 경우, 조용히 $0로 처리하는 대신 상한선(ceiling)을 기준으로 과금합니다. 이는 당사가 모든 곳에 적용하는 원칙과 동일합니다. 벤더가 제공하는 수치가 아니라, 실제 비용을 신뢰하십시오. 이는 당사가 게이트웨이가 캐시(cache)에 대해 거짓말을 하는지 감사(audit)할 때 사용했던 방식입니다.

결론

이미지 생성은 단순한 또 다른 엔드포인트(endpoint)처럼 보이지만, 과금 단위가 바뀌었습니다. 텍스트-투-이미지(text-to-image)의 경우, 조절 레버는 프롬프트(캐싱이나 배치 공유가 불가능함)나 해상도가 아닙니다. 바로 품질(quality)입니다. gpt-image는 낮은 품질에서 이미지당 고정 비용(per-image flat) 방식이 가장 저렴하며, seedream / qwen은 중간 및 높은 품질에서 유리합니다. 이 교차점은 출력 토큰(output tokens)이 약 1,000개 근처일 때 발생합니다. 품질을 의도적으로 설정하고, 그에 맞는 모델을 선택한 뒤, 비용을 확인하십시오. 생성(generating)에서 편집(editing)으로 넘어갈 때, 즉 참조 이미지(reference image)를 입력할 때는 계산을 다시 수행해야 합니다. 입력 이미지가 곧 비용이 되기 때문입니다.

FAQ

프롬프트 캐싱(prompt caching)이 이미지 생성 비용을 줄여주나요?
아니요. 생성은 상태가 없는(stateless) 방식입니다. usage 객체에는 캐시 필드가 없으며, 배칭(batching)을 하더라도 이미지당 프롬프트 비용이 다시 청구됩니다. 비용은 텍스트가 아니라 출력 이미지에 의해 결정됩니다.

토큰당 과금(per-token)과 이미지당 과금(per-image) 중 어느 것이 더 저렴한가요?
품질에 따라 다릅니다. 낮거나 초안 수준의 품질인 경우, gpt-image와 같이 quality 노브(knob)를 사용하는 모델이 유리합니다(약 $0.006–0.012). 중간 또는 높은 품질의 경우, seedream/qwen과 같은 이미지당 고정 과금 방식이 유리합니다($0.03–0.035). 토큰당 과금 방식은 비용이 급격히 상승하기 때문입니다. 이미지-투-이미지(image-to-image)의 경우 답은 고정 과금 쪽으로 더 기울어집니다. 고정 과금 방식은 참조 이미지를 무료로 포함하는 반면, 토큰당 과금 방식은 이미지당 약 1,025개의 토큰을 추가 비용으로 부과합니다.

출처

모두 2026년 6월 19일 확인됨. 재정적 조언이 아닙니다. 의존하기 전에 현재 가격을 확인하세요.

이미지 생성 비용을 실제로 결정짓는 요인은 무엇인가

요약

핵심 포인트

이미지 모델의 차이점

측정 결과

결정 규칙 (The decision rule)

이 수치들을 신뢰할 수 있는 이유

결론

FAQ

출처

출처

댓글