Flux vs SDXL vs SD 3.5 2026: 어떤 이미지 모델이 승리할 것인가

이 기사는 원래 aifoss.dev에 게시되었습니다.

title: 'Flux vs SDXL vs SD 3.5 2026: 어떤 이미지 모델이 승리할 것인가'
description: '품질, VRAM, 그리고 생태계 측면에서 Flux.1, SDXL, SD 3.5를 비교합니다. 2026년 귀하의 하드웨어와 사용 사례에 맞는 적절한 오픈 소스 (open-source) 이미지 생성 모델을 선택하세요.'
pubDate: '2026년 5월 24일'

tags: ["stablediffusion", "ai", "imagegeneration", "gpu", "opensource"]

오픈 소스 (open-source) 이미지 생성 환경은 통합 단계를 거쳤습니다. 매달 다른 모든 것을 능가한다고 주장하는 새로운 모델 제품군이 등장하며 파편화되었던 2년의 시간이 흐른 뒤, 실제 사용 사례의 95%를 커버하는 세 가지 뚜렷한 계층이 나타났습니다: Flux (품질 계층), SDXL (생태계 계층), 그리고 SD 3.5 (논쟁 중인 중간 계층)입니다. 귀하가 어디에 속할지는 하드웨어, 사용 사례, 그리고 상업적 라이선스 (commercial license)가 필요한지 여부에 따라 달라집니다.

2026년 5월 기준 각 제품군의 최신 추가 모델을 포함하여 세 가지 모델을 심층적으로 살펴보겠습니다.

세 가지 제품군 한눈에 보기

	Flux.1 [dev]	Flux.2 Klein 4B	SDXL 1.0	SD 3.5 Medium	SD 3.5 Large
매개변수 (Parameters)	12B	4B	3.5B	2.5B	8.1B
...

요약하자면: 최고의 이미지가 필요하고 비상업적 라이선스 (non-commercial license)를 개의치 않는다면, Flux.1 dev가 기본 선택지입니다. 16GB VRAM 미만에서 상업적 용도가 필요하다면 SDXL 또는 Flux.2 Klein 4B를 선택하세요. 만약 이미지 내 텍스트 삽입 (text-in-image)이나 복잡한 구도를 전문적으로 다루며 NVIDIA RTX 하드웨어를 보유하고 있다면, TensorRT를 활용한 SD 3.5 Large가 그 가치를 증명하는 유일한 사례가 될 것입니다.

Flux: 품질의 기준점

Black Forest Labs는 2024년 중반에 오리지널 Flux.1 제품군을 출시했으며, 2026년 현재까지도 오픈 소스 (open-source) 이미지 품질의 기준점으로 남아 있습니다. 이 제품군은 상당히 확장되었습니다.

Flux.1 [dev] — 12B 기준 모델

Flux.1 [dev]는 상용 버전인 Flux.1 [pro]에서 증류(distilled)된 120억 파라미터 규모의 rectified flow transformer입니다. 실제로 이 모델은 프롬프트 준수(prompt adherence), 얼굴 디테일, 복잡한 다중 피사체 장면에서의 공간적 일관성(spatial coherence), 그리고 이미지 내 렌더링된 텍스트 측면에서 SDXL을 지속적으로 능가합니다. 동일한 프롬프트로 두 모델을 나란히 놓고 비교해 보면, 실사 피사체(photorealistic subjects)에서 그 격차가 즉각적으로 드러납니다.

하드웨어 비용이 주요 장벽입니다. Flux.1 dev를 전체 FP16 정밀도로 실행하려면 약 24GB의 VRAM이 필요하며, 이는 RTX 3090, 4090 또는 A100 급의 사양을 요구합니다. GGUF 양자화(quantized) 변형 모델을 사용하면 이 요구 사항이 상당히 낮아집니다. Q4_K_M GGUF 모델은 요구 사양을 약 6GB VRAM 수준으로 낮추어 RTX 3060에서도 구동이 가능합니다. 이 수준에서는 품질 저하(quality trade-off)가 발생하며, 얼굴의 미세한 질감이나 고주파 디테일(high-frequency detail)이 손상되지만, 대부분의 사용 사례에서는 여전히 순정 SDXL보다 뛰어납니다.

또 다른 장벽은 Flux.1 [dev]가 FLUX.1-dev 비상업적 라이선스(Non-Commercial License) 하에 배포된다는 점입니다. 제품이나 서비스에 사용할 수 없습니다. 실제 서비스 배포(production deployments)를 위해서는 Flux.1 [schnell] 또는 Flux.2 Klein이 필요합니다.

Flux.1 [schnell] — 빠름, Apache 2.0

Schnell은 4회의 추론 단계(inference steps)를 사용하며 완전한 Apache 2.0 라이선스를 따릅니다. dev 모델과의 품질 격차는 분명히 존재하지만, 4단계 추론 시 예상보다 좁습니다. 따라서 빠른 반복 작업(rapid iteration)이 필요하거나 최고 수준의 충실도(peak fidelity)보다 1초 미만의 생성 속도가 더 중요한 애플리케이션에 견고한 선택지가 됩니다. 대부분의 상용 Flux 배포 환경은 Klein이 등장하기 전까지 schnell을 실행하고 있었습니다.

Flux.2 Klein — 2026년 1월, 실용적인 업그레이드

2026년 1월 15일, Black Forest Labs는 두 가지 크기의 FLUX.2 [klein]을 출시했습니다.

4B 변형 모델(Apache 2.0)은 4회의 추론 단계로 생성하며, FP16 기준 약 13GB의 VRAM에서 실행됩니다. 품질은 schnell과 dev의 중간 수준입니다. 복잡한 프롬프트에서는 schnell보다 뛰어나지만, 전체 정밀도(full precision)를 가진 dev에는 미치지 못합니다. 16GB 미만의 하드웨어를 사용하는 상업적 애플리케이션의 경우, 이제 이 모델이 가장 먼저 고려해야 할 대상입니다.

9B 변체는 품질을 더욱 높이지만, 비상업적 라이선스(non-commercial license)로 돌아갑니다. FP16 환경에서는 27~~29GB의 VRAM이 필요하며, FP8 양자화(quantization)를 적용하면 텍스트 인코더 오프로딩(offloading)을 통해 RTX 4090에 적합한 약 14~~16GB 수준으로 낮출 수 있습니다.

공식 추론(inference) 리포지토리를 통해 Klein 4B를 로컬에서 실행하는 방법:

# 추론 리포지토리 클론
git clone https://github.com/black-forest-labs/flux2
cd flux2
...

ComfyUI에서는 UNet Loader 노드를 통해 .safetensors 체크포인트를 로드하십시오. Klein 4B는 Flux.1과 동일한 노드 구조를 사용하므로, 기존 워크플로우를 수정 없이 그대로 사용할 수 있습니다.

Flux.1 Kontext [dev] — 완전히 다른 도구

Flux.1 Kontext [dev]는 텍스트 지침을 통한 이미지 투 이미지(image-to-image) 편집을 위해 조정된 동일한 12B 아키텍처입니다. 피사체는 유지하면서 배경을 바꾸거나, 옷을 갈아입히고, 사물을 추가하거나, 조명을 조절하는 작업이 가능합니다. 이는 텍스트 투 이미지(text-to-image) 생성을 위한 Flux.1 dev의 대체재가 아니라, 반복적인 이미지 편집을 위한 별도의 워크플로우입니다. 라이선스는 비상업적(non-commercial)입니다. 만약 편집 도구를 구축하고 있다면, 2026년 중반 기준으로 사용 가능한 가장 강력한 오픈 웨이트(open-weight) 옵션입니다.

Flux를 사용하지 말아야 할 때

8GB VRAM을 보유하고 있으며 GGUF 아티팩트(artifacts) 없는 깨끗한 결과물을 원하는 경우 — SDXL이 더 적합합니다.
특정 주제나 스타일에 대한 성숙한 LoRA 라이브러리가 필요한 경우. Civitai의 Flux 카탈로그는 SDXL 카탈로그의 아주 일부분에 불과하며, Flux LoRA를 학습시키는 데는 SDXL Dreambooth보다 더 많은 VRAM이 필요합니다.
Flux.1 dev를 상업적으로 사용해야 하는 경우 — 비상업적 제한은 dev 모델과 9B Klein 변체에 적용됩니다.

SDXL: 생태계의 일꾼

SDXL 1.0은 Stability AI가 2023년에 출시한 3.5B 파라미터 모델입니다. 2026년 기준으로 순수 품질 면에서 기본 SDXL은 Flux와 SD 3.5 Large 모두에게 뒤처집니다. 하지만 다른 측면에서 승리합니다. 그 어떤 오픈 소스 이미지 모델도 SDXL만큼 깊이 있는 커뮤니티 미세 조정(fine-tuning), 커스텀 체크포인트, LoRA, 그리고 ControlNet 어댑터를 보유하고 있지 않습니다.

하드웨어 측면

SDXL은 8GB VRAM에서 실행됩니다 — 이는 Stability AI가 직접 권장하는 기본 사양입니다. 8GB 환경에서는 리파이너 (refiner) 없이 1024×1024 해상도의 베이스 모델 (base model)을 사용할 수 있습니다. 리파이너 (미세한 디테일을 추가하는 2차 패스 모델)를 추가하면 요구 사양이 12–16GB로 높아집니다. 대부분의 사용 사례에서 8GB만으로도 SDXL 경험의 90%를 누릴 수 있습니다.

라이선스는 CreativeML Open RAIL++-M입니다. 수익 제한 없이 상업적 이용이 허용되지만, 사용 기반의 제한 사항(불법 콘텐츠 금지, 유해한 애플리케이션 금지)을 준수해야 합니다. 이는 연간 수익 100만 달러로 무료 상업적 이용을 제한하는 SD 3.5의 Stability AI 커뮤니티 라이선스 (Stability AI Community License)보다 더 허용적입니다.

생태계 측면의 논거

Civitai에는 수만 개의 SDXL LoRA, 파인튜닝된 체크포인트 (fine-tuned checkpoints), 임베딩 (embeddings), 그리고 ControlNet 어댑터가 호스팅되어 있습니다. 이는 사진 스타일, 애니메이션, 건축, 제품 시각화, 그리고 캐릭터 일관성 학습을 아우릅니다. 다른 어떤 오픈 모델 제품군도 이와 근접하지 못합니다. Dreambooth 또는 LoRA 학습을 사용하여 특정 캐릭터나 미학을 위해 SDXL을 파인튜닝 (fine-tuning)하는 방법은 ComfyUI와 Automatic1111/Forge 양쪽 모두에서 도구와 함께 매우 상세하게 문서화되어 있습니다.

SDXL을 위한 ComfyUI 커스텀 노드 생태계는 특히 깊이가 있습니다. SeargeSDXL, ComfyRoll, 그리고 내장된 SDXL 노드들은 단일 워크플로우 (workflow) 내에서 멀티 ControlNet 파이프라인 (multi-ControlNet pipelines), LoRA 스태킹 (LoRA stacking), 종횡비 관리, 그리고 리파이너 스케줄링 (refiner scheduling)을 가능하게 합니다. 특정 도메인을 위한 맞춤형 파이프라인이 필요하다면, SDXL은 여전히 시작점이 되는 곳입니다.

순정 SDXL의 한계

파인튜닝 없는 순수 텍스트-투-이미지 (text-to-image): SDXL은 얼굴, 복잡한 다중 피사체 프롬프트 (multi-subject prompts), 그리고 이미지 내 텍스트 렌더링 측면에서 Flux.1 dev에 뒤처집니다. 이 격차는 실사 활용 사례에서 유의미할 정도로 큽니다. 특정 도메인 데이터로 파인튜닝된 SDXL 체크포인트는 해당 도메인에서 일반적인 Flux.1보다 종종 더 나은 성능을 보여주지만, 기본 상태(out of the box)의 SDXL은 다음과 같이 보이는 이미지를 생성합니다