HuggingFace중요헤드라인2026. 04. 24. 06:32

FLUX-2 공개: 차세대 이미지 생성 및 편집 모델의 기술적 진화

요약

FLUX-2는 기존 FLUX.1을 대체하는 것이 아닌, 새로운 이미지 생성 및 편집 모델입니다. 이 모델은 단일 텍스트 인코더(Mistral Small 3.1)를 사용하며, 다중 이미지를 참조 입력으로 받아 최종 결과물을 생성할 수 있습니다. 기술적으로는 Double-stream과 Single-stream 블록의 비율을 조정하고, Bias 파라미터 제거 및 SwiGLU 활성화 함수 적용 등 여러 최적화가 이루어졌습니다. 특히 4비트 양자화(Quantization) 지원 등을 통해 VRAM 제약이 있는 환경에서도 구동 가능성을 높인

핵심 포인트

FLUX-2는 단일 텍스트 인코더 Mistral Small 3.1을 채택하여 프롬프트 임베딩 계산 과정을 단순화했습니다.
모델 아키텍처 측면에서 Double-stream 블록 대비 Single-stream 블록의 비율이 증가(Flux.1: 19/38 $ o$ FLUX-2: 8/48)하여 파라미터 효율성을 높였습니다.
FLUX-2는 Bias 파라미터를 사용하지 않으며, SwiGLU 스타일 MLP 활성화 함수를 적용하는 등 여러 최신 트랜스포머 기술을 통합했습니다.
Hugging Face의 Diffusers 라이브러리를 통해 모델 CPU 오프로딩 및 Flash Attention 3 지원, 4비트 양자화(bitsandbytes) 등을 구현하여 낮은 VRAM 환경에서도 구동이 가능합니다.

FLUX-2는 기존 FLUX.1의 단순한 대체재가 아닌, 독립적인 차세대 이미지 생성 및 편집 모델로 설계되었습니다. 이 모델은 텍스트 기반(text-guided)뿐만 아니라 여러 이미지를 참조 입력으로 사용하는 이미지 가이드 방식(image-guided)을 모두 지원하며 높은 유연성을 자랑합니다.

🛠️ FLUX-2의 주요 기술적 개선점

FLUX-2는 아키텍처와 구현 측면에서 Flux.1 대비 여러 중요한 최적화가 이루어졌습니다.

1. 단일 텍스트 인코더 사용:
Flux.1이 두 개의 텍스트 인코더를 사용했던 것과 달리, FLUX-2는 Mistral Small 3.1이라는 단일 텍스트 인코더를 채택했습니다. 이는 프롬프트 임베딩 계산 과정을 크게 단순화하는 핵심 변화입니다.

2. Double-stream 및 Single-stream 블록 최적화:
FLUX-2는 Flux.1과 동일한 다중 모드 확산 트랜스포머(MM-DiT) + 병렬 DiT 아키텍처를 따릅니다. 여기서 MM-DiT의 'Double-stream' 블록은 이미지 라텐트와 조건화 텍스트를 별도의 스트림으로 처리 후 어텐션 연산에서 결합하는 방식입니다.

FLUX-2는 Single-stream 블록의 비중을 대폭 늘렸습니다. Flux.1이 Double-stream 블록에 전체 파라미터의 약 54%를 할당했던 반면, FLUX-2는 Single-stream 블록에 약 73%를 할당하여 모델의 효율성과 병렬 처리 능력을 극대화했습니다.

3. 트랜스포머 구조 개선:

Bias 파라미터 제거: 모델의 모든 레이어(Attention, Feedforward 등)에서 Bias 파라미터를 사용하지 않도록 설계되었습니다.
활성화 함수 변경: Single-stream 블록은 기존의 GELU 활성화 함수 대신 SwiGLU 스타일 MLP 활성화 함수를 채택했습니다. 또한, Attention QKV 투영과 FF 입력 투영을 결합하는 완전히 병렬적인 트랜스포머 블록 구조를 구현했습니다.

🚀 구동 환경 및 최적화 전략

FLUX-2는 DiT와 Mistral Small 3.1이 결합되면서 순수 추론 시 80GB 이상의 VRAM을 요구합니다. 하지만 Hugging Face Diffusers 라이브러리를 활용하여 다양한 시스템 제약 조건 하에서도 구동할 수 있는 여러 최적화 방법을 제시했습니다.

CPU 오프로딩: pipe.enable_model_cpu_offload()를 사용하여 모델의 일부 레이어를 CPU 메모리로 옮겨 VRAM 사용량을 줄일 수 있습니다. (H100 환경에서 약 62GB 소요)
Flash Attention 3: Hopper-series GPU 사용자라면 set_attention_backend를 통해 Flash Attention 3를 적용하여 추론 속도를 크게 향상시킬 수 있습니다.
4비트 양자화 (Quantization): bitsandbytes 라이브러리를 이용해 트랜스포머와 텍스트 인코더 모델을 4-bit로 로드할 수 있습니다. 이를 통해 약 20GB의 여유 VRAM만 있는 GPU에서도 FLUX-2를 구동하는 것이 가능합니다.

이처럼 FLUX-2는 단순한 성능 향상을 넘어, 최신 AI 트랜스포머 기술과 효율적인 배포 전략을 결합하여 접근성을 극대화한 모델입니다.

AI 자동 생성 콘텐츠

원문 바로가기

FLUX-2 공개: 차세대 이미지 생성 및 편집 모델의 기술적 진화

요약

핵심 포인트

🛠️ FLUX-2의 주요 기술적 개선점

🚀 구동 환경 및 최적화 전략

댓글