Krea 2: 프론티어 모델을 추격하는 오픈 웨이트 (Open-Weights) 이미지 모델

폐쇄적인 프론티어(frontier) 영역에 새로운 경쟁자가 등장했습니다. 2026년 6월 22일, Krea는 수십억 개의 실제 이미지로 처음부터 학습된 129억 파라미터 규모의 디퓨전 트랜스포머 (diffusion transformer)인 Krea 2의 웨이트 (weights)를 공개했으며, Hacker News 스레드는 몇 시간 만에 348점을 기록했습니다.

📖 차트와 임베디드 소스가 포함된 전체 버전은 ComputeLeap에서 읽어보세요 →

이번 출시는 두 가지 상호 보완적인 체크포인트 (checkpoints)로 제공됩니다. 미세 조정 (fine-tuning) 및 LoRA 학습을 위해 구축된 증류되지 않은 베이스 모델인 Krea 2 Raw, 그리고 소비자용 하드웨어에서 약 2초 만에 2K 이미지를 생성하는 8단계 증류 (distilled) 엔진인 Krea 2 Turbo입니다. 두 모델 모두 개인 및 소규모 팀의 무료 상업적 이용을 허용하는 커뮤니티 라이선스 하에 Hugging Face에서 이용 가능합니다.

이번 출시가 일반적인 오픈 웨이트 (open-weights) 공개와 다른 점은 함께 제공되는 정보의 깊이입니다. Krea는 데이터 큐레이션 (data curation) 철학부터 분산 학습 (distributed training) 인프라에 이르기까지 모든 것을 상세히 설명하는 전체 기술 보고서 (technical report)를 공개했습니다. 이는 프론티어 연구소들이 보통 비공개로 유지하는 종류의 문서입니다.

Krea 2의 실체

핵심적으로 Krea 2는 싱글 스트림 디퓨전 트랜스포머 (single-stream diffusion transformer)입니다. 아키텍처 (architecture)는 너비 6144의 28개 트랜스포머 블록을 가진 12.9B 밀집 DiT 백본 (dense DiT backbone), 게이트형 시그모이드 어텐션 (gated sigmoid attention)이 포함된 그룹 쿼리 어텐션 (grouped-query attention), 4배 확장된 SwiGLU MLP, 그리고 위치 인코딩 (positional encoding)을 위한 3D 축 방향 RoPE (3D axial RoPE)를 사용합니다.

두 가지 체크포인트 시스템은 의도적인 설계입니다. Raw는 증류되지 않은 중간 학습 체크포인트로, 다양하고 가변적이며 연구자와 미세 조정 (fine-tuners) 사용자가 맞춤화할 수 있도록 특별히 설계되었습니다. Turbo는 프로덕션 엔진입니다. 이는 분류기 없는 가이드 (classifier-free guidance) 오버헤드 없이 작동하는 8단계 증류 (distilled) 버전입니다.

ℹ️ Krea 2는 Artificial Analysis에서 독립 연구소의 텍스트-투-이미지 (text-to-image) 모델 중 1위를 차지했으며, 스타일 충실도 (style fidelity) 측면에서 GPT Image 2와 0.14점 차이 내에 위치합니다.

기술 보고서가 밝히는 내용

설계 단계부터 합성 데이터 배제

팀은 합성 학습 데이터 (synthetic training data)를 명시적으로 거부합니다. 이들의 입장은 "AI가 생성한 이미지가 아주 적은 비율로 포함되더라도 출력의 다양성을 저해하는 편향 (biases)을 유발한다"는 것입니다. 대신, 이들은 점점 더 선택적인 필터를 통해 수십억 개의 실제 이미지를 처리하는 다단계 파이프라인을 구축했습니다.

6단계 학습 파이프라인

사전 학습 (Pretraining) — 256px에서 1024px까지 점진적 해상도 확장, 낮은 해상도에서 8비트 학습을 사용하여 15~20%의 속도 향상 달성
중간 학습 (Midtraining) — 사전 학습과 지도 미세 조정 (SFT) 사이를 연결
지도 미세 조정 (Supervised Fine-Tuning) — 소규모의 수작업 큐레이션 데이터셋 사용
선호도 최적화 (Preference Optimization) — STPO (Stabilized Temporal Preference Optimization)
강화 학습 (Reinforcement Learning) — 4개의 독립적인 신호를 사용하는 멀티 리워드 (multi-reward) GRPO
타임스텝 증류 (Timestep Distillation) — TDM을 통해 Turbo 체크포인트 생성

루브릭 기반 RL 리워드 (Rubric-Based RL Rewards)

판단 모델 (judge model)에게 단일한 총체적 점수를 요청하는 대신, 시스템은 각 프롬프트를 개별적으로 검증 가능한 요구 사항으로 분해합니다. 이는 리워드 해킹 (reward hacking)을 방지하며, 구조적 오류를 잡아내는 전용 아티팩트 리워드 모델 (artifact reward model)을 추가합니다.

Krea 2를 로컬에서 실제로 실행하는 방법

빠른 경로: ComfyUI + FP8

가장 빠른 방법은 ComfyUI를 통하는 것입니다. 커뮤니티의 FP8 양자화 (quantized) 가중치는 트랜스포머 (transformer) 크기를 24.76 GiB에서 12.01 GiB로 줄여주어, 16GB GPU에서 구동이 가능하게 합니다.

최소 하드웨어 사양:

GPU: 16GB VRAM (RTX 4060 Ti 16GB, RTX 5080, RTX 4090)
시스템 RAM: 최소 16GB, 32GB 권장
저장 공간: 모델 파일용 약 18GB

3단계 설정 방법:

ComfyUI를 0.25.0+ 버전으로 업데이트
Comfy-Org/Krea-2에서 FP8 모델 파일 다운로드
기본 워크플로우(native workflow) JSON 로드 — 커스텀 노드(custom nodes) 불필요

클라우드 경로 (The Cloud Path)

fal, Replicate, Together AI, Cloudflare, 그리고 SGLang에서 데이 제로(Day-zero) 통합이 이미 활성화되었습니다.

💡 LoRA 미세 조정 (fine-tuning)을 위해서는 Raw 모델에서 학습한 후 Turbo 모델에 배포하십시오. 이 전이는 특수하게 설계되었습니다 — Raw에서 학습된 LoRA는 프로덕션 추론(production inference) 시 "Turbo로 강력하게 전이(transfer strongly to Turbo)"됩니다.

라이선스의 현실

Krea 2 커뮤니티 라이선스 (Krea 2 Community License)는 연간 매출이 100만 달러 미만이고 사용 인원(seats)이 50명 미만인 경우 무료 상업적 이용을 허용합니다. 두 임계값 중 하나라도 초과하면 엔터프라이즈 라이선스 (Enterprise licensing)가 필요합니다. 콘텐츠 필터링 (Content filtering)은 필수 사항입니다.

이것이 오픈 웨이트 (Open-Weights) 경쟁에 의미하는 바

Krea 2는 이미지 생성 분야에서 폐쇄형(closed)과 오픈형(open) 사이의 격차가 좁혀지고 있다는 가장 강력한 증거입니다. 독립 연구소의 12B 모델이 이제 품질 벤치마크에서 GPT Image 2와 0.14점 차이 내에 위치하며, 유사한 속도로 실행되고, 폐쇄형 API에는 여전히 부족한 스타일 제어 (style-control) 기능을 갖추고 출시되었습니다.

기술 보고서(technical report)의 로드맵은 MoE 아키텍처 (MoE architectures), 희소 어텐션 (sparse attention)을 통한 네이티브 2K–4K 해상도, 그리고 추가적인 효율성 향상을 위한 NVFP4 학습을 암시합니다.

원문 게시처: ComputeLeap