Krea 2: 오픈 가중치 12B 이미지 모델 기술 보고서

Krea 2는 하나의 polished default보다 창작 탐색을 중시하는 이미지 생성 파운데이션 모델로, 모델 가중치와 추론을 permissive license로 공개함

학습 과정은 pretraining → midtraining → SFT → preference optimization → RL로 이어지며, 데이터 큐레이션·캡션·프롬프트 확장·스타일 참조가 출력 분포를 단계적으로 다듬음

아키텍처는 단순한 DiT 계열을 바탕으로 GQA, gated sigmoid attention, SwiGLU, Qwen 3 VL, Qwen Image VAE·FLUX 2 VAE 등을 조합해 안정성과 효율을 맞춤

Krea 2는 text-to-image 부문 Artificial Analysis leaderboard에서 top 10에 들었고, independent labs 모델 중 2위를 기록함

대규모 학습을 위해 PyTorch·FSDP2·텐서 병렬화·Kubernetes·Virtual Kubelet·Weka·PostgreSQL 기반 시스템을 구축했으며, 다음 단계로 MoE, sparse attention, native 2K–4K, NVFP4, Muon scaling을 검토함

창작 탐색을 겨냥한 이미지 파운데이션 모델

Krea 2는 넓은 미적 다양성과 사용자의 창작 제어를 목표로 한 이미지 생성 파운데이션 모델 시리즈임

in-house classifier는 large VLM으로 filtering task용 system prompt를 만들고 pseudo-labeled dataset을 생성한 뒤, small DINOv3 또는 SigLIP-2 기반 classifier를 학습하는 방식으로 구축함

low-resolution 단계에서 GPU compute가 필요한 filtering model은 효율을 위해 1B parameters 미만으로 유지함

low-resolution deduplication은 md5, phash, colorhash를 결합한 hash-based methods를 주로 사용함

기본 8x8 phash는 color를 고려하지 않아 false-positive rate가 높았음

더 강건한 deduplication을 위해 12x12 phash와 colorhash를 결합함

training resolution이 커지면서 image-quality와 aesthetic filters를 도입함

quality score는 매우 poor quality인 이미지를 제거하는 데만 사용하고 score 기반 oversampling에는 쓰지 않음

OCR 기반 image-complexity score와 text density로 low resolution에서 text와 content를 의미 있게 표현하기 어려운 이미지를 제외함

SigLIP-2 embeddings 위에 sparse autoencoder를 학습해 SAE 기반 tagging system을 만들었고, explicit classifier 없이 clear visual artifacts를 필터링하는 데 활용함

midtraining은 pretraining과 달리 특정 visual domain에서 좋은 stylistic coverage와 high-quality images를 제공하는 image sources를 명시적으로 선택함

pretraining은 general pool에서 시작하는 bottom-up 프로세스임

midtraining은 domains와 sources를 먼저 고르는 top-down 큐레이션임

general pretraining distribution과 high-quality SFT distribution을 부드럽게 잇는 단계임

최신 텍스트-이미지 모델의 가중치를 공개하고, 학습 과정을 꽤 깊게 다룬 글을 함께 냄
실제 학습과 데이터 인프라처럼 보통 자세히 쓰지 않는 부분도 꽤 넣었고, 여기에 관심 있을 만한 내용이 있을 것 같음

오픈 가중치 이미지 생성 모델에 대한 방대한 기술 보고서라 인상적임
이 분야를 계속 지켜본 입장에서 최종 제품 뒤에 있었던 실험과 노력을 읽는 게 정말 흥미롭고, 커뮤니티도 실험해볼 수 있게 파인튜닝 도구 일부를 공개해주면 모델의 가능성을 더 밀어붙일 수 있을 것 같음

Krea는 포르노나 고어 같은 콘텐츠를 어떻게 다루는지 궁금함
주요 모델들이 합법적인 경우에도 안전을 이유로 이런 부류의 콘텐츠를 강하게 배제하는 흐름이 답답했음

Ideogram4, Flux2, Qwen-Image, ZiT, Krea까지 보면 오픈 가중치 쪽에서 긍정적인 움직임이 많아졌음
원래 Flux.1 Krea는 작년 7월부터 내 GenAI Showdown 벤치마크 사이트에 들어가 있었고, 이 분야에선 그게 아주 오래전처럼 느껴짐. 새 모델도 제대로 테스트해보고 싶음

결과가 나왔고, 특히 Turbo 모델이 8스텝에서 그렇게 빠른 걸 감안하면 정말 인상적임
로컬 호스팅 가능한 모델 중 이를 넘은 건 Ideogram 4뿐이었는데, 그쪽은 훨씬 느림. 분 단위 대 초 단위 차이임
아홉 꼭짓점 별, Count Rugen, 사람이 너무 많은 평평한 지구 같은 평소의 “모델 킬러”에는 무너졌지만, 전체적으로 체급 이상을 해냈고 로컬 호스팅 가능 모델 중 최고 점수, 전체로는 Ideogram 4 바로 아래에서 15개 테스트 중 6개를 통과함
로컬 호스팅 가능 모델만 비교하는 GenAI 링크: https://genai-showdown.specr.net/?models=fd,hd,kd,qi,f2d,zt,...

텍스트-이미지 모델에도 모델 킬러가 있다는 건 처음 들었는데 웃겼음
테스트 방법으로 이렇게 기묘하게 구체적인 항목들에 도달했다는 게 재미있음

오픈 가중치 모델이 더 늘어나는 건 좋고, 깊이 있는 글도 정말 마음에 듦
여러 스타일을 만들 수 있게 매니폴드를 넓게 유지하려는 접근도 좋음. 스타일 프리셋 몇 개에만 딱 맞춰 조정하는 것보다 낫다고 봄
다만 Nano Banana 2나 Images 2.0 같은 고급 이미지-이미지/에이전트식 구성 모델이 이미 강하게 나오고 있어서, 이제 와서는 “지난 전쟁을 치르는” 느낌도 있음
기본 Qwen 3 VL을 교차로 넣는 방식이 그 수준의 이미지-이미지에 가까이 갈 수 있을지는 꽤 의심스럽고, 견고한 이미지-이미지는 편집, 조정, 캐릭터 일관성, 지금 스타일 전이에 쓰는 것의 일반화 측면에서 매우 중요함. 스타일 전이 부분도 설명이 부족해 보임
그 수준에 도달하는 게 쉽진 않겠지만, 이미지 모델의 다음 전선은 분명 여기라고 봄. Ideogram은 그쪽으로 쌓아가는 것 같지만 오픈 가중치 쪽에서는 아직 잘 보지 못했음

회의적인 건 이해하지만, 내부적으로는 무드보드 같은 여러 경우에서 이 모델이 Nano Banana보다 더 많이 쓰임. NBP보다 4배 저렴한 것도 도움이 됨
에이전트식 워크플로는 Krea 2와 호환되므로 그 부분은 잘 이해가 안 감. 편집 모델을 말하는 거라면 그것도 준비 중임
텍스트-이미지 벤치마크에서도 비슷한 수준이고, 위쪽 댓글에 올린 Artificial Analysis 링크를 보면 됨
Nano Banana나 ChatGPT를 다시 학습시켜 고객의 브랜드를 이해하게 만들 수는 없는데, 우리 고객들이 계속 토로하는 불만이 바로 그 부분임. 게다가 오픈소스라서 1:1 비교가 쉽지 않음

이 모델도 이미지-이미지를 지원하는데, Qwen 3 VL의 문제가 무엇인지 모르겠음
스타일 전이가 설명되지 않았다는 말도 애매함. 페이지에 “reference”가 11번 나오고, 실제로 읽어보니 꽤 많이 다루고 있었음

Krea가 모델 가중치를 내려받을 수 있게 한 점은 고맙지만, 라이선스에 이런 조항이 있으면 오픈소스는 아님: https://huggingface.co/krea/Krea-2-Raw/blob/main/LICENSE.pdf
상업적 사용은 회사 전체 연매출이 최근 12개월 기준 100만 달러 미만일 때만 허용되고, 그 이상이면 별도 엔터프라이즈 라이선스가 필요함
또 Krea 모델, 파생물, 출력물을 관련 법, 계약, 허용 사용 정책에 위반해 쓰면 안 되고, 배포 시 금지·유해·불법 콘텐츠 생성을 탐지·방지·완화하기 위한 합리적인 콘텐츠 필터를 구현해야 함
허용 사용 정책도 따라야 하며, 정책 페이지 https://www.krea.ai/krea-2-use-policy에는 Krea나 배포자가 구현한 안전장치, 사용 제한, 콘텐츠 필터, 출처 표시, 워터마킹 우회를 금지하는 조항도 들어 있음

현실감을 밀어붙여 보고 싶다면 웹사이트와 API의 Krea 2 Large는 FLUX 2 VAE로 학습했음
둘 다 써본 뒤로는 Flux VAE가 사실적인 텍스처 학습에서 약간 우위라고 보지만, 생각만큼 큰 차이는 아님. Qwen VAE도 절제 실험에서 전반적으로 매우 좋았고 다양한 스타일 생성을 배우는 데 강했음

wan2.1 VAE를 대신 쓰면 이 문제가 해결된다고 말하는 사람들도 있었음
아직 직접 시도해볼 시간은 없었음

Krea 2를 써보는 게 기대됨. Z-Image Turbo를 매일 쓰고 있고, 현실감 있는 이미지와 일러스트 용도로 스톡 사진 구독을 대체했음
학습 비용이 얼마나 들었는지 궁금함

커피는 확실히 많이 들었음
학습 비용은 추론과 연구 워크로드가 함께 도는 공유 Kubernetes 클러스터를 썼기 때문에 제대로 추정하기가 어려움

이런 모델을 셀프 호스팅할 때 뭘 쓰는지 궁금함
ollama와 open-webui를 써봤는데 이미지 생성은 전혀 지원하지 않았음

아직 이 모델은 안 해봤지만, ComfyUI는 확실히 지원할 것이고 익숙해지면 인터페이스도 괜찮았음
막히면 먼저 워크플로를 복사해 붙여넣는 식으로 시작하면 됨

Krea 2: 오픈 가중치 12B 이미지 모델 기술 보고서

요약

핵심 포인트

댓글