Boogu Base, Turbo, Edit - 오픈 소스 통합 이미지 생성 및 편집 모델 시리즈
요약
Boogu-Image-0.1은 텍스트 생성, 고속 생성, 이미지 편집 기능을 통합한 Apache-2.0 오픈 소스 모델 시리즈입니다. 제한된 컴퓨팅 자원과 데이터 규모로도 높은 품질의 이미지 생성 및 정교한 텍스트 렌더링 성능을 구현했습니다.
핵심 포인트
- Base, Turbo, Edit 세 가지 변형 모델로 구성된 통합 모델 제품군
- 복잡한 레이아웃에서도 강력한 중-영 이중 언어 텍스트 렌더링 지원
- Turbo 모델은 3~4단계의 적은 스텝으로 고품질 실사 이미지 생성 가능
- 10B 파라미터 규모로 미세 조정 및 다운스트림 개발에 최적화
Boogu-Image-0.1은 Base, Turbo, Edit 및 기타 변형 모델을 포함하여 고품질 텍text-to-image (텍스트-이미지) 생성, 빠른 생성, 이미지 편집, 그리고 중-영 텍스트 렌더링(text rendering)을 위한 안정적이고 실용적인 기능을 제공하는 경쟁력 있는 Apache-2.0 오픈 소스 통합 이미지 생성 및 편집 모델 제품군입니다. Nano Banana Pro 및 GPT-Image-2와 같은 폐쇄형 멀티모달 이해 및 생성 시스템은 단일 모델 때문이 아니라, 고도로 통합된 시스템 기능 제품군을 통해 놀라운 성능을 달성합니다. 그러나 폐쇄형 시스템에 비해 극도로 제한된 학습 컴퓨팅 자원 하에서도, 모델의 이해 능력, 데이터 품질 및 학습 파이프라인 (training pipeline)을 체계적으로 개선함으로써 이미지 생성 및 편집 성능을 여전히 크게 향상시킬 수 있음을 확인했습니다. 구체적으로, 기존의 일부 오픈 소스 모델과 비교했을 때 우리의 학습 데이터 규모는 대략 한 자릿수(one order of magnitude) 정도 작습니다. 우리는 우리의 경험적 연구와 오픈 소스 공개가 멀티모달 생성 및 이해를 위한 오픈 소스 생태계 발전에 도움이 되기를 바랍니다.
📸 신뢰할 수 있는 텍스트 렌더링을 포함한 사진 촬영 — Boogu-Image-0.1-Turbo는 사실적인 사진을 제공하는 동시에, 단순하고 밀도 높은 텍스트 렌더링 모두에서 견고한 성능을 제공합니다.
📝 강력한 밀집 텍스트 렌더링 — Boogu-Image-0.1-Base는 포스터, 문서, 브랜드 가이드 및 복잡한 이중 언어 디자인과 같이 레이아웃이 복잡하고 밀집된 텍스트 시나리오에서 경쟁력 있는 결과를 보여줍니다.
💡 권장 사항 — 작업 부하가 밀집된 / 초밀집 텍스트 렌더링 요구 사항에 의해 지배되는 경우, 최상의 레이아웃 충실도와 문자 정확도를 위해 Boogu-Image-0.1-Base를 2K 출력 해상도로 실행하는 것을 권장합니다.
Boogu-Image-0.1-Base: 강력한 다양성과 제어 가능성을 갖춘 파운데이션 모델 (Foundation model) — 미세 조정 (fine-tuning) 및 다운스트림 개발에 이상적입니다. 주로 초밀집 텍스트 렌더링을 목적으로 하며, 사실주의 (photorealism)를 위해서는 Turbo가 일반적으로 더 나은 기본 선택지입니다.
Boogu-Image-0.1-Edit: 이미지 편집 및 변환 변형 모델.
Boogu-Image-0.1-Turbo: 동일한 파라미터 수(parameter count)를 가진 증류 변형 모델(Distilled variant)로, 일반적으로 3~4단계(steps)만 필요합니다. 이 모델은 이중 언어 텍스트 렌더링(bilingual text rendering)과 프롬프트 준수(prompt adherence)를 유지하면서 고품질 생성 및 사진 같은 실사감(photorealism)에 집중합니다.
모델 크기: 10B (설정에 따라 12~80GB VRAM 필요, 자세한 정보는 모델 카드(Model card) 확인)
모델:
https://huggingface.co/Boogu/Boogu-Image-0.1-Turbo
https://huggingface.co/Boogu/Boogu-Image-0.1-Edit
GitHub:
https://github.com/boogu-project/ComfyUI-Boogu
기타:
제출자: /u/pmttyji
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기