SenseNova-U1-8b-MoT-Infographic-V2 출시 - 인포그래픽 디자인 및 이미지 편집을 위한 오픈 소스 SOTA 모델
요약
인포그래픽 생성 및 이미지 편집에 특화된 오픈 소스 SOTA 모델인 SenseNova-U1-8b-MoT-Infographic-V2가 출시되었습니다. Apache 2 라이선스를 채택하여 Ideogram 4와 경쟁하며, 일관된 테마의 이미지를 생성하는 Interleaved 모델도 함께 제공됩니다.
핵심 포인트
- 인포그래픽 및 이미지 편집에 최적화된 MoT 구조 모델
- Apache 2 라이선스로 상업적 활용 및 자유도 높음
- FastAPI와 Docker를 활용한 OpenAI 호환 API 서빙 가능
- 일관된 캐릭터와 폰트를 유지하는 Interleaved 이미지 모델 지원
저도 여러분 대부분과 마찬가지로 꽤 냉소적입니다. 이제 새로운 모델들에 대해 딱히 흥분하지 않아요. 솔직히 말해서 지난 몇 주간은 좀 별로였습니다. 그러다 월요일에 SenseNova의 Mixture of Transformers (MoT) 모델들을 우연히 발견했는데, 이 모델들은 다른 일반적인 이미지 생성 (image gen) 모델들과는 확실히 다른 종류인 것 같습니다.
몇 가지 모델을 직접 실행해 보았는데, 밀도 높은 인포그래픽 (infographics)을 생성하고 편집하는 측면에서 이 모델 시리즈가 저에게 깊은 인상을 주고 있다는 점을 말씀드려야겠네요.
인포그래픽 측면에서 Ideogram 4를 제외하고는 이 모델들이 만들어내는 결과물에 근접한 것을 본 적이 없습니다. Ideogram 4도 훌륭하지만, Ideogram의 라이선스는 별로인 반면 SenseNova는 Apache 2 라이선스이므로, 제 기준에서는 정면 승부를 했을 때 SenseNova가 우위에 있습니다.
물론, 최신 SenseNova-u1 버전 2가 아직 GGUF 형식으로 나오지 않았다는 점은 알고 있습니다만, 그건 문제가 되지 않습니다. 제가 했던 방식이자 여러분도 할 수 있는 방법은, 즐겨 사용하는 코딩 하네스 (coding harness)에게 "SenseNova 모델을 가져와서 FastAPI 래퍼 (wrapper)로 감싸고, 단일 Docker 컨테이너 내에서 OpenAI 호환 이미지 생성 엔드포인트 (endpoint) 및 이미지 편집 엔드포인트로 서빙해줘"라고 명령한 뒤 잠시 기다리는 것입니다. 그러면 짠, 바로 해결됩니다. 잠시 후면 여러분이 즐겨 사용하는 채팅 클라이언트에 이미지 생성기/편집기로 연결할 수 있는 이미지 생성 API 엔드포인트를 갖게 될 것입니다. 이렇게 하면 ComfyUI의 스파게티처럼 복잡해 보이는 인터페이스 같은 번거로운 과정을 건너뛸 수 있습니다. 저는 ComfyUI의 팬이었던 적이 없으며 앞으로도 없을 것 같습니다. 제 생각을 바꾸고 싶다면 해보세요.
원하신다면 시도해 볼 수 있는 여러 가지 버전의 SenseNova U1 모델들이 있습니다.
Infographic V2는 불과 이틀 전에 출시되었으며 50 Step 베이스 모델입니다. 참고로 이 모델은 거의 모든 이미지를 만들 수 있지만, 인포그래픽을 매우 잘 수행하도록 훈련되었습니다.
https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic-V2
Infographic V1 8 Step LORA는 저품질의 "플래시 (flash)" 유형 모델 병합 (merge)과 같아서 매우 빠르지만, 8 Step은 50 Step보다 적기 때문에 당연히 품질은 그만큼 낮습니다.
https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-LoRAs/blob/main/SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0.safetensors
Infographic V1 50 Step 베이스 모델도 사용 가능하지만, 고속 생성을 위해 8 Step LoRA와 함께 사용하려는 목적이 아니라면 더 이상 사용할 이유가 없습니다.
https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic
그들은 또한 최근에 매우 흥미로운 “Interleaved images (교차 이미지)” 모델을 출시했습니다.
https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Interleaved
Interleaved 버전은 일관된 캐릭터, 폰트, 색상 등을 유지하며 일련의 관련 이미지들을 생성할 수 있게 해줍니다. 활용 사례로는 일관된 테마를 가진 슬라이드 덱(slide decks) 제작, 동화책 제작 등이 있습니다. 여러 장의 이미지를 생성하는 것은 표준 OpenAI 호환 이미지 생성 엔드포인트(Image generator endpoint)가 아직 처리할 수 없는 기능이므로, Interleaved 버전을 서빙할 때는 다르게 처리해야 합니다. 즉, 단일 채팅 내에서 여러 이미지를 제공하기 위해 emitter events를 포함한 도구 파이프라인(tool pipeline)을 구축해야 합니다. 귀하의 하네스(harness)가 어떻게 설정해야 할지 알아서 찾아낼 것이라 확신합니다. 제 것은 그랬으니까요.
어쨌든 이 모델들이 흥미롭고 직접 실행해 보는 재미가 있다고 생각했습니다. 전체 bf16을 사용하려면 약 36GB의 VRAM이 필요하겠지만, 일부 양자화(quants) 모델과 다양한 GGUF 파일들도 이용 가능합니다. 제가 본 가장 작은 모델은 약 16GB 정도가 필요했습니다.
제출자: /u/Porespellar
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기