SenseNova-U1-8b-MoT-Infographic-V2 출시 - 인포그래픽 디자인 및 이미지 편집을 위한 오픈 소스 SOTA 모델 - Insights | Molayo

저도 여러분 대부분과 마찬가지로 꽤 냉소적입니다. 이제 새로운 모델들에 대해 딱히 흥분하지 않아요. 솔직히 말해서 지난 몇 주간은 좀 별로였습니다. 그러다 월요일에 SenseNova의 Mixture of Transformers (MoT) 모델들을 우연히 발견했는데, 이 모델들은 다른 일반적인 이미지 생성 (image gen) 모델들과는 확실히 다른 종류인 것 같습니다.

몇 가지 모델을 직접 실행해 보았는데, 밀도 높은 인포그래픽 (infographics)을 생성하고 편집하는 측면에서 이 모델 시리즈가 저에게 깊은 인상을 주고 있다는 점을 말씀드려야겠네요.

인포그래픽 측면에서 Ideogram 4를 제외하고는 이 모델들이 만들어내는 결과물에 근접한 것을 본 적이 없습니다. Ideogram 4도 훌륭하지만, Ideogram의 라이선스는 별로인 반면 SenseNova는 Apache 2 라이선스이므로, 제 기준에서는 정면 승부를 했을 때 SenseNova가 우위에 있습니다.

물론, 최신 SenseNova-u1 버전 2가 아직 GGUF 형식으로 나오지 않았다는 점은 알고 있습니다만, 그건 문제가 되지 않습니다. 제가 했던 방식이자 여러분도 할 수 있는 방법은, 즐겨 사용하는 코딩 하네스 (coding harness)에게 "SenseNova 모델을 가져와서 FastAPI 래퍼 (wrapper)로 감싸고, 단일 Docker 컨테이너 내에서 OpenAI 호환 이미지 생성 엔드포인트 (endpoint) 및 이미지 편집 엔드포인트로 서빙해줘"라고 명령한 뒤 잠시 기다리는 것입니다. 그러면 짠, 바로 해결됩니다. 잠시 후면 여러분이 즐겨 사용하는 채팅 클라이언트에 이미지 생성기/편집기로 연결할 수 있는 이미지 생성 API 엔드포인트를 갖게 될 것입니다. 이렇게 하면 ComfyUI의 스파게티처럼 복잡해 보이는 인터페이스 같은 번거로운 과정을 건너뛸 수 있습니다. 저는 ComfyUI의 팬이었던 적이 없으며 앞으로도 없을 것 같습니다. 제 생각을 바꾸고 싶다면 해보세요.

원하신다면 시도해 볼 수 있는 여러 가지 버전의 SenseNova U1 모델들이 있습니다.

Infographic V2는 불과 이틀 전에 출시되었으며 50 Step 베이스 모델입니다. 참고로 이 모델은 거의 모든 이미지를 만들 수 있지만, 인포그래픽을 매우 잘 수행하도록 훈련되었습니다.
https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic-V2

Infographic V1 8 Step LORA는 저품질의 "플래시 (flash)" 유형 모델 병합 (merge)과 같아서 매우 빠르지만, 8 Step은 50 Step보다 적기 때문에 당연히 품질은 그만큼 낮습니다.

https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-LoRAs/blob/main/SenseNova-U1-8B-MoT-Infographic-LoRA-8step-V1.0.safetensors
Infographic V1 50 Step 베이스 모델도 사용 가능하지만, 고속 생성을 위해 8 Step LoRA와 함께 사용하려는 목적이 아니라면 더 이상 사용할 이유가 없습니다.
https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Infographic
그들은 또한 최근에 매우 흥미로운 “Interleaved images (교차 이미지)” 모델을 출시했습니다.
https://huggingface.co/sensenova/SenseNova-U1-8B-MoT-Interleaved
Interleaved 버전은 일관된 캐릭터, 폰트, 색상 등을 유지하며 일련의 관련 이미지들을 생성할 수 있게 해줍니다. 활용 사례로는 일관된 테마를 가진 슬라이드 덱(slide decks) 제작, 동화책 제작 등이 있습니다. 여러 장의 이미지를 생성하는 것은 표준 OpenAI 호환 이미지 생성 엔드포인트(Image generator endpoint)가 아직 처리할 수 없는 기능이므로, Interleaved 버전을 서빙할 때는 다르게 처리해야 합니다. 즉, 단일 채팅 내에서 여러 이미지를 제공하기 위해 emitter events를 포함한 도구 파이프라인(tool pipeline)을 구축해야 합니다. 귀하의 하네스(harness)가 어떻게 설정해야 할지 알아서 찾아낼 것이라 확신합니다. 제 것은 그랬으니까요.
어쨌든 이 모델들이 흥미롭고 직접 실행해 보는 재미가 있다고 생각했습니다. 전체 bf16을 사용하려면 약 36GB의 VRAM이 필요하겠지만, 일부 양자화(quants) 모델과 다양한 GGUF 파일들도 이용 가능합니다. 제가 본 가장 작은 모델은 약 16GB 정도가 필요했습니다.
제출자: /u/Porespellar
[link] [comments]

Insights

SenseNova-U1-8b-MoT-Infographic-V2 출시 - 인포그래픽 디자인 및 이미지 편집을 위한 오픈 소스 SOTA 모델

요약

핵심 포인트

댓글

키워드 최적화를 멈추고 질문에 답하기를 시작하세요. 그것이 구매자가 선택하는 비즈니스가 되는 방법입니다.

딸(5세)을 위한 AI 과외 선생님 만들기 ④ - 부활한 Fable 5의 활용법을 고민하다

AI 엔지니어 로드맵: 기초부터 전문가까지 단계별 가이드

엔 캐리 트레이드(Yen Carry Trade)가 이번 7월 4일 미국 시장에 불꽃을 일으킬 수 있습니다. 트레이더가 알아야 할 사항은 다음과

딸(5세)을 위한 AI 과외 선생님 만들기 ④ - 부활한 Fable 5의 활용법을 고민하다

AI 엔지니어 로드맵: 기초부터 전문가까지 단계별 가이드

엔 캐리 트레이드(Yen Carry Trade)가 이번 7월 4일 미국 시장에 불꽃을 일으킬 수 있습니다. 트레이더가 알아야 할 사항은 다음과