© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

r/StableDiffusion 24건필터 해제

r/StableDiffusion분석

Zit/Base 의 최대 잠재력을 보여드립니다

본 기사는 ZIT/Base 모델이 현재 리얼리즘 측면에서 경쟁 모델들을 압도하는 우위를 가지고 있음을 주장합니다. 저자는 특정 비교를 피하고 결론부터 제시하며, Zit의 최대 성능을 보여주기 위해 원본 모델(LoRA 미사용), 단일 고해상도 업스케일링 방식 등 엄격한 조건을 설정하여 테스트 결과를 공개했습니다. 이는 ZIT/B가 가진 극한의 잠재력을 과시하는 데 초점을 맞추고 있습니다.

zit-baseimage-generationrealismai-modelsgenerative-ai

r/StableDiffusion분석

FLUX.2 Klein Identity Feature Transfer V3 (최종판)

FLUX.2 Klein Identity Feature Transfer V3는 기존 아이덴티티 트랜스퍼 노드의 사용성을 대폭 개선한 버전으로, 복잡한 내부 구조를 알 필요 없이 누구나 쉽게 사용할 수 있도록 설계되었습니다. 주요 업데이트 사항은 '커밋 시스템(commit system)' 도입으로, 전체 평균화 대신 각 생성 토큰마다 최적의 참조 매칭을 찾아 안정적으로 잠근 후 가벼운 앵커를 유지하여 아이덴티티 보존의 정확도를 높였습니다. 사용자는 프리셋 기반의 간편한 제어 방식과 더불어, 고급 사용자들을 위한 세밀한 블록 및 커밋 관련 파라미터(예: `double_schedule`, `commit_anchor`)를 제공받을 수 있습니다.

flux2identity-transfercomfyui

r/StableDiffusion분석

Flux.2 Klein 9B 및 4B Scribbly Doodle LoRA

이 기술 기사는 인기 있는 드로잉 및 스크리블 스타일을 Flux.2 Klein 9B 및 4B 모델에 적용한 LoRA(Low-Rank Adaptation)를 소개합니다. 이 LoRA는 세 가지 버전으로 제공되며, 각 버전은 특정 드로잉 스타일이나 성능 특화 영역에 초점을 맞추고 있습니다.

loraimage-generationflux.2

r/StableDiffusion분석

Some Longcat-Image-Edit 샘플: 제한적이지만 매우 유용한 모델

본 기술 기사는 'Longcat-Image-Edit'이라는 이미지 편집 모델의 샘플과 평가를 담고 있습니다. 이 모델은 단순 인페인팅부터 참조 이미지를 활용한 고급 편집까지 시연하며, 특히 얼굴 참조 처리 능력에서 높은 잠재력을 보여줍니다. 다만 ControlNet 부재와 다중 참조 이미지 처리의 어려움 등 몇 가지 한계점을 가지고 있어 사용 범위가 제한적일 수 있습니다.

image-editinginpaintingface-reference

r/StableDiffusion분석

현실감이 너무 과해지고 있습니다

최근 AI 이미지 생성 기술(특히 ZIT 모델)의 발전 속도가 매우 빨라져, 이미지가 현실과 구별하기 어려울 정도로 정교해지고 있습니다. 필자는 이러한 기술적 진보가 악용될 가능성에 대해 경고하며, 특히 노년층 등 취약 계층을 표적으로 삼는 방식으로 사용될 수 있음을 지적합니다.

ai-artimage-generationzit-model

r/StableDiffusion분석

Sulphur 2 와 LTX 2.3 10Eros 출시! 그리고 그 성능은 놀라워요

Sulphur-2와 LTX 2.3 10Eros라는 두 가지 새로운 모델이 출시되었습니다. 이 모델들은 특히 과학적 워크플로우(scientific workflows) 분야에서 기존의 WAN 모델들을 능가하는 성능을 보여줍니다. Sulphur-2는 이미지 투 비디오(I2V) 및 텍스트 투 비디오(T2V) 기능을 모두 지원하며, LTX 2.3 10Eros는 I2V 작업에 특화되어 있어 매우 뛰어난 결과물을 제공합니다.

aivideo-generationdiffusion-models

r/StableDiffusion분석

LCIET (LongCat Image Edit Turbo) - 경량화되고 강력한 편집 모델

LongCat Image Edit Turbo는 매우 경량화되었음에도 불구하고 강력한 성능을 제공하는 이미지 편집 모델입니다. 이 모델은 빠른 실행 속도를 자랑하며, 사용자는 일반적인 CLIPTextEncode 대신 TextEncodeQwenImageEdit를 사용하여 워크플로우의 효율성을 높일 수 있습니다. 필요한 경우 UNet만 다운로드하여 QKM5 기준 약 4.7GB 크기로 쉽게 시작할 수 있도록 최적화되었습니다.

image-editingllmdiffusion-models

r/StableDiffusion분석

LTX 2.3 LoRA 로더 오디오/비주얼 분리기

LTX 2.3 LoRA 로더는 오디오-비주얼 모델인 LTX-2.3의 강력한 기능을 확장하는 도구입니다. 이 로더는 비디오 생성과 오디오 생성을 담당하는 두 개의 독립적인 가지(비디오 가지, 오디오 가지)를 분리하여 각 LoRA가 시각적 요소와 청각적 요소에 미치는 영향을 개별적으로 스케일링할 수 있게 합니다. 이를 통해 사용자는 특정 로라를 비디오 전용 또는 오디오 전용으로 제어하며, 보다 정교하고 세밀한 콘텐츠 생성이 가능해집니다.

ltx-2.3loraaudio-visual

r/StableDiffusion분석

ComfyUI용 빠르고 깨끗한 얼굴 교체 워크플로우 (FLUX + InsightFace) — 바로 사용 가능

이 기술 기사는 ComfyUI 환경에서 빠르고 고품질의 얼굴 교체(Face Swapping) 워크플로우를 제공합니다. 이 커스텀 노드는 소스와 타겟 이미지로부터 깨끗한 얼굴 크롭과 마스크를 추출하며, InsightFace와 FLUX 모델을 활용하여 일관성 있고 현실적인 결과를 얻도록 설계되었습니다. 후처리 및 비율 헬퍼 기능이 포함되어 있어 사용자가 즉시 최고 수준의 결과물을 만들 수 있습니다.

comfyuiface-swappingai-art

r/StableDiffusion분석

Anima 를 위한 3 단계 올인원 LoRA 빌더 제작

이 기술 기사는 Anima 모델을 위한 3단계 올인원 LoRA 빌더를 소개합니다. 이 도구는 사용자가 비디오와 캐릭터 참조 이미지를 제공하면, 먼저 YOLO 및 CCIP를 사용하여 배경 인물을 필터링하고 캐릭터별 클립(shots)을 추출합니다. 다음으로, 자동 태그화 기능(WD14 danbooru 태그 및 자연어 캡션)을 통해 이미지 데이터셋을 구축하며, 마지막 단계에서 Anima 전용 트레이너를 이용해 LoRA를 쉽게 훈련할 수 있습니다. 이 빌더는 기존의 복잡하고 분리된 워크플로우를 통합하여 사용 편의성을 극대화했으며, 특히 VRAM 요구 사항을 크게 낮춰 8GB VRAM 환경에서도 전체 프로세스를 실행할 수 있게 만든 것이 주요 특징입니다.

lora-builderanimavideo-processing

r/StableDiffusion분석

LTX 2.3 IC LoRA 가 동원된 고전 영화 클립 리마스터링

이 기술 기사는 LTX 2.3 IC LoRA를 활용하여 고전 영화 클립을 리마스터링하는 과정을 설명합니다. 이 프로세스는 컬러화(Colorizer), 아웃페인팅(Outpaint), 디테일 향상(Detailer)의 세 단계로 구성되며, 특히 Wan2GP 플러그인을 사용하여 낮은 VRAM 환경에서도 전체 영상을 처리할 수 있는 효율성을 보여줍니다. 결과물은 원본 클립에 생기를 불어넣는 효과적인 방법으로, 오래된 홈 비디오나 VHS 테이프 복원에 유용합니다.

video-restorationloraic-lora

r/StableDiffusion분석

LivePortrait 표현 스왑 노트북 — 무료 Colab, InsightFace 대신 MediaPipe 사용, MIT 라이선스

이 기술 기사는 LivePortrait를 활용하여 표정 복제(Expression Swap) 기능을 구현한 Colab 노트북을 소개합니다. 이 노트북은 단일 얼굴과 임의의 표정을 포함하는 소스 이미지와, 표정이 변경되어야 하는 타겟 이미지를 입력받아 신분을 유지하면서 표정을 전달할 수 있습니다. 특히, 기존 LivePortrait가 사용하던 InsightFace 대신 MediaPipe를 사용하여 전체 파이프라인을 MIT 및 Apache 2.0 라이선스로 구성함으로써 상업적 활용성을 높였습니다. 이 노트북은 무료 Colab T4 GPU 환경에서 실행 가능하며, 슬라이더 조절을 통해 표정 및 머리 회전 블렌딩 기능을 제공합니다.

liveportraitexpression-swapmedia-pipe

r/StableDiffusion분석

놓치기 쉬운 로컬 AI 뉴스 - 2026 년 4 월

이 기사는 2026년 4월에 공개된 다양한 로컬 구동형 대규모 언어 모델(LLMs)들을 소개하며, 사용자들이 놓치기 쉬운 최신 AI 트렌드를 정리합니다. 주요 모델들은 코딩 자동화, 문체 모방, 민감 데이터 보호 등 특정 전문 분야에 특화되어 있으며, Mac 환경 최적화나 거대한 컨텍스트 창 지원을 통해 로컬 환경에서의 AI 성능과 활용도를 극대화하는 방향으로 발전하고 있습니다. 다양한 크기와 아키텍처를 가진 모델들이 등장함에 따라, 사용자는 자신의 하드웨어 사양과 원하는 전문 작업(예: 수학 추론, 코딩, 텍스트 생성)에 맞는 최적의 로컬 AI 솔루션을 선택할 수 있게 되었습니다.

llmslocal-aihuggingface

r/StableDiffusion분석

Load Audio UI - Trimming 기능이 추가된 Load Audio Node 업그레이드

기존 Load Audio 노드의 불편함을 개선한 업그레이드 버전의 'Load Audio' 노드가 출시되었습니다. 이 새로운 노드는 오디오 트리밍(자르기) 기능을 추가하여 사용자가 오디오 파일을 더 쉽고 효율적으로 다룰 수 있게 합니다. 또한, 기존 노드의 단점이었던 비디오 드래그 앤 드롭 지원 불가 등의 문제도 해결했습니다.

audio-processingcomfyuinode-upgrade

r/StableDiffusion분석

AI Toolkit 에서 강화학습 구현

이 기술 기사는 AI Toolkit에 강화학습(Reinforcement Learning) 기능을 구현한 내용을 다루고 있습니다. 이 기능은 기존의 LoRA 방식보다 발전하여, 참조 없이도 모델 출력을 직접 제어하거나 기존 LoRA를 미세 조정할 수 있게 합니다. 특히 보상 메커니즘이 순위 기반에서 이진(binary) 방식으로 변경되었으며, Flow-GRPO 작업을 위한 새로운 인터페이스가 추가되었습니다.

reinforcement-learningai-toolkitlora

r/StableDiffusion분석

멀티 인젝션 (Multi Injection) 개발 진행 중

개발자는 기존의 아이덴티티 트랜스퍼 노드보다 향상된 버전을 개발하고 있으며, 이 새로운 버전은 타겟 블록의 여러 단계(stages)에 걸쳐 참조 이미지를 주입하는 방식으로 작동합니다. 현재 중반부와 후반부 인젝션을 실험하며 높은 안정성과 유연성을 확보하는 데 집중하고 있습니다. 완성되면 플러그 앤 플레이 프리셋을 포함하여 노드를 출시할 계획입니다.

identity-transferimage-injectionnode-development

r/StableDiffusion분석

PixlStash 1.1.0 이제 출시되었습니다!

PixlStash 1.1.0 버전이 출시되어 이미지 컬렉션 관리 기능을 대폭 강화했습니다. 이 업데이트의 핵심은 사용자가 수동으로 정리한 '참조 폴더'를 지원하여, 기존의 조직화된 이미지를 색인화하고 태그할 수 있게 한 것입니다. 또한, 통계 사이드바, 다중 선택 뷰(합집합/교집합 등), 그리고 동기화 기능 추가 등 다양한 고급 기능을 제공합니다.

image-managementopen-sourceai-tools

r/StableDiffusion분석

SenseNova-U1 출시 — 단일 모델 내 네이티브 멀티모달 생성/이해, VAE 및 확산 모델 없음

SenseNova-U1은 네이티브 멀티모달 기능을 갖춘 새로운 모델로, 기존의 VAE나 확산 모델들이 겪던 한계를 극복했습니다. 이 모델은 이미지 내 텍스트를 정확하게 렌더링하고, 인포그래픽이나 고밀도 시각적 출력을 처리하는 데 탁월합니다. 또한, 단순한 편집을 넘어 의미론적 콘텐츠를 이해하며 이미지를 수정하거나, 텍스트와 이미지가 자연스럽게 교차하는 일관된 생성을 가능하게 합니다.

multimodalimage-generationtext-rendering

r/StableDiffusion분석

Z-Anime - Z-Image Base 기반 풀 애니메이션 파인튜닝

Z-Anime는 알리바바의 Z-Image Base 아키텍처를 기반으로 구축된 풀 파인튜닝(full fine-tune) 모델입니다. 이는 단순 LoRA 병합이 아닌, 애니메이션 스타일 생성에 특화된 독립적인 모델 패밀리입니다. S3-DiT (Single-Stream Diffusion Transformer, 6B parameters) 구조를 채택하여 Z-Image Base의 강력한 장점들(다양성, 제어 가능성, 부정 프롬프트 지원 등)을 유지하면서 애니메이션 스타일 생성에 최적화되었습니다.

z-animeimage-generationanimation

r/StableDiffusion분석

Z-image 에 여전히 빠져있습니다

이 기술 기사는 Stable Diffusion과 같은 이미지 생성 모델에서 'Z-Image'라는 특정 구성 요소가 여전히 중요한 역할을 하고 있음을 보여줍니다. 다양한 VAE, 업스케일러(Upscaler) 및 Diffusers 로더 커스텀 노드(ComfyUI-Zlycoris)를 조합하여 고품질의 이미지를 생성하는 구체적인 워크플로우와 사용된 모델들을 소개하고 있습니다.

stable-diffusionimage-generationvae

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.