r/StableDiffusion분석2026. 05. 02. 11:00

Anima 를 위한 3 단계 올인원 LoRA 빌더 제작

요약

이 기술 기사는 Anima 모델을 위한 3단계 올인원 LoRA 빌더를 소개합니다. 이 도구는 사용자가 비디오와 캐릭터 참조 이미지를 제공하면, 먼저 YOLO 및 CCIP를 사용하여 배경 인물을 필터링하고 캐릭터별 클립(shots)을 추출합니다. 다음으로, 자동 태그화 기능(WD14 danbooru 태그 및 자연어 캡션)을 통해 이미지 데이터셋을 구축하며, 마지막 단계에서 Anima 전용 트레이너를 이용해 LoRA를 쉽게 훈련할 수 있습니다. 이 빌더는 기존의 복잡하고 분리된 워크플로우를 통합하여 사용 편의성을 극대화했으며, 특히 VRAM 요구 사항을 크게 낮춰 8GB VRAM 환경에서도 전체 프로세스를 실행할 수 있게 만든 것이 주요 특징입니다.

핵심 포인트

비디오 기반 캐릭터 LoRA 제작 과정을 3단계로 자동화한 올인원 빌더 제공
YOLO 및 CCIP를 활용하여 비디오에서 배경 인물을 제거하고 순수 캐릭터 클립 추출
Gemma4와 같은 LLM을 이용해 이미지 데이터셋에 대한 자동 태그(danbooru, 자연어) 생성 기능 구현
Anima 전용 트레이너 통합으로 버튼 클릭만으로 LoRA 훈련 완료 (tdrussell/diffusion-pipe 사용)
VRAM 요구 사항 최적화로 전체 워크플로우를 8GB VRAM 환경에서 실행 가능하게 함

스크린샷을 잘라내고 태그 파일을 손으로 작성하는 것에서 지쳐서 이를 만들었습니다. 또한 더 많은 사람들이 Anima 로 전환하도록 독려하는 것도 좋을 것 같습니다. 솔직히 말하면요 :)

사용자가 비디오와 캐릭터의 참조 이미지를 제공하면 다음과 같은 작업을 수행합니다.

비디오를 샷 (shots) 으로 분할하고 YOLO 와 CCIP 를 실행하여 해당 캐릭터만의 자르기 (crops) 를 추출합니다. 프레임에 있는 다른 사람들은 필터링됩니다.
각 자르기를 WD14 danbooru 태그와 자연어 캡션으로 자동 태그화합니다 (저는 로컬에서 LMStudio 를 통해 Gemma4 31b 를 사용합니다). UI 는 태그로 검색하고, 인라인으로 피ل (pills) 을 편집하며, 정규식 (regex) 으로 대량 재명명하고, 다시 자르며, 불필요한 것을 삭제할 수 있습니다.
LoRA 를 훈련시킵니다. 트레이너에 Anima 파라미터가 이미 연결되어 있으므로 버튼만 누르면 됩니다 (tdrussell/diffusion-pipe 사용).

추출기와 태그기는 모델과 무관합니다. 자르기는 SDXL 급 애니메이션 모델 (Pony, Illustrious, NoobAI, 평범한 SDXL) 에 적합한 크기로 나옵니다. 트레이너만 Anima 전용입니다.

4090 에서 20 분짜리 비디오를 프레임으로 추출하는 데 약 6 분이 걸립니다. 16 장의 이미지 데이터셋으로 LoRA 훈련에는 12 분이 소요되었습니다.

~~훈련 부분만 약 16GB 의 VRAM 이 필요하고, 나머지는 8GB 미만입니다~~ 모든 단계가 이제 8GB VRAM 에서 실행 가능합니다.

첫 번째 이미지에 ComfyUI 워크플로우가 포함되어 있습니다.

저장소: https://github.com/negaga53/neme-anima (MIT)

AI 자동 생성 콘텐츠

원문 바로가기

Anima 를 위한 3 단계 올인원 LoRA 빌더 제작

요약

핵심 포인트

댓글