본문으로 건너뛰기

© 2026 Molayo

r/StableDiffusion분석2026. 05. 02. 11:00

Anima 를 위한 3 단계 올인원 LoRA 빌더 제작

요약

이 기술 기사는 Anima 모델을 위한 3단계 올인원 LoRA 빌더를 소개합니다. 이 도구는 사용자가 비디오와 캐릭터 참조 이미지를 제공하면, 먼저 YOLO 및 CCIP를 사용하여 배경 인물을 필터링하고 캐릭터별 클립(shots)을 추출합니다. 다음으로, 자동 태그화 기능(WD14 danbooru 태그 및 자연어 캡션)을 통해 이미지 데이터셋을 구축하며, 마지막 단계에서 Anima 전용 트레이너를 이용해 LoRA를 쉽게 훈련할 수 있습니다. 이 빌더는 기존의 복잡하고 분리된 워크플로우를 통합하여 사용 편의성을 극대화했으며, 특히 VRAM 요구 사항을 크게 낮춰 8GB VRAM 환경에서도 전체 프로세스를 실행할 수 있게 만든 것이 주요 특징입니다.

핵심 포인트

  • 비디오 기반 캐릭터 LoRA 제작 과정을 3단계로 자동화한 올인원 빌더 제공
  • YOLO 및 CCIP를 활용하여 비디오에서 배경 인물을 제거하고 순수 캐릭터 클립 추출
  • Gemma4와 같은 LLM을 이용해 이미지 데이터셋에 대한 자동 태그(danbooru, 자연어) 생성 기능 구현
  • Anima 전용 트레이너 통합으로 버튼 클릭만으로 LoRA 훈련 완료 (tdrussell/diffusion-pipe 사용)
  • VRAM 요구 사항 최적화로 전체 워크플로우를 8GB VRAM 환경에서 실행 가능하게 함

스크린샷을 잘라내고 태그 파일을 손으로 작성하는 것에서 지쳐서 이를 만들었습니다. 또한 더 많은 사람들이 Anima 로 전환하도록 독려하는 것도 좋을 것 같습니다. 솔직히 말하면요 :)

사용자가 비디오와 캐릭터의 참조 이미지를 제공하면 다음과 같은 작업을 수행합니다.

  1. 비디오를 샷 (shots) 으로 분할하고 YOLO 와 CCIP 를 실행하여 해당 캐릭터만의 자르기 (crops) 를 추출합니다. 프레임에 있는 다른 사람들은 필터링됩니다.
  2. 각 자르기를 WD14 danbooru 태그와 자연어 캡션으로 자동 태그화합니다 (저는 로컬에서 LMStudio 를 통해 Gemma4 31b 를 사용합니다). UI 는 태그로 검색하고, 인라인으로 피ل (pills) 을 편집하며, 정규식 (regex) 으로 대량 재명명하고, 다시 자르며, 불필요한 것을 삭제할 수 있습니다.
  3. LoRA 를 훈련시킵니다. 트레이너에 Anima 파라미터가 이미 연결되어 있으므로 버튼만 누르면 됩니다 (tdrussell/diffusion-pipe 사용).

추출기와 태그기는 모델과 무관합니다. 자르기는 SDXL 급 애니메이션 모델 (Pony, Illustrious, NoobAI, 평범한 SDXL) 에 적합한 크기로 나옵니다. 트레이너만 Anima 전용입니다.

4090 에서 20 분짜리 비디오를 프레임으로 추출하는 데 약 6 분이 걸립니다. 16 장의 이미지 데이터셋으로 LoRA 훈련에는 12 분이 소요되었습니다.

훈련 부분만 약 16GB 의 VRAM 이 필요하고, 나머지는 8GB 미만입니다 모든 단계가 이제 8GB VRAM 에서 실행 가능합니다.

첫 번째 이미지에 ComfyUI 워크플로우가 포함되어 있습니다.

저장소: https://github.com/negaga53/neme-anima (MIT)

AI 자동 생성 콘텐츠

본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
4

댓글

0