
단 하나의 프롬프트로 완성하는 일관된 90초 애니메이션 초안 — 멀티샷, 프롬프트 릴레이 - 3060 12GB 카드에서 100% 로컬 실행
요약
단일 프롬프트로 일관된 애니메이션 초안을 생성하는 로컬 실행 가능한 멀티샷 파이프라인을 소개합니다. LLM 에이전트와 ComfyUI를 결합하여 사용자가 대화형으로 샷을 추가하거나 수정할 수 있는 오픈 소스 워크플로우를 제공합니다.
핵심 포인트
- 100% 로컬 및 오픈 소스로 실행 가능한 애니메이션 생성 파이프라인
- LLM 에이전트를 통한 대화형 샷 수정 및 추가 기능 지원
- ComfyUI 워크플로우와 연동하여 사용자 맞춤형 커스터마이징 가능
- Qwen 모델 등을 활용하여 저사양 GPU 환경에서도 구동 가능
영상이 보여주지 못하는 이 작업의 실제 내용에 대한 몇 가지 배경 설명을 드리겠습니다. 저는 로컬에서 멀티샷 (multi-shot) 작업을 할 때마다 똑같은 벽에 부딪히곤 했습니다. 이제 5~10초 정도의 좋은 클립 하나를 만드는 것은 쉽지만, 그 12개를 하나의 영화처럼 읽히도록 이어 붙이는 것은 매우 고된 작업입니다. 모든 사람이 그럴 인내심을 가진 것은 아닙니다. 그렇게 하는 분들에게 경의를 표합니다! 나머지 우리들에게는, 시간이 지나면 그저 샷(shot)들로 가득 찬 폴더를 보며 지쳐갈 뿐입니다. 요즘 사람들은 보통 한 줄짜리 아이디어로 시작하거나, 심지어 잘 짜인 일관된 줄거리 아이디어로 시작하기도 합니다. 그러고 나서 LLM (대규모 언어 모델)과 함께 이를 확장해 나갑니다. 저는 이 과정을 도입할 수 있다고 생각했습니다. 그래서 우리는 두 가지를 모두 할 수 있습니다. 당신의 줄거리 아이디어를 가져오거나 전체 이야기를 가져올 수 있습니다. 왜 이것을 사용해야 하냐고 물으신다면! 사실 몇 가지 이유가 있습니다... 이것은 100% 로컬이며 100% 오픈 소스입니다. 당신의 로컬 ComfyUI (또는 클라우드!) 및 당신의 LLM 제공업체와 함께 작동합니다. Github Repo URL: 엔진 및 데스크톱 앱. 실제로 파이프라인 (pipeline)을 알고 당신과 함께 작업하는 에이전트 (agent)가 있습니다. 새로운 샷을 추가하고 싶으신가요? 기존 샷을 수정하고 싶으신가요? 에이전트에게 물어보세요. 저는 개인적으로 Qwen 3.6 35BA3B를 사용했습니다. 충분한 양의 RAM (저는 64GB를 가지고 있습니다)이 있다면 대부분의 사용자 기기에 적합할 것입니다. 다른 모델들은 결과가 다를 수 있습니다 (YMMV). 완전히 커스터마이징 가능합니다. 당신만의 ComfyUI 워크플로우 (workflow)를 가져오세요!! 에이전트 / 데스크톱을 사용할 필요는 없습니다. Claude codex나 codex로 구동할 수도 있으니, 기술적인 부분은 엔진을 확인해 보세요!! 그리고 솔직한 차이점은, 일관성 (consistency)이 여전히 어긋난다는 점입니다. Ganesha의 디자인이 몇몇 샷 사이에서 약간 변하고, 물리 법칙 (physics)이 취약한 축입니다 — 망고가 무게감 없이 미끄러지듯 움직이고, 공작 깃털 하나가 떨어지는 대신 떠다닙니다. 저는 사람들이 올바른 기대치를 가질 수 있도록, 파이프라인에 의해 완전히 생성된 편집되지 않은 버전의 영상을 게시하고 싶었습니다. 다듬어진 버전이 아니라 말이죠. 그것이 에이전트가 존재하는 주요 이유입니다. 당신은 에이전트와 대화하여 그러한 편집을 수행할 수 있어야 합니다. 에이전트가 그 과정을 도와줄 것입니다. 에이전트, 모델 설정 또는 그 어떤 것에 대해서도 기꺼이 답변해 드리겠습니다. 스레드에서 기다리고 있겠습니다. submitted by /u/glusphere [link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기