책 읽기, 인물 식별 및 일관된 포트로 생성: ComfyUI 를 활용한 캐릭터 포trait 생성기 (완전 RAG 파이프라인, 로컬 LLM
요약
이 프로젝트는 로컬 ComfyUI와 LLM을 활용하여 문학 작품의 텍스트 기반 인물을 영화적 포트레이트로 자동 생성하는 종합적인 AI 파이프라인입니다. 책 분석, 위키백과 크롤링, 심층 RAG를 통해 캐릭터의 외모, 의상, 환경에 대한 맥락을 이해하고, 이를 바탕으로 배우 제안 및 장르 적응 기능을 거쳐 일관된 고품질 이미지를 생성합니다. 모든 과정이 오픈소스이며 로컬에서 완전히 실행되어 높은 접근성과 개인 정보 보호 수준을 제공합니다.
핵심 포인트
- 텍스트 소설 기반의 캐릭터 포트레이트를 자동 생성하는 완전한 RAG 파이프라인을 구축했습니다.
- 책 분석(ChromaDB)과 위키백과 크롤링을 결합하여 인물의 외모, 배경 등 풍부하고 일관된 맥락 정보를 확보합니다.
- AI 캐스팅 디렉터 기능으로 실제 배우를 제안하고, 장르에 맞춰 의상 및 스타일을 동적으로 조정하여 시각적 일관성을 유지합니다.
- FastAPI 백엔드와 React 프론트엔드를 통해 ComfyUI API 워크플로우에 직접 통합되어 사용자 친화적인 로컬 환경에서 작동합니다.
안녕하세요 여러분,
이미지 쇼케이스 - 책 <드라큘라> 의 인물을 바탕으로 도구에서 생성된 미나 머레이의 포트로. 두 개의 별도 장면에서 이미지들. ZImageTurbo 에서 제공.
저는 여기 커뮤니티가 정말 좋아할 것 같은 사이드 프로젝트를 작업하고 있습니다. 이는 로컬 ComfyUI 인스턴스를 활용하여 문학작품을 사용하여 영화적 캐릭터 포트로 자동 생성하는 종합적인 AI 기반 파이프라인입니다. 전체 스택은 오픈소스이며 완전히 로컬에서 실행됩니다.
이 것이 무엇을 하는가:
단순한 .txt 파일의 소설에서 시작하여, 앱은:
- 책 분석: ChromaDB 와 HuggingFace 임베딩을 사용하여 전체 텍스트의 고성능 벡터 인덱스를 구축합니다.
- 위키백과 보강: 책 분석이 시작되기 전에 주요 인물과 기본적 퍼소나를 식별하기 위해 위키백과를 크롤링합니다.
- 심층 RAG 분석: 책에서 특정 장면을 검색하여 인물의 외모, 옷차림 및 환경의 다양한 맥락에 대한 이해를 돕습니다.
- AI 캐스팅 디렉터: 캐릭터의 시각적 '베이스'로 실제 세계의 배우 (홀리우드, 보알리우드 등) 를 제안하며, 특정 시대대를 지원합니다.
- 장르 적응: 장르 (호러, 사이버펑크, 판타지 등) 에 맞춰 옷차림, 헤어스타일 및 영화적 스타일을 동적으로 수정하면서 인물의 핵심 정체성을 보존합니다.
- ComfyUI 통합: 생성된 프롬프트를 ComfyUI API 형식의 워크플로우에 직접 주입하고, Server-Sent Events 를 통해 생성 진행 상황을 추적하며 이미지를 즉시 미리보기를 제공합니다.
기술 하이라이트:
- 백엔드: Python 3.10+, FastAPI, LangChain.
- 임베딩 모델: HuggingFace 의 all-MiniLM-L6-v2.
- LLM: Ollama 에서 실행 (로컬 처리의 기본값은 Gemma4E4B).
- 프론트엔드: React 와 Vite 로 구축된 세련된 다크 글래스모피즘 대시보드.
시작하기:
설정은 매우 간단하며, 로컬 ComfyUI 서버와 Ollama 가 실행 중이라고 가정합니다. 프로젝트 페이지에는 백엔드와 프론트엔드를 쉽게 시작하는 배치 스크립트가 포함되어 있습니다.
이 것이 왜 중요한가:
AI 생성 일관된 인물의 폭발적인 관심으로 인해, 이 도구는 텍스트 기반 인물 설명을 자동으로 추출하고 시각적 표현에 그라운딩하는 독특한 틈새 시장을 해결합니다. 수동 프롬프트 엔지니어링 없이 RAG, LLMs, Stable Diffusion 을 하나의 사용자 친화적 파이프라인에서 결합합니다.
저의 피드백과 개선을 위한 아이디어를 얻고 싶습니다! 질문이 있으면 알려주세요.
모든 프로젝트 코드는 Google AntiGravity 로 작성되었습니다. 이 게시물은 DeepSeek 으로 작성되었습니다.
- GitHub: https://github.com/snorcack/CharacterGeneration
- 라이선스: MIT
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기