AIDC-AI/Pixelle-Video

English | 中文

Pixelle_video.mp4

只需输入一个主题，Pixelle-Video 就能自动完成：

✍️ 撰写视频文案
🎨 生成 AI 配图/视频
🗣️ 合成语音解说
🎵 添加背景音乐
🎬 一键合成视频

零门槛，零剪辑经验，让视频创作成为一句话的事！

✅
2026-01-26: 新增「动作迁移」模块，上传参考视频和图片进行动作迁移 - ✅
2026-01-14: 新增「数字人口播」和「图生视频」流水线，新增多语言 TTS 音色支持 - ✅
2026-01-06: 新增 RunningHub 48G 显存机器调用支持 - ✅
2025-12-28: 支持 RunningHub 并发限制可配置，优化 LLM 返回结构化数据的逻辑 - ✅
2025-12-17: 支持 ComfyUI API Key 配置，支持 Nano Banana 模型调用，API 接口支持模板自定义参数 - ✅
2025-12-10: 侧边栏内置 FAQ，锁定 edge-tts 版本修复 TTS 服务不稳定问题 - ✅
2025-12-08: 支持固定脚本多种分割方式 (段落/行/句子)，优化模板选择交互逻辑支持直接预览选择 - ✅
2025-12-06: 修复视频生成 API 返回 URL 路径处理，支持跨平台兼容 - ✅
2025-12-05: 新增 Windows 整合包下载，优化图片与视频反推工作流 - ✅
2025-12-04: 新增「自定义素材」功能，支持用户上传自己的照片和视频，AI 智能分析生成脚本 - ✅
2025-11-18: 优化 RunningHub 服务调用支持并行处理，新增历史记录页面，支持批量创建视频任务
✅
全自动生成- 输入主题，自动生成完整视频 - ✅
AI 智能文案- 根据主题智能创作解说词，无需自己写脚本 - ✅
AI 生成配图- 每句话都配上精美的 AI 插图 - ✅
AI 生成视频- 支持使用 AI 视频生成模型（如 WAN 2.1）创建动态视频内容 - ✅
AI 生成语音- 支持 Edge-TTS、Index-TTS 等众多主流 TTS 方案 - ✅
背景音乐- 支持添加 BGM，让视频更有氛围 - ✅
视觉风格- 多种模板可选，打造独特视频风格 - ✅
灵活尺寸- 支持竖屏、横屏等多种视频尺寸 - ✅
多种 AI 模型- 支持 GPT、通义千问、DeepSeek、Ollama 等 - ✅
原子能力灵活组合- 基于 ComfyUI 架构，可使用预置工作流，也可自定义任意能力（如替换生图模型为 FLUX、替换 TTS 为 ChatTTS 等）

Pixelle-Video 采用模块化设计，整个视频生成流程清晰简洁：

从输入文本到最终视频输出，整个流程简洁清晰：文案生成 → 配图规划 → 逐帧处理 → 视频合成

每个环节都支持灵活定制，可选择不同的 AI 模型、音频引擎、视觉风格等，满足个性化创作需求。

以下是使用 Pixelle-Video 生成的实际案例，展示了不同主题和风格的视频效果：

video1.mp4

video2.mp4

video3.mp4

default1.mp4

default2.mp4

default3.mp4

default.mp4

💡

提示：这些视频都是通过输入一个主题关键词，由 AI 全自动生成的，无需任何视频剪辑经验！

无需安装 Python、uv 或 ffmpeg，一键开箱即用！

下载最新的 Windows 一键整合包并解压
双击运行
start.bat

启动 Web 界面 - 浏览器会自动打开 http://localhost:8501

在「⚙️ 系统配置」中配置 LLM API 和图像生成服务
开始生成视频！

💡

提示：整合包已包含所有依赖，无需手动安装任何环境。首次使用只需配置 API 密钥即可。

在开始之前，需要先安装 Python 包管理器 uv

和视频处理工具 ffmpeg

：

请访问 uv 官方文档查看适合你系统的安装方法：

👉 uv 安装指南

安装完成后，在终端中运行 uv --version

验证安装成功。

macOS

brew install ffmpeg

Ubuntu / Debian

sudo apt update
sudo apt install ffmpeg

Windows

下载地址：https://ffmpeg.org/download.html
下载后解压，将
bin

目录添加到系统环境变量 PATH 中

安装完成后，在终端中运行 ffmpeg -version

验证安装成功。

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

# 使用 uv 运行（推荐，会自动安装依赖）
uv run streamlit run web/app.py

浏览器会自动打开 http://localhost:8501

首次使用时，展开「⚙️ 系统配置」面板，填写：

LLM 설정: AI 모델 (예: Tongyi Qianwen, GPT 등) 을 선택하고 API Key 를 입력합니다.

이미지 설정: 이미지를 생성할 경우 ComfyUI 주소 또는 RunningHub API Key 를 설정합니다.

설정 후「설정 저장」을 클릭하면 비디오 생성이 시작됩니다!

웹 인터페이스를 열면 세 개의 열로 구성된 레이아웃을 보게 되며, 각 부분을 아래에서 자세히 설명하겠습니다:

첫 번째 사용 시에는 설정이 필요하며「⚙️ 시스템 설정」패널을 펼치세요:

비디오 스크립트를 생성하는 AI 입니다.

빠른 선택 (예제)

예제 모델을 선택하세요 (Tongyi Qianwen, GPT-4o, DeepSeek 등)
선택하면 base_url 과 model 이 자동으로 채워집니다
-「🔑 API Key 획득」링크를 클릭하여 등록하고 키를 받으세요

수동 설정

API Key: 키 입력
Base URL: API 주소
Model: 모델 이름

비디오 이미지 생성을 위한 AI 입니다.

로컬 배포 (추천)

ComfyUI URL: 로컬 ComfyUI 서비스 주소 (기본값 http://127.0.0.1:8188)
-「연결 테스트」를 클릭하여 서비스를 사용 가능 여부를 확인하세요

클라우드 배포

RunningHub API Key: 클라우드 이미지 생성 서비스 키

설정을 완료한 후「설정 저장」을 클릭합니다.

AI 생성 콘텐츠: 주제 입력, AI 가 자동으로 스크립트 작성 - 적합: 빠른 비디오 생성, AI 에게 글쓰기 요청

예:「왜 읽는 습관을 기르려는지」

고정 스크립트: 전체 스크립트를 직접 입력하고 AI 작성을 건너뜀 - 적합: 이미 스크립트가 있는 경우, 바로 비디오 생성

BGM 없음: 순수 목소리 해설내장 음악: 예제 배경음악 선택 (예: default.mp3)커스텀 음악: MP3/WAV 등의 음악 파일을bgm/폴더에 배치 -「BGM 미리 듣기」를 클릭하여 음악을 미리 들을 수 있습니다

TTS 워크플로우 (Edge-TTS, Index-TTS 등 지원) 를 선택하세요
시스템은workflows/폴더의 TTS 워크플로우를 자동으로 스캔합니다
ComfyUI 를 이해한다면 커스텀 TTS 워크플로우를 설정할 수 있습니다
목소리 클로닝을 위한 참조 오디오 파일 업로드 (MP3/WAV/FLAC 등 형식 지원)
목소리 클로닝을 지원하는 TTS 워크플로우 (예: Index-TTS) 에 적합합니다
업로드 후 바로 미리 들을 수 있습니다
테스트 텍스트 입력하고「음성 미리 듣기」를 클릭하여 효과를 미리 들을 수 있습니다
참조 오디오를 사용하여 미리 들을 수 있습니다

AI 가 생성할 이미지 스타일을 결정합니다.

ComfyUI 워크플로우

이미지 생성 워크플로우를 선택하세요
로컬 배포 (selfhost) 와 클라우드 (RunningHub) 워크플로우 지원
기본값image_flux.json
ComfyUI 를 이해한다면 커스텀 워크플로우를workflows/폴더에 배치할 수 있습니다

이미지 크기

생성 이미지의 너비와 높이를 설정합니다 (단위: 픽셀)
기본값 1024x1024, 필요 시 조정 가능
주의: 다른 모델은 크기에 대해 제한이 다릅니다

프롬프트 접두사 (Prompt Prefix)

이미지의 전체 스타일을 제어합니다 (언어는 영어여야 함)
예: Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style
-「스타일 미리 듣기」를 클릭하여 효과를 테스트할 수 있습니다

비디오 화면의 레이아웃과 디자인을 결정합니다.

템플릿 명명 규칙

static_*.html
: 정적 템플릿 (AI 미디어 생성 불필요, 순수 텍스트 스타일)
image_*.html
: 이미지 템플릿 (AI 생성 이미지를 배경으로 사용)
video_*.html
: 비디오 템플릿 (AI 생성 비디오를 배경으로 사용)

사용 방법

템플릿을 선택하고 크기에 따라 그룹화하여 표시합니다 (세로/가로/정방형)
-「템플릿 미리 보기」를 클릭하여 커스텀 파라미터 테스트할 수 있습니다
HTML 을 이해한다면 커스텀 템플릿을templates/폴더에 생성할 수 있습니다 - 🔗 모든 템플릿 예시 보기
모든 파라미터 설정 후「🎬 비디오 생성」을 클릭합니다
실시간 진행 상황 표시 (스크립트 생성 → 이미지 생성 → 음성 합성 → 비디오 합성)
생성 완료 시 자동 비디오 미리보기 표시
현재 단계 실시간 표시
예:「분장 3/5 - 일러스트레이션 생성」
생성 완료 시 자동 재생
비디오 길이, 파일 크기, 분장 수 등의 정보 표시
비디오 파일은output/폴더에 저장됩니다

Q: 첫 번째 사용 시 얼마나 걸리나요？

A: 생성 시간은 비디오 분장 수, 네트워크 상태 및 AI 추론 속도에 따라 달라지며, 보통 몇 분 이내에 완료됩니다.

Q: 비디오 효과가 만족스럽지 않다면?

A: 시도해 볼 수 있습니다:

LLM 모델 변경 (다른 모델은 다른 스타일의 스크립트)
이미지 크기와 프롬프트 접두사 조정 (이미지 스타일 변경)
TTS 워크플로우 변경 또는 참조 오디오 업로드 (음성 효과 변경)
다른 비디오 템플릿과 크기 시도

Q: 비용은 얼마나 되나요？

A: 이 프로젝트는 완전 무료 실행을 지원합니다!

완전 무료 솔루션: LLM 은 Ollama 로컬 실행 + ComfyUI 로컬 배포 = 0 원
추천 솔루션: LLM 은 Tongyi Qianwen 사용 (비용 매우 낮음, 가성비 좋음) + ComfyUI 로컬 배포
클라우드 솔루션: LLM 은 OpenAI 사용 + 이미지 RunningHub 사용 (비용 높지만 로컬 환경 불필요)

선택 제안: 로컬에 그래픽 카드가 있다면 완전 무료 솔루션을 완전히 추천합니다. 그렇지 않으면 Tongyi Qianwen 을 권장합니다 (가성비 좋음)

Pixelle-Video 의 디자인은 다음과 같은 우수한 오픈소스 프로젝트에서 영감을 받았습니다:

Pixelle-MCP - ComfyUI MCP 서버, AI 어시스턴트가 직접 ComfyUI 를 호출하게 함
MoneyPrinterTurbo - 훌륭한 비디오 생성 도구
NarratoAI - 영화 해설 자동화 도구
MoneyPrinterPlus - 비디오 창작 플랫폼
ComfyKit - ComfyUI 워크플로우 캡슐라이브러리

이 프로젝트들의 오픈소스 정신에 감사드립니다!🙏

코드를 스캔하여 커뮤니티를 가입하고 최신 동향과 기술 지원을 받으세요:

WeChat 그룹	디스코드 커뮤니티

🐛
문제 발생: 이슈 제출 - 💡
기능 제안: 기능 요청 제출 - ⭐
스타 주사: 이 프로젝트가 도움이 된다면, 스타를 주시해 주세요!

이 프로젝트는 Apache 2.0 라이선스를 사용하며, 자세한 내용은 LICENSE 파일을 확인하세요.

Insights

AIDC-AI/Pixelle-Video

요약

핵심 포인트

Pixelle_video.mp4

video1.mp4

video2.mp4

video3.mp4

default1.mp4

default2.mp4

default3.mp4

default.mp4

default.mp4

default.mp4

default.mp4

default.mp4

default.mp4

default.mp4

default.mp4

댓글

André Dias Moreira Prol 설명: Fine-tuning vs RAG, 무엇을 선택해야 하는가

사서들이 이제 사람들에게 AI를 피하는 방법을 가르치고 있습니다

Google이 AI 지출 전망을 다시 상향함에 따라 지금 매수해야 할 주식 2가지

RecGPT-V3 기술 보고서 (Technical Report)

André Dias Moreira Prol 설명: Fine-tuning vs RAG, 무엇을 선택해야 하는가

사서들이 이제 사람들에게 AI를 피하는 방법을 가르치고 있습니다

Google이 AI 지출 전망을 다시 상향함에 따라 지금 매수해야 할 주식 2가지

RecGPT-V3 기술 보고서 (Technical Report)