【技术教程】Pixelle-Video：AI 全自动短视频生成引擎

Chandler_Song

934人浏览 · 2026-05-10 06:23:21

Chandler_Song · 2026-05-10 06:23:21 发布

Pixelle-Video：AI 全自动短视频生成引擎

一、产品概述

输入一个主题，Pixelle-Video 自动完成文案撰写、配图生成、语音合成、视频剪辑，全流程无需人工干预。

核心工作流：

输入主题 → LLM 生成脚本 → 生成配图提示词 → TTS 合成语音 → 生成图片 → 合成视频帧 → 拼接 + 加 BGM → 输出视频

二、核心功能

模块	说明
AI 写稿	支持通义千问 / GPT / DeepSeek 等主流 LLM
AI 配图	通过 ComfyUI（本地）或 RunningHub（云端）生成插图
AI 配音	支持 Edge-TTS / Index-TTS / Chat-TTS，支持声音克隆
视频模板	内置静态 / 图片 / 视频背景模板，支持竖屏、横屏、方形
背景音乐	内置 BGM，支持自定义音乐文件

三、适用场景

知识类短视频：历史、科学、财经、生活技巧等科普内容
批量内容生产：自媒体矩阵、电商产品视频、多平台分发
创意快速验证：低成本试水话题，无需剪辑技能
私有化部署：数据不出本地，完全本地运行

四、安装方式

方式一：Windows 一键整合包（推荐新手）

前往 GitHub Release 页面下载整合包
解压到任意文件夹
双击运行 start.bat
浏览器访问 http://localhost:8501
在「⚙️ 系统配置」中填入 LLM API Key，即可开始使用

整合包已内置所有依赖，无需安装 Python 或配置环境。

方式二：源码安装（适合 Mac / Linux / 进阶用户）

Step 0：安装前置依赖

安装 uv（Python 包管理器）：

参考 uv 官网按系统安装
验证：uv --version

安装 ffmpeg（视频处理工具）：

# macOS
brew install ffmpeg

# Ubuntu / Debian
sudo apt update && sudo apt install ffmpeg

# Windows：下载后将 bin 目录添加到系统 PATH

验证：ffmpeg -version

Step 1：克隆项目

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

Step 2：启动 Web 界面

uv run streamlit run web/app.py

浏览器访问 http://localhost:8501

五、Web 界面使用说明

界面分为左、中、右三栏，依次配置后点击生成。

左栏：内容输入

选项	说明
AI 生成内容	输入主题，由 LLM 自动写稿
固定文案内容	粘贴已有脚本，跳过 AI 写稿
分镜数	滑动条控制片段数量（每个分镜对应一张图 + 一段语音）
BGM	可选无 BGM、内置音乐或自定义 MP3/WAV 文件

中栏：语音 + 视觉设置

语音设置：

TTS 方案	特点
edge-tts	免费，开箱即用，需联网
index-tts	支持声音克隆，需上传参考音频
chat-tts	备选 TTS 方案

可上传本人录音作为参考音频，AI 克隆音色，适合个人 IP 打造
支持点击「预览语音」试听效果

视觉设置：

选项	说明
图像工作流	Selfhost（本地 ComfyUI，免费）或 RunningHub（云端，付费）
图像尺寸	默认 1024×1024，可调整
提示词前缀	控制配图风格，需用英文，支持预览
视频模板	按类型（静态 / 图片 / 视频背景）和尺寸（竖屏 / 横屏 / 方形）选择
自定义参数	可配置 `author`（作者名）、`brand`（品牌名）、`describe`（描述）

右栏：生成视频

配置完成后点击「🎬 生成视频」，实时显示进度：

生成文案 → 分镜 1/N 生成插图 → ... → 合成语音 → 合成视频

生成完成后自动预览，视频文件保存至 output/ 文件夹。

六、费用对比

方案	LLM	图像生成	费用	适合人群
完全免费	Ollama（本地）	ComfyUI（本地）	0 元	有 GPU、追求零成本
推荐方案	通义千问 API	ComfyUI（本地）	极低（几分钱/条）	性价比优先
云端方案	OpenAI / GPT	RunningHub	较高	不想折腾本地环境

七、完整示例

以生成「如何增加被动收入」短视频为例：

1. 配置 API（首次）

展开「⚙️ 系统配置」
选择通义千问，填入 API Key
配置本地 ComfyUI 地址（默认 http://127.0.0.1:8188），点击测试连接
保存配置

2. 内容输入

模式：AI 生成内容
主题：如何增加被动收入
分镜数：10
BGM：default.mp3

3. 语音设置

TTS：edge-tts
音色：男声-专业（云健）
语速：1.2x

4. 视觉设置

图像工作流：image_flux.json - Selfhost
图像尺寸：1024×1024
提示词前缀：Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style
视频模板：image_default.html（竖屏 1080×1920）
author：@Pixelle.AI，brand：Pixelle-Video

5. 点击生成，等待几分钟，右侧即显示完整视频。