Pixelle-Video:AI 全自动短视频生成引擎

一、产品概述

输入一个主题,Pixelle-Video 自动完成文案撰写、配图生成、语音合成、视频剪辑,全流程无需人工干预。

核心工作流:

输入主题 → LLM 生成脚本 → 生成配图提示词 → TTS 合成语音 → 生成图片 → 合成视频帧 → 拼接 + 加 BGM → 输出视频

二、核心功能

模块 说明
AI 写稿 支持通义千问 / GPT / DeepSeek 等主流 LLM
AI 配图 通过 ComfyUI(本地)或 RunningHub(云端)生成插图
AI 配音 支持 Edge-TTS / Index-TTS / Chat-TTS,支持声音克隆
视频模板 内置静态 / 图片 / 视频背景模板,支持竖屏、横屏、方形
背景音乐 内置 BGM,支持自定义音乐文件

三、适用场景

  • 知识类短视频:历史、科学、财经、生活技巧等科普内容
  • 批量内容生产:自媒体矩阵、电商产品视频、多平台分发
  • 创意快速验证:低成本试水话题,无需剪辑技能
  • 私有化部署:数据不出本地,完全本地运行

四、安装方式

方式一:Windows 一键整合包(推荐新手)

  1. 前往 GitHub Release 页面下载整合包
  2. 解压到任意文件夹
  3. 双击运行 start.bat
  4. 浏览器访问 http://localhost:8501
  5. 在「⚙️ 系统配置」中填入 LLM API Key,即可开始使用

整合包已内置所有依赖,无需安装 Python 或配置环境。


方式二:源码安装(适合 Mac / Linux / 进阶用户)

Step 0:安装前置依赖

安装 uv(Python 包管理器):

  • 参考 uv 官网 按系统安装
  • 验证:uv --version

安装 ffmpeg(视频处理工具):

# macOS
brew install ffmpeg

# Ubuntu / Debian
sudo apt update && sudo apt install ffmpeg

# Windows:下载后将 bin 目录添加到系统 PATH

验证:ffmpeg -version

Step 1:克隆项目

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

Step 2:启动 Web 界面

uv run streamlit run web/app.py

浏览器访问 http://localhost:8501


五、Web 界面使用说明

界面分为左、中、右三栏,依次配置后点击生成。

左栏:内容输入

选项 说明
AI 生成内容 输入主题,由 LLM 自动写稿
固定文案内容 粘贴已有脚本,跳过 AI 写稿
分镜数 滑动条控制片段数量(每个分镜对应一张图 + 一段语音)
BGM 可选无 BGM、内置音乐或自定义 MP3/WAV 文件

中栏:语音 + 视觉设置

语音设置:

TTS 方案 特点
edge-tts 免费,开箱即用,需联网
index-tts 支持声音克隆,需上传参考音频
chat-tts 备选 TTS 方案
  • 可上传本人录音作为参考音频,AI 克隆音色,适合个人 IP 打造
  • 支持点击「预览语音」试听效果

视觉设置:

选项 说明
图像工作流 Selfhost(本地 ComfyUI,免费)或 RunningHub(云端,付费)
图像尺寸 默认 1024×1024,可调整
提示词前缀 控制配图风格,需用英文,支持预览
视频模板 按类型(静态 / 图片 / 视频背景)和尺寸(竖屏 / 横屏 / 方形)选择
自定义参数 可配置 author(作者名)、brand(品牌名)、describe(描述)

右栏:生成视频

配置完成后点击「🎬 生成视频」,实时显示进度:

生成文案 → 分镜 1/N 生成插图 → ... → 合成语音 → 合成视频

生成完成后自动预览,视频文件保存至 output/ 文件夹。


六、费用对比

方案 LLM 图像生成 费用 适合人群
完全免费 Ollama(本地) ComfyUI(本地) 0 元 有 GPU、追求零成本
推荐方案 通义千问 API ComfyUI(本地) 极低(几分钱/条) 性价比优先
云端方案 OpenAI / GPT RunningHub 较高 不想折腾本地环境

七、完整示例

以生成「如何增加被动收入」短视频为例:

1. 配置 API(首次)

  • 展开「⚙️ 系统配置」
  • 选择通义千问,填入 API Key
  • 配置本地 ComfyUI 地址(默认 http://127.0.0.1:8188),点击测试连接
  • 保存配置

2. 内容输入

  • 模式:AI 生成内容
  • 主题:如何增加被动收入
  • 分镜数:10
  • BGM:default.mp3

3. 语音设置

  • TTS:edge-tts
  • 音色:男声-专业(云健)
  • 语速:1.2x

4. 视觉设置

  • 图像工作流:image_flux.json - Selfhost
  • 图像尺寸:1024×1024
  • 提示词前缀:Minimalist black-and-white matchstick figure style illustration, clean lines, simple sketch style
  • 视频模板:image_default.html(竖屏 1080×1920)
  • author:@Pixelle.AI,brand:Pixelle-Video

5. 点击生成,等待几分钟,右侧即显示完整视频。


八、常见问题

Q:生成一条视频需要多长时间?
通常几分钟内完成,具体取决于分镜数量和本地 GPU / 网络速度。

Q:效果不满意如何调整?

  • 换 LLM 模型 → 改变文案风格
  • 改提示词前缀 → 改变配图风格
  • 换 TTS 方案或上传参考音频 → 改变声音
  • 换视频模板 → 改变画面布局

Q:可以商用吗?
可以,项目采用 Apache 2.0 许可证,允许商业使用。

Q:支持哪些语言?
界面为中文,生成内容支持中文文案与语音。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐