【GitHub项目推荐--Pixelle-Video：一句话生成短视频，AI 全自动剪辑流水线】⭐⭐⭐⭐⭐

旅之灵夫

698人浏览 · 2026-04-28 22:00:14

旅之灵夫 · 2026-04-28 22:00:14 发布

GitHub 地址：https://github.com/AIDC-AI/Pixelle-Video

简介

Pixelle-Video 是由 AIDC-AI 开源的 AI 全自动短视频引擎。它的核心理念是“零门槛视频创作”——你只需输入一个主题（如“如何理解反脆弱”），AI 就会在后台自动完成从文案撰写、配图生成、语音合成到视频剪辑的全套流程，几分钟后直接输出一个完整的 MP4 文件。

它采用高度模块化的 ComfyUI 架构，将复杂的视频制作拆解为标准的流水线作业。无论是知识科普、小说解说还是数字人口播，你都不需要任何剪辑经验，甚至不需要准备素材，真正实现了“一句话成片”。

主要功能

1. 全自动视频生成流水线

Pixelle-Video 将创作过程标准化为四个核心环节：

文案生成：利用 LLM（如 GPT、通义千问）根据主题自动生成结构化的解说词脚本。
配图规划：基于脚本内容，自动调用 AI 绘图模型（如 FLUX、Qwen）为每一句台词生成匹配的视觉画面。
逐帧处理：支持图生视频（Image to Video）和动作迁移，将静态图片转化为动态镜头。
视频合成：自动将画面、配音（TTS）、背景音乐（BGM）按时间线对齐，渲染输出成品。

2. 多模态模型自由组合

大语言模型：支持 OpenAI、通义千问、DeepSeek、Ollama（本地模型）等，负责逻辑与文案。
视觉生成：基于 ComfyUI，可对接本地 Stable Diffusion 或云端 RunningHub 服务，支持图片与视频生成。
语音合成：集成 Edge-TTS、Index-TTS 等，支持多语言和音色克隆，无需额外录制人声。

3. 丰富的模板与场景

预设模板：内置竖屏（9:16）、横屏（16:9）、方形（1:1）等多种模板，适配抖音、小红书、B站等平台。
扩展模块：支持数字人口播（上传照片生成虚拟人视频）、动作迁移（让图片人物跳舞）等高级功能。
自定义素材：支持上传自己的照片或视频片段，AI 会智能分析内容并生成对应的解说脚本。

4. 零依赖整合包

针对 Windows 用户提供一键整合包，内置 Python、uv 和 ffmpeg 环境，解压即用，无需配置复杂的环境变量。

安装与配置

方式一：Windows 一键整合包（推荐新手）

下载：从 GitHub Releases 页面下载最新的 Pixelle-Video-Windows.zip整合包。
运行：解压后双击 start.bat，浏览器会自动打开 http://localhost:8501进入 Web 界面。
配置：在界面中配置 LLM API Key（如通义千问）和图像服务地址即可开始使用。

方式二：源码安装（macOS / Linux / 开发者）

环境准备：安装 uv（Python 包管理器）和 ffmpeg（视频处理工具）。

克隆项目：

git clone https://github.com/AIDC-AI/Pixelle-Video.git
cd Pixelle-Video

启动服务：
```
uv run streamlit run web/app.py
```
访问：打开浏览器访问 http://localhost:8501。

关键配置项

首次使用时，在 Web 界面的「⚙️ 系统配置」面板中需填写：

LLM 配置：选择模型提供商并填入 API Key。
图像配置：
- 本地模式：填写本地 ComfyUI 服务的 URL（如 http://127.0.0.1:8188）。
- 云端模式：填入 RunningHub 等云端生图服务的 API Key。

如何使用

基础操作流程

输入主题：在 Web 界面左侧的输入框中，输入你想要制作的视频主题（例如：“养生知识科普”）。
选择模板：从下拉菜单选择适合的模板（如 image_vertical.html用于竖屏图文视频）。
调整参数（可选）：可设置视频时长、分镜数量、语音音色等。
一键生成：点击「🎬 生成视频」按钮，系统会按顺序显示“生成文案 → 生成配图 → 合成语音 → 合成视频”的进度。
预览与下载：生成完成后，右侧预览区会自动播放视频，文件同时保存在本地的 output/目录下。

进阶功能

批量生成：在任务列表中一次性输入多个主题，系统会自动排队处理，适合内容矩阵制作。
自定义模板：如果你懂 HTML/CSS，可以在 templates/目录下创建自己的视频布局模板，定制专属片头片尾。

应用场景实例（无代码）

场景一：知识博主的日更挑战

痛点：知识博主希望每天更新科普视频，但写稿、找图、录音、剪辑耗时耗力，难以坚持。

Pixelle-Video 方案：

每天早上花 5 分钟，输入“为什么我们要多喝水”、“如何缓解颈椎病”等 5 个主题。
点击批量生成，去忙其他事情。
一小时后，5 条带有 AI 配音和动态画面的短视频已生成完毕，直接发布到抖音或小红书。
价值：将单条视频的制作成本从数小时降低到几分钟，实现无人值守的内容量产。

场景二：电商产品的自动解说

痛点：电商运营有大量新品上架，需要制作简单的介绍视频，但请人拍摄成本高，且模板单一。

Pixelle-Video 方案：

将产品图上传到“自定义素材”区域。
输入指令：“根据这张产品图，生成一段 30 秒的卖点介绍视频，突出性价比。”
AI 自动识别图片中的产品（如水杯），生成“这款水杯采用 Tritan 材质，耐高温且轻便……”的脚本，并配上动态字幕和背景音乐。
价值：零成本为海量 SKU 生成差异化解说视频，提升商品转化率。

场景三：多语言数字人营销

痛点：品牌需要面向海外市场制作本地化口播视频，但外语配音和出镜成本高昂。

Pixelle-Video 方案：

使用“数字人口播”模块，上传品牌代言人照片。
输入英文或韩语营销文案。
选择对应的外语 TTS 音色，生成数字人播报视频。
价值：无需搭建绿幕影棚，即可快速产出多语言品牌宣传片，降低跨境营销门槛。

总结

Pixelle-Video 的本质是一个视频内容的“自动印刷机”。它不要求你会 PR 或剪映，只要求你有一个好的想法。对于自媒体创作者、电商运营、教育机构而言，它是降低视频制作门槛、实现规模化内容生产的终极利器。通过灵活的模型配置，你既可以使用免费的本地模型控制成本，也可以接入顶级模型追求画质，真正做到了“丰俭由人”。

GitHub 地址：https://github.com/AIDC-AI/Pixelle-Video

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

RAG 基础流水线：从文档加载到向量存储

RAG技术解析：从文档处理到向量检索本文系统介绍检索增强生成（RAG）的离线阶段实现，解决大模型知识局限问题。RAG通过文档加载、分割、向量化存储构建知识库，分为离线处理与在线检索两阶段。关键要点：文档处理：需适配不同格式（PDF/CSV等），分割策略（基础/语义/父子分割）直接影响检索效果，需平衡chunk大小与语义完整性。向量化：Embedding模型选择（OpenAI/MiniLM等）