AI视频生成开源项目：一键自动生成剧情、视频、合成配音、剪辑合成（非常详细、小白也可快速实现！！！）

Bswlosycode

624人浏览 · 2026-04-16 17:48:21

Bswlosycode · 2026-04-16 17:48:21 发布

本项目最大亮点：非常容易复现、视频时长可控制（只要钱包不空，生成100分钟的视频都可以）

在网站及 GitHub 上可以看到许多类似的开源项目，但是我发现对于经验不足的同学而言，理解和应用这些项目可能存在巨大的挑战，复现项目比较困难、耗时。因此我针对此问题专门开发了一个及简的AI视频生成项目，旨在帮助经验不足的同学花费更少的时间快速实现AI视频生成功能。

本教程将带您从零搭建一套完整的AI视频生成工作流，实现文本到分镜、首帧、视频与旁白的全流程自动化。

读者可访问GitHub项目（可以加上免费的星标支持本作者，thanks）：
Auto_generate_vediohttps://github.com/drose-yu/Auto_generate_vedio

0. 项目核心功能

Workflow Web 是一个创新的AI视频自动化生成解决方案：

输入：一段剧情文本
输出：标题与剧情节点 → 角色设定 → 角色参考图 → 分镜运镜 → 首帧图 →（可选）镜头视频 →（可选）旁白音频
核心特性：
- 任务化运行管理（创建/轮询/取消）
- 历史结果本地持久化
- 素材ZIP打包下载
- FFmpeg视频拼接（支持带音频合成）

适用场景：

快速搭建多阶段AI工作流原型
实现"文本→视频"产品闭环验证
学习FastAPI + Vue的现代开发模式

注意：模型调用将消耗对应平台额度，请遵守各平台内容合规要求

1. 架构设计

1.1 项目结构

├── backend/   # FastAPI后端（工作流引擎）
├── frontend/  # Vue前端（交互界面）
└── example/   # 示例产出

1.2 核心工作流

flowchart LR
  U[用户] --> FE[Vue前端]
  FE -->|API调用| BE[FastAPI后端]
  BE -->|文本生成| Ark[豆包文本模型]
  BE -->|图像生成| Img[豆包图像模型]
  BE -->|视频生成| Vid[豆包视频模型]
  BE -->|语音合成| TTS[火山TTS]
  BE -->|持久化| Disk[本地存储]
  Disk -->|合成| FF[FFmpeg]

2. 环境准备

必备组件：

Python ≥ 3.12
Node.js ≥ 18（推荐20+）
npm ≥ 9
FFmpeg（视频合成时使用）

验证环境：

python --version
node --version
npm --version
ffmpeg -version


如果ffmpeg没有按照，命令行输入winget install -e --id Gyan.FFmpeg（mac等其他系统可自行查找相关命令）

3. 快速启动指南

3.1 获取代码

git clone https://github.com/drose-yu/Auto_generate_vedio.git
cd Auto_generate_vedio

3.2 后端启动（FastAPI）

步骤：

创建虚拟环境：

cd backend
python -m venv .venv
# 激活环境
.\.venv\Scripts\Activate.ps1  # Windows
source .venv/bin/activate     # Linux/macOS

安装依赖：
```
pip install -r requirements.txt
```

配置环境：

cp .env.example .env

编辑.env文件填写：（不知道如何填写访问我的github仓库有截图教程，链接在最上方）

APP_DOUBAO_API_KEY=your_doubao_api_key_here# 需获取
APP_TTS_APP_ID=your_tts_app_id_here# 需获取
APP_TTS_ACCESS_TOKEN=your_tts_access_token_here# 需获取
APP_TTS_CLUSTER=volcano_tts # 固定不变

启动服务：

uvicorn app.main:app --reload --port 8010

3.3 前端启动（Vue）

cd frontend
npm install
npm run dev

访问：http://localhost:5173

4. 完整工作流体验

操作流程：

访问 http://localhost:5173
在输入框粘贴剧情文本（建议包含人物、场景、冲突等细节）比如“ 散修陆尘渡劫失败，修为大跌，避雨栖身废弃仙寺，闲翻寺中旧经，发现藏有修仙秘辛，寺中枯坐老僧（隐世仙尊）一语点破桎梏，重筑道基，终成一方强者”
关键参数配置：
- 镜头数：控制分镜数量（建议首次测试4个）
- 最大视频镜头数：首次建议设为4
- 最大角色图数：建议2张
点击"运行"按钮
在任务面板查看实时进度
完成后可：
- 预览生成内容
- 下载素材包
- 使用FFmpeg合成完整视频

5. API调用指南（开发者参考）

核心端点：

POST /api/workflow/jobs       # 创建任务
GET /api/workflow/jobs/{id}   # 查询状态
POST /api/workflow/jobs/{id}/cancel  # 取消任务
GET /api/workflow/history     # 获取历史记录
POST /api/workflow/history/{id}/compose  # 视频合成