本项目最大亮点:非常容易复现、视频时长可控制(只要钱包不空,生成100分钟的视频都可以)

在网站及 GitHub 上可以看到许多类似的开源项目,但是我发现对于经验不足的同学而言,理解和应用这些项目可能存在巨大的挑战,复现项目比较困难、耗时。因此我针对此问题专门开发了一个及简的AI视频生成项目,旨在帮助经验不足的同学花费更少的时间快速实现AI视频生成功能。

本教程将带您从零搭建一套完整的AI视频生成工作流,实现文本到分镜、首帧、视频与旁白的全流程自动化。

 读者可访问GitHub项目(可以加上免费的星标支持本作者,thanks):
Auto_generate_vediohttps://github.com/drose-yu/Auto_generate_vedio


0. 项目核心功能

Workflow Web 是一个创新的AI视频自动化生成解决方案:

  • 输入:一段剧情文本
  • 输出:标题与剧情节点 → 角色设定 → 角色参考图 → 分镜运镜 → 首帧图 →(可选)镜头视频 →(可选)旁白音频
  • 核心特性
    • 任务化运行管理(创建/轮询/取消)
    • 历史结果本地持久化
    • 素材ZIP打包下载
    • FFmpeg视频拼接(支持带音频合成)

适用场景

  • 快速搭建多阶段AI工作流原型
  • 实现"文本→视频"产品闭环验证
  • 学习FastAPI + Vue的现代开发模式

注意:模型调用将消耗对应平台额度,请遵守各平台内容合规要求


1. 架构设计

1.1 项目结构

├── backend/   # FastAPI后端(工作流引擎)
├── frontend/  # Vue前端(交互界面)
└── example/   # 示例产出

1.2 核心工作流

flowchart LR
  U[用户] --> FE[Vue前端]
  FE -->|API调用| BE[FastAPI后端]
  BE -->|文本生成| Ark[豆包文本模型]
  BE -->|图像生成| Img[豆包图像模型]
  BE -->|视频生成| Vid[豆包视频模型]
  BE -->|语音合成| TTS[火山TTS]
  BE -->|持久化| Disk[本地存储]
  Disk -->|合成| FF[FFmpeg]


2. 环境准备

必备组件

  • Python ≥ 3.12
  • Node.js ≥ 18(推荐20+)
  • npm ≥ 9
  • FFmpeg(视频合成时使用)

验证环境:

python --version
node --version
npm --version
ffmpeg -version


如果ffmpeg没有按照,命令行输入winget install -e --id Gyan.FFmpeg(mac等其他系统可自行查找相关命令)


3. 快速启动指南

3.1 获取代码

git clone https://github.com/drose-yu/Auto_generate_vedio.git
cd Auto_generate_vedio

3.2 后端启动(FastAPI)

步骤

  1. 创建虚拟环境:
    cd backend
    python -m venv .venv
    # 激活环境
    .\.venv\Scripts\Activate.ps1  # Windows
    source .venv/bin/activate     # Linux/macOS
    

  2. 安装依赖:
    pip install -r requirements.txt
    

  3. 配置环境:
    cp .env.example .env
    
    编辑.env文件填写:(不知道如何填写访问我的github仓库有截图教程,链接在最上方)
    APP_DOUBAO_API_KEY=your_doubao_api_key_here# 需获取
    APP_TTS_APP_ID=your_tts_app_id_here# 需获取
    APP_TTS_ACCESS_TOKEN=your_tts_access_token_here# 需获取
    APP_TTS_CLUSTER=volcano_tts # 固定不变

  4. 启动服务:
    uvicorn app.main:app --reload --port 8010
    

3.3 前端启动(Vue)

cd frontend
npm install
npm run dev

访问:http://localhost:5173


4. 完整工作流体验

操作流程

  1. 访问 http://localhost:5173
  2. 在输入框粘贴剧情文本(建议包含人物、场景、冲突等细节)比如“ 散修陆尘渡劫失败,修为大跌,避雨栖身废弃仙寺,闲翻寺中旧经,发现藏有修仙秘辛,寺中枯坐老僧(隐世仙尊)一语点破桎梏,重筑道基,终成一方强者”
  3. 关键参数配置:
    • 镜头数:控制分镜数量(建议首次测试4个)
    • 最大视频镜头数:首次建议设为4
    • 最大角色图数:建议2张
  4. 点击"运行"按钮
  5. 在任务面板查看实时进度
  6. 完成后可:
    • 预览生成内容
    • 下载素材包
    • 使用FFmpeg合成完整视频


5. API调用指南(开发者参考)

核心端点

POST /api/workflow/jobs       # 创建任务
GET /api/workflow/jobs/{id}   # 查询状态
POST /api/workflow/jobs/{id}/cancel  # 取消任务
GET /api/workflow/history     # 获取历史记录
POST /api/workflow/history/{id}/compose  # 视频合成


Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐