ViMax：AI导演、编剧、制片人一体化——颠覆传统视频制作的智能体革命

forcedRegCsdn

471人浏览 · 2026-05-20 14:22:58

forcedRegCsdn · 2026-05-20 14:22:58 发布

🎬 ViMax

当一句创意自动变成一部电影，AI视频生成进入全新时代

📌 项目概览

属性	详情
项目名称	ViMax: Agentic Video Generation
开发机构	香港大学数据科学研究所 (HKUDS)
GitHub	https://github.com/HKUDS/ViMax
Stars	⭐ 5,479+
Forks	🔄 931+
语言	Python 3.12
许可证	MIT License
创建时间	2025年3月30日

🚨 传统AI视频生成的三大痛点

在 ViMax 出现之前，AI视频生成工具面临着严峻的技术瓶颈：

痛点	描述
❌ 时长限制	大多数AI工具只能生成几秒钟的片段，无法制作分钟级甚至小时级的长视频
❌ 一致性混乱	角色和场景在帧与帧之间变化不可预测，“同一角色在不同镜头里长得不一样”
❌ 仅视觉导向	缺失剧本、音频、叙事结构和故事深度，无法实现完整的视频创作流程

💡 ViMax 的革命性解决方案

ViMax 重新定义了AI视频生成范式：

🎬 导演 + 编剧 + 制片人 + 视频生成器 —— 四位一体！

用户输入创意 → ViMax 自动编排 → 剧本创作 → 分镜设计 → 角色创建 → 视频生成 → 完整输出

💡 核心理念：只需输入你的创意概念，ViMax 自主处理剩余一切——端到端自动化视频创作。

🌟 四大核心功能模块

1. 📝 Idea2Video（创意到视频）

从灵感到银幕的全自动转化

输入原始创意想法
智能多智能体工作流自动运行
涵盖叙事构建、角色设计与视频制作全流程
适合快速原型开发与创意验证

idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"

2. 📖 Novel2Video（小说到视频）

智能文学改编引擎

将完整小说转化为分集视频内容
智能叙事压缩：保留关键情节与角色对话
角色追踪：确保人物一致性
逐场景视觉化改编

3. ⚙️ Script2Video（剧本到视频）

无限剧本视频创作

从个人故事到史诗冒险，完全创作自由
全面掌控视觉叙事的每个细节
支持专业剧本格式输入

script = """
EXT. SCHOOL GYM - DAY
A group of students are practicing basketball...
John (18, male, tall, athletic) is the star player...
John: (dribbling the ball) I'm going to score a basket!
...
"""
user_requirement = """
Fast-paced with no more than 20 shots.
"""
style = "Animate Style"

4. 🤳 AutoCameo（智能客串）

用你的照片生成专属视频

上传个人照片即可创建客串视频
将自己融入创意剧本与电影级镜头
智能角色融合：保持外观一致性
自然互动：角色行为符合剧情逻辑

🏗️ 多智能体架构深度解析

系统架构概览

ViMax 是一个多智能体视频生成框架（Multi-Agent Video Generation Framework），通过智能体协同实现自动化多镜头视频生成，并确保角色与场景的一致性。

智能体组件清单

智能体模块	功能职责
`screenwriter.py`	剧本创作智能体
`script_planner.py`	剧本规划智能体
`script_enhancer.py`	剧本增强智能体
`character_extractor.py`	角色提取智能体
`character_portraits_generator.py`	角色肖像生成智能体
`scene_extractor.py`	场景提取智能体
`event_extractor.py`	事件提取智能体
`storyboard_artist.py`	分镜艺术家智能体
`reference_image_selector.py`	参考图选择智能体
`camera_image_generator.py`	机位图像生成智能体
`best_image_selector.py`	最佳图像选择智能体
`novel_compressor.py`	小说压缩智能体
`global_information_planner.py`	全局信息规划智能体

流水线架构层级

┌─────────────────────────────────────────────────────────────────────┐
│                    🧠 输入层 (INPUT LAYER)                           │
│  创意/剧本/小说 • 自然语言提示 • 参考图像 • 风格指令 • 配置参数       │
└─────────────────────────────────────────────────────────────────────┘
                                    ↓
┌─────────────────────────────────────────────────────────────────────┐
│                    🧭 中央调度 (CENTRAL ORCHESTRATION)               │
│  智能体调度 • 阶段切换 • 资源管理 • 重试/降级逻辑                     │
└─────────────────────────────────────────────────────────────────────┘
                                    ↓
┌────────────────────────────┐    ┌────────────────────────────┐
│      🧾 剧本理解           │    │     🎥 场景与镜头规划       │
│  角色/环境提取             │ ←→ │  分镜步骤 • 镜头列表       │
│  场景边界识别             │    │  关键帧与节奏点           │
│  风格意图解析             │    │                           │
└────────────────────────────┘    └────────────────────────────┘
                                    ↓
┌─────────────────────────────────────────────────────────────────────┐
│                    🧪 视觉资产规划 (VISUAL ASSET PLANNING)           │
│  参考图选择 • 外观/风格引导 • 提示词条件化                           │
└─────────────────────────────────────────────────────────────────────┘
                                    ↓
┌────────────────────────────┐    ┌────────────────────────────┐
│      🗂️ 资产索引           │    │    ♻️ 一致性与连续性        │
│  帧/参考图目录             │ ←→ │  角色/环境追踪             │
│  嵌入向量                 │    │  参考匹配                 │
│  复用检索                 │    │  时序连贯性               │
└────────────────────────────┘    └────────────────────────────┘
                                    ↓
┌─────────────────────────────────────────────────────────────────────┐
│                    ✂️ 视觉合成与组装 (VISUAL SYNTHESIS)              │
│  图像生成 • 最佳帧选择 • 首尾帧→视频 • 剪辑与时间线合成              │
└─────────────────────────────────────────────────────────────────────┘
                                    ↓
┌─────────────────────────────────────────────────────────────────────┐
│                    🚀 输出层 (OUTPUT LAYER)                         │
│  帧图像 • 片段与最终视频 • 日志 • 工作目录产物                       │
└─────────────────────────────────────────────────────────────────────┘

🎯 核心技术能力

1. 🧬 智能长剧本生成

基于 RAG（检索增强生成） 技术的长剧本引擎：

智能分析小说级长文本
自动切分为多场景剧本格式
精准保留关键情节与角色对话
确保叙事完整性

2. 🪄 表现力分镜设计

镜头级分镜系统：

运用电影语言生成富有表现力的分镜
基于用户需求与目标受众定制
为后续视频生成奠定叙事节奏
专业级镜头设计能力

3. 🔮 多机位拍摄模拟

模拟专业摄影的多机位技术：

提供沉浸式观看体验
确保同一场景内角色位置一致
背景环境跨镜头连贯
电影级拍摄效果

4. 🧸 智能参考图选择

智能参考图管理机制：

智能选取当前视频首帧所需参考图
考虑前序时间线中的分镜内容
确保多角色与环境元素准确性
支持长视频扩展

5. ⚙️ 自动化图像生成

自动化提示词生成系统：

基于所选参考图与前序时间线的视觉逻辑
自动生成图像生成器提示词
合理安排角色与环境的空间交互位置
优化视觉呈现效果

6. ✅ 图像生成一致性校验

MLLM/VLM驱动的质量控制：

并行生成多张候选图像
通过多模态大语言模型选择最佳一致图像
模拟人类创作者的工作流程
自动化质量控制

7. ⚡ 高效并行镜头生成

并行处理优化：

对同一机位拍摄的连续镜头并行处理
大幅提升视频生产效率
优化计算资源利用
缩短制作周期

🔥 ViMax 的五大核心优势

特性	描述
🧠 一键生成	无需技术细节，一句话生成完整视频，自动完成剧本、分镜、镜头、参考管理与一致性验证
🚀 完全创作自由	创意无边界——预告片、短篇故事、小说章节、原创概念皆可实现
🔊 音画同步	无缝融合角色语音与音效，打造沉浸式视听体验
🎨 专业品质	自动质量控制确保角色一致性、场景构图合理、每帧达专业水准
🤩 互动视频	上传照片即可在自己故事中出演，智能融合角色保持外观一致

🚀 快速开始指南

环境要求

操作系统: Linux, Windows
Python: 3.12
包管理: uv

安装步骤

# 克隆仓库
git clone https://github.com/HKUDS/ViMax.git
cd ViMax

# 使用 uv 安装依赖
uv sync

配置文件设置

在 configs/idea2video.yaml 中配置模型和API：

chat_model:
  init_args:
    model: google/gemini-2.5-flash-lite-preview-09-2025
    model_provider: openai
    api_key: <YOUR_API_KEY>
    base_url: https://openrouter.ai/api/v1

image_generator:
  class_path: tools.ImageGeneratorNanobananaGoogleAPI
  init_args:
    api_key: <YOUR_API_KEY>

video_generator:
  class_path: tools.VideoGeneratorVeoGoogleAPI
  init_args:
    api_key: <YOUR_API_KEY>

working_dir: .working_dir/idea2video

支持的模型提供商

提供商	模型	上下文窗口	备注
MiniMax	MiniMax-M2.7	1M tokens	最新推荐
MiniMax	MiniMax-M2.7-highspeed	1M tokens	快速版本
MiniMax	MiniMax-M2.5	204K tokens	稳定版本
OpenAI	兼容格式	-	通过OpenRouter

📂 项目目录结构

ViMax/
├── agents/                 # 智能体模块
│   ├── screenwriter.py     # 剧本创作
│   ├── script_planner.py   # 剧本规划
│   ├── character_extractor.py  # 角色提取
│   ├── storyboard_artist.py    # 分镜设计
│   ├── reference_image_selector.py  # 参考图选择
│   └── ...
├── configs/               # 配置文件
│   ├── idea2video.yaml    # 创意到视频配置
│   ├── script2video.yaml  # 剧本到视频配置
│   └── idea2video_minimax.yaml  # MiniMax配置
├── tools/                 # 工具模块
├── pipelines/             # 流水线模块
├── interfaces/            # 接口模块
├── utils/                 # 实用工具
├── assets/                # 资产文件
├── tests/                 # 测试文件
├── main_idea2video.py     # 创意到视频入口
├── main_script2video.py   # 剧本到视频入口
├── readme.md              # 英文文档
├── README_ZH.md           # 中文文档
└── pyproject.toml         # 项目配置

☄️ 即将推出的功能

功能	状态
👨‍💻 Google AI Studio API配置	✅ 已完成
📹 开发者模式分支	开发中
🤳 AutoCameo集成	开发中
📺 更多演示案例	规划中
🎞️ 镜头规划优化	规划中
🤖 新功能扩展	规划中