ViMax:AI导演、编剧、制片人一体化——颠覆传统视频制作的智能体革命
·
🎬 ViMax
当一句创意自动变成一部电影,AI视频生成进入全新时代
📌 项目概览
| 属性 | 详情 |
|---|---|
| 项目名称 | ViMax: Agentic Video Generation |
| 开发机构 | 香港大学数据科学研究所 (HKUDS) |
| GitHub | https://github.com/HKUDS/ViMax |
| Stars | ⭐ 5,479+ |
| Forks | 🔄 931+ |
| 语言 | Python 3.12 |
| 许可证 | MIT License |
| 创建时间 | 2025年3月30日 |
🚨 传统AI视频生成的三大痛点
在 ViMax 出现之前,AI视频生成工具面临着严峻的技术瓶颈:
| 痛点 | 描述 |
|---|---|
| ❌ 时长限制 | 大多数AI工具只能生成几秒钟的片段,无法制作分钟级甚至小时级的长视频 |
| ❌ 一致性混乱 | 角色和场景在帧与帧之间变化不可预测,“同一角色在不同镜头里长得不一样” |
| ❌ 仅视觉导向 | 缺失剧本、音频、叙事结构和故事深度,无法实现完整的视频创作流程 |
💡 ViMax 的革命性解决方案
ViMax 重新定义了AI视频生成范式:
🎬 导演 + 编剧 + 制片人 + 视频生成器 —— 四位一体!
用户输入创意 → ViMax 自动编排 → 剧本创作 → 分镜设计 → 角色创建 → 视频生成 → 完整输出
💡 核心理念:只需输入你的创意概念,ViMax 自主处理剩余一切——端到端自动化视频创作。
🌟 四大核心功能模块
1. 📝 Idea2Video(创意到视频)
从灵感到银幕的全自动转化
- 输入原始创意想法
- 智能多智能体工作流自动运行
- 涵盖叙事构建、角色设计与视频制作全流程
- 适合快速原型开发与创意验证
idea = """
If a cat and a dog are best friends, what would happen when they meet a new cat?
"""
user_requirement = """
For children, do not exceed 3 scenes.
"""
style = "Cartoon"
2. 📖 Novel2Video(小说到视频)
智能文学改编引擎
- 将完整小说转化为分集视频内容
- 智能叙事压缩:保留关键情节与角色对话
- 角色追踪:确保人物一致性
- 逐场景视觉化改编
3. ⚙️ Script2Video(剧本到视频)
无限剧本视频创作
- 从个人故事到史诗冒险,完全创作自由
- 全面掌控视觉叙事的每个细节
- 支持专业剧本格式输入
script = """
EXT. SCHOOL GYM - DAY
A group of students are practicing basketball...
John (18, male, tall, athletic) is the star player...
John: (dribbling the ball) I'm going to score a basket!
...
"""
user_requirement = """
Fast-paced with no more than 20 shots.
"""
style = "Animate Style"
4. 🤳 AutoCameo(智能客串)
用你的照片生成专属视频
- 上传个人照片即可创建客串视频
- 将自己融入创意剧本与电影级镜头
- 智能角色融合:保持外观一致性
- 自然互动:角色行为符合剧情逻辑
🏗️ 多智能体架构深度解析
系统架构概览
ViMax 是一个多智能体视频生成框架(Multi-Agent Video Generation Framework),通过智能体协同实现自动化多镜头视频生成,并确保角色与场景的一致性。
智能体组件清单
| 智能体模块 | 功能职责 |
|---|---|
screenwriter.py |
剧本创作智能体 |
script_planner.py |
剧本规划智能体 |
script_enhancer.py |
剧本增强智能体 |
character_extractor.py |
角色提取智能体 |
character_portraits_generator.py |
角色肖像生成智能体 |
scene_extractor.py |
场景提取智能体 |
event_extractor.py |
事件提取智能体 |
storyboard_artist.py |
分镜艺术家智能体 |
reference_image_selector.py |
参考图选择智能体 |
camera_image_generator.py |
机位图像生成智能体 |
best_image_selector.py |
最佳图像选择智能体 |
novel_compressor.py |
小说压缩智能体 |
global_information_planner.py |
全局信息规划智能体 |
流水线架构层级
┌─────────────────────────────────────────────────────────────────────┐
│ 🧠 输入层 (INPUT LAYER) │
│ 创意/剧本/小说 • 自然语言提示 • 参考图像 • 风格指令 • 配置参数 │
└─────────────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────┐
│ 🧭 中央调度 (CENTRAL ORCHESTRATION) │
│ 智能体调度 • 阶段切换 • 资源管理 • 重试/降级逻辑 │
└─────────────────────────────────────────────────────────────────────┘
↓
┌────────────────────────────┐ ┌────────────────────────────┐
│ 🧾 剧本理解 │ │ 🎥 场景与镜头规划 │
│ 角色/环境提取 │ ←→ │ 分镜步骤 • 镜头列表 │
│ 场景边界识别 │ │ 关键帧与节奏点 │
│ 风格意图解析 │ │ │
└────────────────────────────┘ └────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────┐
│ 🧪 视觉资产规划 (VISUAL ASSET PLANNING) │
│ 参考图选择 • 外观/风格引导 • 提示词条件化 │
└─────────────────────────────────────────────────────────────────────┘
↓
┌────────────────────────────┐ ┌────────────────────────────┐
│ 🗂️ 资产索引 │ │ ♻️ 一致性与连续性 │
│ 帧/参考图目录 │ ←→ │ 角色/环境追踪 │
│ 嵌入向量 │ │ 参考匹配 │
│ 复用检索 │ │ 时序连贯性 │
└────────────────────────────┘ └────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────┐
│ ✂️ 视觉合成与组装 (VISUAL SYNTHESIS) │
│ 图像生成 • 最佳帧选择 • 首尾帧→视频 • 剪辑与时间线合成 │
└─────────────────────────────────────────────────────────────────────┘
↓
┌─────────────────────────────────────────────────────────────────────┐
│ 🚀 输出层 (OUTPUT LAYER) │
│ 帧图像 • 片段与最终视频 • 日志 • 工作目录产物 │
└─────────────────────────────────────────────────────────────────────┘
🎯 核心技术能力
1. 🧬 智能长剧本生成
基于 RAG(检索增强生成) 技术的长剧本引擎:
- 智能分析小说级长文本
- 自动切分为多场景剧本格式
- 精准保留关键情节与角色对话
- 确保叙事完整性
2. 🪄 表现力分镜设计
镜头级分镜系统:
- 运用电影语言生成富有表现力的分镜
- 基于用户需求与目标受众定制
- 为后续视频生成奠定叙事节奏
- 专业级镜头设计能力
3. 🔮 多机位拍摄模拟
模拟专业摄影的多机位技术:
- 提供沉浸式观看体验
- 确保同一场景内角色位置一致
- 背景环境跨镜头连贯
- 电影级拍摄效果
4. 🧸 智能参考图选择
智能参考图管理机制:
- 智能选取当前视频首帧所需参考图
- 考虑前序时间线中的分镜内容
- 确保多角色与环境元素准确性
- 支持长视频扩展
5. ⚙️ 自动化图像生成
自动化提示词生成系统:
- 基于所选参考图与前序时间线的视觉逻辑
- 自动生成图像生成器提示词
- 合理安排角色与环境的空间交互位置
- 优化视觉呈现效果
6. ✅ 图像生成一致性校验
MLLM/VLM驱动的质量控制:
- 并行生成多张候选图像
- 通过多模态大语言模型选择最佳一致图像
- 模拟人类创作者的工作流程
- 自动化质量控制
7. ⚡ 高效并行镜头生成
并行处理优化:
- 对同一机位拍摄的连续镜头并行处理
- 大幅提升视频生产效率
- 优化计算资源利用
- 缩短制作周期
🔥 ViMax 的五大核心优势
| 特性 | 描述 |
|---|---|
| 🧠 一键生成 | 无需技术细节,一句话生成完整视频,自动完成剧本、分镜、镜头、参考管理与一致性验证 |
| 🚀 完全创作自由 | 创意无边界——预告片、短篇故事、小说章节、原创概念皆可实现 |
| 🔊 音画同步 | 无缝融合角色语音与音效,打造沉浸式视听体验 |
| 🎨 专业品质 | 自动质量控制确保角色一致性、场景构图合理、每帧达专业水准 |
| 🤩 互动视频 | 上传照片即可在自己故事中出演,智能融合角色保持外观一致 |
🚀 快速开始指南
环境要求
操作系统: Linux, Windows
Python: 3.12
包管理: uv
安装步骤
# 克隆仓库
git clone https://github.com/HKUDS/ViMax.git
cd ViMax
# 使用 uv 安装依赖
uv sync
配置文件设置
在 configs/idea2video.yaml 中配置模型和API:
chat_model:
init_args:
model: google/gemini-2.5-flash-lite-preview-09-2025
model_provider: openai
api_key: <YOUR_API_KEY>
base_url: https://openrouter.ai/api/v1
image_generator:
class_path: tools.ImageGeneratorNanobananaGoogleAPI
init_args:
api_key: <YOUR_API_KEY>
video_generator:
class_path: tools.VideoGeneratorVeoGoogleAPI
init_args:
api_key: <YOUR_API_KEY>
working_dir: .working_dir/idea2video
支持的模型提供商
| 提供商 | 模型 | 上下文窗口 | 备注 |
|---|---|---|---|
| MiniMax | MiniMax-M2.7 | 1M tokens | 最新推荐 |
| MiniMax | MiniMax-M2.7-highspeed | 1M tokens | 快速版本 |
| MiniMax | MiniMax-M2.5 | 204K tokens | 稳定版本 |
| OpenAI | 兼容格式 | - | 通过OpenRouter |
📂 项目目录结构
ViMax/
├── agents/ # 智能体模块
│ ├── screenwriter.py # 剧本创作
│ ├── script_planner.py # 剧本规划
│ ├── character_extractor.py # 角色提取
│ ├── storyboard_artist.py # 分镜设计
│ ├── reference_image_selector.py # 参考图选择
│ └── ...
├── configs/ # 配置文件
│ ├── idea2video.yaml # 创意到视频配置
│ ├── script2video.yaml # 剧本到视频配置
│ └── idea2video_minimax.yaml # MiniMax配置
├── tools/ # 工具模块
├── pipelines/ # 流水线模块
├── interfaces/ # 接口模块
├── utils/ # 实用工具
├── assets/ # 资产文件
├── tests/ # 测试文件
├── main_idea2video.py # 创意到视频入口
├── main_script2video.py # 剧本到视频入口
├── readme.md # 英文文档
├── README_ZH.md # 中文文档
└── pyproject.toml # 项目配置
☄️ 即将推出的功能
| 功能 | 状态 |
|---|---|
| 👨💻 Google AI Studio API配置 | ✅ 已完成 |
| 📹 开发者模式分支 | 开发中 |
| 🤳 AutoCameo集成 | 开发中 |
| 📺 更多演示案例 | 规划中 |
| 🎞️ 镜头规划优化 | 规划中 |
| 🤖 新功能扩展 | 规划中 |
🔗 相关资源
- GitHub仓库: https://github.com/HKUDS/ViMax
- YouTube频道: @AI-Creator-is-here
- uv安装指南: https://docs.astral.sh/uv/getting-started/installation/
- MiniMax API: https://www.minimaxi.com/
信息来源: GitHub - HKUDS/ViMax
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)