本文章统计可以生成视频的大模型产品,并列出各产品的使用入口、使用效果、收费情况、核心能力等;搜集并整理各大模型的具体情况,本文信息来源于网络。

一. 主流视频生成大模型
国外国内都有多种能生成视频的大模型,可以实现不同规格及不同时长的视频生成,有商用,也有开源产品,以下是具体的产品信息:
1.1 国际主流视频生成大模型
| 模型名称 |
开发公司 |
核心能力 |
访问方式 |
状态 |
| Grok-Imagine-Video |
xAI(埃隆·马斯克旗下) |
深度集成于Grok聊天机器人,支持文本/图像生成带音效短视频,强调语义理解与对话联动 |
仅限X平台(Twitter)Premium+订阅用户 |
已上线 |
| Veo 2 |
Google |
720p/8秒视频生成,支持图像转视频(Whisk Animate)、MP4下载与SynthID水印,集成于Gemini Advanced |
Gemini Advanced订阅用户 |
已上线 |
| Runway Gen-4.5 |
Runway ML |
支持多镜头叙事、原生音频融合、角色一致性优化,最高生成4K分辨率,工业级工作流支持 |
Web端订阅服务(免费/专业/企业) |
已上线 |
| Stable Video Diffusion (SVD) |
Stability AI |
基于Stable Diffusion的开源图生视频模型,支持单图生成4秒高清视频,Apache 2.0协议可商用 |
Hugging Face、ModelScope开源 |
已开源 |
| Pika Labs v1.0 |
Pika Labs |
文本/图像输入生成3秒短视频,Discord平台操作,社区活跃度高 |
Discord机器人 |
已上线 |
1.2 中国主流视频生成大模型
| 模型名称 |
开发公司 |
核心能力 |
访问方式 |
状态 |
| Wan2.7-Video |
阿里巴巴(通义万相) |
4K/60fps、120秒长视频,支持“思考模式”叙事规划,文生视频/图生视频/参考生视频/视频编辑四模块 |
通义APP、通义万相官网 |
已上线 |
| Seedance 2.0 |
字节跳动 |
双分支扩散变换器架构,支持文本/图像/音频/视频四模态输入,人物动作与表情自然度领先 |
剪映App、CapCut、即梦AI网页端 |
已上线 |
| Kling 3.0 Omni |
快手 |
专业级长视频生成,物理模拟与运动连贯性行业领先,支持1080P/60fps |
可灵AI官网、App及API |
已上线 |
| HunyuanVideo |
腾讯 |
130亿参数,原生切镜、导演级运镜、电影级风格切换,擅长长序列连续动作 |
官网开放试用 |
已开源 |
| HappyHorse-1.0 |
阿里巴巴(ATH) |
全球首个原生音视频联合生成开源模型,登顶Artificial Analysis榜首 |
阿里云百炼平台API(2026年4月27日开放测试) |
即将商用 |
| 一镜流影 |
百度(文心一言4.0+) |
文字→视频自动转换,支持方言配音、背景音乐自动生成、无版权素材输出 |
文心一言App/网页端插件 |
已上线 |
| 海螺视频(Hailuo AI) |
MiniMax |
采用NCR架构,支持原生1080p/6s视频生成,Artificial Analysis榜单排名第二 |
海螺AI App、Web端、API |
已上线 |
| Vimi |
商汤科技 |
面向C端的可控人物视频生成模型,支持分钟级高质量人物视频,表情与肢体动作精细控制 |
商汤数字空间平台 |
已上线 |
| Seko AI |
商汤科技 |
接入Seedance 2.0,支持AI漫剧全流程生成:剧本理解→资产生成→多集一致性管理 |
商汤Seko平台 |
已上线 |
| NEXGROW汽车AIGC平台 |
新阔科技 |
专为汽车营销定制,100%还原车型车身、车漆、内饰细节,适配200+营销场景 |
官网B端服务 |
已上线 |
| MOVA |
创智学院 & 模思智能 |
中国首个开源音视频同步生成模型,支持口型精准匹配、多人对话、声画同步 |
GitHub开源 |
已开源 |
1.3 中国主流与新兴视频生成大模型
| 模型名称 |
开发公司 |
核心能力 |
访问方式 |
状态 |
| Wan2.7-Video |
阿里巴巴(通义万相) |
4K/60fps、120秒长视频,支持“思考模式”叙事规划,文生视频/图生视频/参考生视频/视频编辑四模块 |
通义APP、通义万相官网 |
已上线 |
| Seedance 2.0 |
字节跳动 |
双分支扩散变换器架构,支持文本/图像/音频/视频四模态输入,人物动作与表情自然度领先 |
剪映App、CapCut、即梦AI网页端 |
已上线 |
| Kling 3.0 Omni |
快手 |
专业级长视频生成,物理模拟与运动连贯性行业领先,支持1080P/60fps |
可灵AI官网、App及API |
已上线 |
| HunyuanVideo |
腾讯 |
130亿参数,原生切镜、导演级运镜、电影级风格切换,擅长长序列连续动作 |
官网开放试用 |
已开源 |
| HappyHorse-1.0 |
阿里巴巴(ATH) |
全球首个原生音视频联合生成开源模型,登顶Artificial Analysis榜首 |
阿里云百炼平台API(2026年4月27日开放测试) |
即将商用 |
| 一镜流影 |
百度(文心一言4.0+) |
文字→视频自动转换,支持方言配音、背景音乐自动生成、无版权素材输出 |
文心一言App/网页端插件 |
已上线 |
| 海螺视频(Hailuo AI) |
MiniMax |
采用NCR架构,支持原生1080p/6s视频生成,Artificial Analysis榜单排名第二 |
海螺AI App、Web端、API |
已上线 |
| Vimi |
商汤科技 |
面向C端的可控人物视频生成模型,支持分钟级高质量人物视频,表情与肢体动作精细控制 |
商汤数字空间平台 |
已上线 |
| Seko AI |
商汤科技 |
接入Seedance 2.0,支持AI漫剧全流程生成:剧本理解→资产生成→多集一致性管理 |
商汤Seko平台 |
已上线 |
| NEXGROW汽车AIGC平台 |
新阔科技 |
专为汽车营销定制,100%还原车型车身、车漆、内饰细节,适配200+营销场景 |
官网B端服务 |
已上线 |
| MOVA |
创智学院 & 模思智能 |
中国首个开源音视频同步生成模型,支持口型精准匹配、多人对话、声画同步 |
GitHub开源 |
已开源 |
1.4 开源与社区驱动模型
| 模型名称 |
开发方 |
核心能力 |
技术优势 |
状态 |
| LTX-2 AI |
开源社区 |
支持4K/50FPS,音画同步,基于Apache 2.0协议 |
画质超越Sora 2,适配ComfyUI节点 |
2025年发布,2026年广泛采用 |
| LongCat-Video |
美团 |
全球首个开源5分钟长视频模型(136亿参数),支持文生视频、图生视频与续写 |
解决传统模型“断片”问题 |
2026年4月开源 |
| Stable Video Diffusion (SVD) |
Stability AI |
图生视频,4秒/576×1024,开源生态完善 |
社区微调版本超百种 |
已开源 |
| OneStory |
Meta & 哥本哈根大学 |
多镜头连贯叙事视频生成,基于自适应记忆机制 |
支持image-to-multi-shot与text-to-multi-shot |
CVPR 2026论文,开源代码 |
1.5 各大模型能力指标对比
| 维度 |
领先模型 |
说明 |
| 最高分辨率 |
Wan2.7-Video、LTX-2 AI |
均支持4K输出,为当前行业天花板 |
| 最长视频时长 |
LongCat-Video(5分钟)> Wan2.7-Video(120秒) |
LongCat为开源唯一突破5分钟的模型 |
| 动态流畅度 |
Seedance 2.0 > HunyuanVideo > Kling 3.0 |
Seedance在表情与动作自然度上优势显著 |
| 中文语境适配 |
一镜流影、海螺视频、Wan2.7 |
支持方言配音、中文提示词优化、本地化界面 |
| 开源开放性 |
LTX-2 AI、LongCat-Video、SVD、MOVA |
可本地部署,适合开发者与研究者 |
| 商业落地成熟度 |
Kling 3.0、海螺视频、NEXGROW |
已在影视、广告、汽车营销等场景规模化应用 |
二.各模型访问方式及费用
2.1 国际主流视频生成大模型
2.2 中国主流与新兴视频生成大模型
2.3 开源与社区驱动模型
三.各模型核心能力及优缺点
3.1 核心能力对比
| 模型名称 |
文本能力 |
多模态能力 |
视频生成能力 |
上下文长度 |
语言支持 |
推理与逻辑 |
| GPT-4o |
顶级写作、逻辑推演、代码生成,响应速度极快 |
图像理解强,视频理解弱 |
不支持原生视频生成 |
128K tokens |
50+语言 |
数学题准确率85.2%,行业领先 |
| Claude 3.5 |
长文本结构化输出、技术文档总结能力突出 |
图文理解稳定,支持PDF/表格 |
不支持 |
200K tokens |
30+语言 |
逻辑连贯性最优,幻觉率低(<10%) |
| Gemini 1.5 Pro |
多轮对话稳定,适合信息整合 |
最强多模态:支持图像、视频、音频、文档混合输入 |
不支持原生生成 |
1M tokens |
40+语言 |
多模态推理能力顶尖,适合复杂分析 |
| 通义千问 Qwen2-VL |
中文语义理解全球领先,支持119种语言 |
支持视频上传与内容解析(20分钟+) |
支持基础视频生成(企业宣传类) |
1M tokens |
119种 |
电商、金融场景分析能力突出 |
| 文心一言(一镜流影) |
中文创作流畅,知识图谱深度整合 |
支持图文输入生成视频 |
支持30秒内视频生成,支持场景控制(城市/山水/高原) |
128K tokens |
中文为主 |
适合日常内容创作,逻辑深度中等 |
| Kling 3.0 Omni |
支持指令驱动创作 |
支持图像+文本输入 |
1080p/30fps,单次最长2分钟,支持多镜头叙事 |
64K tokens |
中英双语 |
AI导演系统自动调度镜头,运镜控制精准 |
| Stable Video Diffusion |
无文本生成能力 |
仅支持图像→视频 |
开源最强视频生成,支持物理模拟(液体、布料) |
无 |
无 |
依赖本地部署,生成稳定但需高算力 |
| 豆包(字节跳动) |
中文对话自然,情感理解“断层领先” |
支持图像、视频、语音全模态输入 |
支持1080p/10秒视频生成 |
256K tokens |
中文优化 |
幻觉率仅4%,行业最低,适合社交互动 |
3.2 优缺点分析
| 维度 |
优势 |
劣势 |
| 幻觉与准确性 |
Claude 3.5、豆包幻觉率低于10%;文心一言、通义千问在中文场景下准确率高 |
GPT-4o幻觉率约21%;部分模型在专业领域(如医疗、法律)易生成“看似合理但错误”的内容 |
| 算力与部署 |
开源模型(Llama 3.1、SVD、MOVA)可本地部署,无授权费 |
商业模型(Veo 2、Runway Gen-4.5)需云端调用,延迟高;SVD生成4K/60fps需A100/H100级GPU |
| 伦理与偏见 |
多数模型已加入内容过滤机制 |
训练数据偏差导致性别、种族识别错误(如人脸识别误识率深肤色高10倍) |
| 开源与商用 |
Apache 2.0(SVD)、MIT(OneStory)、LTX-2 允许无限制商用 |
商业模型(如Kling、Veo)禁止逆向工程,API调用受配额限制 |
| 长文本处理 |
通义千问、豆包支持百万token,可解析整本小说或财报 |
多数模型在超长上下文下出现“注意力衰减”,关键信息丢失 |
3.3 典型适用场景与行业落地
| 场景类别 |
推荐模型 |
应用说明 |
| 短视频内容创作 |
Kling 3.0 Omni、文心一言(一镜流影)、豆包 |
快速生成15–30秒短视频脚本+画面,支持口型同步、运镜控制,适合抖音、快手创作者 |
| 企业级报告与分析 |
Claude 3.5、通义千问 |
自动总结财报、合同、会议纪要,支持多文档交叉分析,输出结构化PPT大纲 |
| 教育与智能辅导 |
文心一言、豆包 |
中文问答精准,支持个性化学习路径推荐,适配K12与语言学习场景 |
| 影视与广告预演 |
Veo 2、Kling 3.0 Omni |
用于前期分镜设计、概念片制作,替代传统实拍脚本测试 |
| 医疗与科研辅助 |
通义千问、Gemini 1.5 |
解析医学影像报告、文献综述、临床数据,支持多模态输入(CT+文本) |
| 开源开发者与研究 |
Stable Video Diffusion、LTX-2 AI、MOVA |
可本地部署,支持二次训练,用于学术实验与算法创新 |
| 汽车与工业AIGC |
NEXGROW平台、Seko AI |
生成100%还原车型的营销视频,支持动态参数修改(颜色、灯光、内饰) |
3.4 中国模型专项优势:本土化与生态协同
- 文心一言:深度整合百度搜索与知识图谱,中文语境理解、政策解读、本地生活推荐能力远超国际模型。
- 通义千问:依托阿里云生态,可无缝对接钉钉、淘宝、菜鸟等业务系统,实现“AI+企业流程”闭环。
- Kling 3.0 Omni:与快手APP深度绑定,支持一键发布至快手平台,创作者生态成熟。
- 豆包:字节跳动内容推荐算法加持,生成内容更贴合短视频平台用户偏好,爆款内容生成率高。

所有评论(0)