【人工智能/AI】项目实战二：AI视频生成产品汇总（非完全）

军军君01

1071人浏览 · 2026-04-21 10:04:49

军军君01 · 2026-04-21 10:04:49 发布

本文章统计可以生成视频的大模型产品，并列出各产品的使用入口、使用效果、收费情况、核心能力等；搜集并整理各大模型的具体情况，本文信息来源于网络。
在这里插入图片描述

一. ‌主流视频生成大模型

国外国内都有多种能生成视频的大模型，可以实现不同规格及不同时长的视频生成，有商用，也有开源产品，以下是具体的产品信息：

1.1 ‌国际主流视频生成大模型

模型名称	开发公司	核心能力	访问方式	状态
‌Grok-Imagine-Video‌	xAI（埃隆·马斯克旗下）	深度集成于Grok聊天机器人，支持文本/图像生成带音效短视频，强调语义理解与对话联动	仅限X平台（Twitter）Premium+订阅用户	已上线
‌Veo 2‌	Google	720p/8秒视频生成，支持图像转视频（Whisk Animate）、MP4下载与SynthID水印，集成于Gemini Advanced	Gemini Advanced订阅用户	已上线
‌Runway Gen-4.5‌	Runway ML	支持多镜头叙事、原生音频融合、角色一致性优化，最高生成4K分辨率，工业级工作流支持	Web端订阅服务（免费/专业/企业）	已上线
‌Stable Video Diffusion (SVD)‌	Stability AI	基于Stable Diffusion的开源图生视频模型，支持单图生成4秒高清视频，Apache 2.0协议可商用	Hugging Face、ModelScope开源	已开源
‌Pika Labs v1.0‌	Pika Labs	文本/图像输入生成3秒短视频，Discord平台操作，社区活跃度高	Discord机器人	已上线

1.2 ‌中国主流视频生成大模型

模型名称	开发公司	核心能力	访问方式	状态
‌Wan2.7-Video‌	阿里巴巴（通义万相）	4K/60fps、120秒长视频，支持“思考模式”叙事规划，文生视频/图生视频/参考生视频/视频编辑四模块	通义APP、通义万相官网	已上线
‌Seedance 2.0‌	字节跳动	双分支扩散变换器架构，支持文本/图像/音频/视频四模态输入，人物动作与表情自然度领先	剪映App、CapCut、即梦AI网页端	已上线
‌Kling 3.0 Omni‌	快手	专业级长视频生成，物理模拟与运动连贯性行业领先，支持1080P/60fps	可灵AI官网、App及API	已上线
‌HunyuanVideo‌	腾讯	130亿参数，原生切镜、导演级运镜、电影级风格切换，擅长长序列连续动作	官网开放试用	已开源
‌HappyHorse-1.0‌	阿里巴巴（ATH）	全球首个原生音视频联合生成开源模型，登顶Artificial Analysis榜首	阿里云百炼平台API（2026年4月27日开放测试）	即将商用
‌一镜流影‌	百度（文心一言4.0+）	文字→视频自动转换，支持方言配音、背景音乐自动生成、无版权素材输出	文心一言App/网页端插件	已上线
‌海螺视频（Hailuo AI）‌	MiniMax	采用NCR架构，支持原生1080p/6s视频生成，Artificial Analysis榜单排名第二	海螺AI App、Web端、API	已上线
‌Vimi‌	商汤科技	面向C端的可控人物视频生成模型，支持分钟级高质量人物视频，表情与肢体动作精细控制	商汤数字空间平台	已上线
‌Seko AI‌	商汤科技	接入Seedance 2.0，支持AI漫剧全流程生成：剧本理解→资产生成→多集一致性管理	商汤Seko平台	已上线
‌NEXGROW汽车AIGC平台‌	新阔科技	专为汽车营销定制，100%还原车型车身、车漆、内饰细节，适配200+营销场景	官网B端服务	已上线
‌MOVA‌	创智学院 & 模思智能	中国首个开源音视频同步生成模型，支持口型精准匹配、多人对话、声画同步	GitHub开源	已开源

1.3 ‌中国主流与新兴视频生成大模型

模型名称	开发公司	核心能力	访问方式	状态
‌Wan2.7-Video‌	阿里巴巴（通义万相）	4K/60fps、120秒长视频，支持“思考模式”叙事规划，文生视频/图生视频/参考生视频/视频编辑四模块	通义APP、通义万相官网	已上线
‌Seedance 2.0‌	字节跳动	双分支扩散变换器架构，支持文本/图像/音频/视频四模态输入，人物动作与表情自然度领先	剪映App、CapCut、即梦AI网页端	已上线
‌Kling 3.0 Omni‌	快手	专业级长视频生成，物理模拟与运动连贯性行业领先，支持1080P/60fps	可灵AI官网、App及API	已上线
‌HunyuanVideo‌	腾讯	130亿参数，原生切镜、导演级运镜、电影级风格切换，擅长长序列连续动作	官网开放试用	已开源
‌HappyHorse-1.0‌	阿里巴巴（ATH）	全球首个原生音视频联合生成开源模型，登顶Artificial Analysis榜首	阿里云百炼平台API（2026年4月27日开放测试）	即将商用
‌一镜流影‌	百度（文心一言4.0+）	文字→视频自动转换，支持方言配音、背景音乐自动生成、无版权素材输出	文心一言App/网页端插件	已上线
‌海螺视频（Hailuo AI）‌	MiniMax	采用NCR架构，支持原生1080p/6s视频生成，Artificial Analysis榜单排名第二	海螺AI App、Web端、API	已上线
‌Vimi‌	商汤科技	面向C端的可控人物视频生成模型，支持分钟级高质量人物视频，表情与肢体动作精细控制	商汤数字空间平台	已上线
‌Seko AI‌	商汤科技	接入Seedance 2.0，支持AI漫剧全流程生成：剧本理解→资产生成→多集一致性管理	商汤Seko平台	已上线
‌NEXGROW汽车AIGC平台‌	新阔科技	专为汽车营销定制，100%还原车型车身、车漆、内饰细节，适配200+营销场景	官网B端服务	已上线
‌MOVA‌	创智学院 & 模思智能	中国首个开源音视频同步生成模型，支持口型精准匹配、多人对话、声画同步	GitHub开源	已开源

1.4 开源与社区驱动模型

模型名称	开发方	核心能力	技术优势	状态
‌LTX-2 AI‌	开源社区	支持4K/50FPS，音画同步，基于Apache 2.0协议	画质超越Sora 2，适配ComfyUI节点	2025年发布，2026年广泛采用
‌LongCat-Video‌	美团	全球首个开源5分钟长视频模型（136亿参数），支持文生视频、图生视频与续写	解决传统模型“断片”问题	2026年4月开源
‌Stable Video Diffusion (SVD)‌	Stability AI	图生视频，4秒/576×1024，开源生态完善	社区微调版本超百种	已开源
‌OneStory‌	Meta & 哥本哈根大学	多镜头连贯叙事视频生成，基于自适应记忆机制	支持image-to-multi-shot与text-to-multi-shot	CVPR 2026论文，开源代码

1.5 ‌各大模型能力指标对比

维度	领先模型	说明
‌最高分辨率‌	‌Wan2.7-Video‌、‌LTX-2 AI‌	均支持4K输出，为当前行业天花板
‌最长视频时长‌	‌LongCat-Video‌（5分钟）> ‌Wan2.7-Video‌（120秒）	LongCat为开源唯一突破5分钟的模型
‌动态流畅度‌	‌Seedance 2.0‌ > ‌HunyuanVideo‌ > ‌Kling 3.0‌	Seedance在表情与动作自然度上优势显著
‌中文语境适配‌	‌一镜流影‌、‌海螺视频‌、‌Wan2.7‌	支持方言配音、中文提示词优化、本地化界面
‌开源开放性‌	‌LTX-2 AI‌、‌LongCat-Video‌、‌SVD‌、‌MOVA‌	可本地部署，适合开发者与研究者
‌商业落地成熟度‌	‌Kling 3.0‌、‌海螺视频‌、‌NEXGROW‌	已在影视、广告、汽车营销等场景规模化应用

二.‌各模型访问方式及费用

2.1 ‌国际主流视频生成大模型

模型名称	开发公司	官方网址	收费结构
‌Grok-Imagine-Video‌	xAI	https://imagine-grok.com/	‌0.05/秒‌（按生成时长计费）或 ‌4.20/分钟‌（含音频）仅限X平台Premium+订阅用户
‌Veo 2‌	Google	https://gemini.google.com/	‌20/月‌（Gemini Advanced订阅，含Veo 2与Whisk Animate）或 ‌0.50/秒‌（独立调用）
‌Runway Gen-4.5‌	Runway ML	https://runwayml.com/product	‌15/月 ‌（标准版） ‌**35/月‌（专业版）企业版定制，API按token计费（单价未公开）
‌Stable Video Diffusion (SVD)‌	Stability AI	https://huggingface.co/stabilityai/stable-video-diffusion	‌完全免费‌（非商业用途）商用需联系Stability AI获取授权，费用未公开
‌Pika Labs v1.0‌	Pika Labs	https://pika.art/	‌免费版‌：每日限额，含水印‌10/月‌（标准版） ‌60/月‌（专业版，无积分限制、高清无水印）

2.2 ‌中国主流与新兴视频生成大模型

模型名称	开发公司	官方网址	收费结构
‌Wan2.7-Video‌	阿里巴巴（通义万相）	https://wanxiang.aliyun.com/	APP内免费体验（720p–1080p）API按量计费，单价未公开
‌Seedance 2.0‌	字节跳动	https://seedance22.com/zh-cn/	‌46元/百万tokens‌（纯文本/图像输入）‌28元/百万tokens‌（含视频输入）≈‌1元/秒‌（15秒视频约30.888万tokens）
‌Kling 3.0 Omni‌	快手	https://www.kling3ai.net/	‌黄金会员：58元/月‌（次月起）‌铂金会员：234元/月‌（次月起）‌首月优惠：19元起‌（享660点灵感值、无水印、高清增强）
‌HunyuanVideo‌	腾讯	https://github.com/Tencent/HunyuanVideo	‌免费试用‌：开通即赠1年资源包‌开源版本‌：Apache 2.0协议，可商用，无费用
‌HappyHorse-1.0‌	阿里巴巴（ATH）	https://bailian.aliyun.com/	‌尚未公布‌（2026年4月27日开放测试，5月正式商用）
‌一镜流影‌	百度（文心一言）	https://wenxin.baidu.com/	‌完全免费‌（2026年4月1日起全面开放，无需会员）
‌海螺视频（Hailuo AI）‌	MiniMax	https://hailuoai.video/	‌基础版免费‌（768p/6s）‌至臻版：10,788元/年‌（专业影视团队适用）
‌Vimi‌	商汤科技	https://www.sensetime.com/ai-video	‌企业定制报价‌（无公开定价，面向数字人视频生成）
‌Seko AI‌	商汤科技	https://seko.sensetime.com/	‌企业定制方案‌（AI漫剧全流程服务，仅B端合作）
‌NEXGROW汽车AIGC平台‌	新阔科技	https://inexgrow.com/	‌企业定制报价‌（专为汽车营销设计，100%车型还原）
‌MOVA‌	创智学院 & 模思智能	https://github.com/OpenMOSS/MOVA	‌完全免费‌（开源，无商业授权限制，支持音视频同步）

2.3 ‌开源与社区驱动模型

模型名称	开发方	官方网址	收费结构
‌LTX-2 AI‌	Lightricks	https://github.com/Lightricks/LTX-2	‌完全免费‌（Apache 2.0协议，可商用）
‌LongCat-Video‌	美团	https://github.com/meituan-longcat/LongCat-Video	‌完全免费‌（无商业授权限制，支持5分钟长视频）
‌OneStory‌	Meta & 哥本哈根大学	https://github.com/facebookresearch/onestory	‌完全免费‌（MIT许可证，允许无限制商用，仅需署名）

三.各模型核心能力及优缺点

3.1 ‌核心能力对比

模型名称	文本能力	多模态能力	视频生成能力	上下文长度	语言支持	推理与逻辑
‌GPT-4o‌	顶级写作、逻辑推演、代码生成，响应速度极快	图像理解强，视频理解弱	不支持原生视频生成	128K tokens	50+语言	数学题准确率85.2%，行业领先
‌Claude 3.5‌	长文本结构化输出、技术文档总结能力突出	图文理解稳定，支持PDF/表格	不支持	200K tokens	30+语言	逻辑连贯性最优，幻觉率低（<10%）
‌Gemini 1.5 Pro‌	多轮对话稳定，适合信息整合	‌最强多模态‌：支持图像、视频、音频、文档混合输入	不支持原生生成	1M tokens	40+语言	多模态推理能力顶尖，适合复杂分析
‌通义千问 Qwen2-VL‌	中文语义理解全球领先，支持119种语言	支持视频上传与内容解析（20分钟+）	支持基础视频生成（企业宣传类）	1M tokens	119种	电商、金融场景分析能力突出
‌文心一言（一镜流影）‌	中文创作流畅，知识图谱深度整合	支持图文输入生成视频	‌支持30秒内视频生成‌，支持场景控制（城市/山水/高原）	128K tokens	中文为主	适合日常内容创作，逻辑深度中等
‌Kling 3.0 Omni‌	支持指令驱动创作	支持图像+文本输入	‌1080p/30fps，单次最长2分钟，支持多镜头叙事‌	64K tokens	中英双语	AI导演系统自动调度镜头，运镜控制精准
‌Stable Video Diffusion‌	无文本生成能力	仅支持图像→视频	‌开源最强视频生成‌，支持物理模拟（液体、布料）	无	无	依赖本地部署，生成稳定但需高算力
‌豆包（字节跳动）‌	中文对话自然，情感理解“断层领先”	支持图像、视频、语音全模态输入	支持1080p/10秒视频生成	256K tokens	中文优化	幻觉率仅4%，行业最低，适合社交互动

3.2 ‌优缺点分析

维度	优势	劣势
‌幻觉与准确性‌	Claude 3.5、豆包幻觉率低于10%；文心一言、通义千问在中文场景下准确率高	GPT-4o幻觉率约21%；部分模型在专业领域（如医疗、法律）易生成“看似合理但错误”的内容
‌算力与部署‌	开源模型（Llama 3.1、SVD、MOVA）可本地部署，无授权费	商业模型（Veo 2、Runway Gen-4.5）需云端调用，延迟高；SVD生成4K/60fps需A100/H100级GPU
‌伦理与偏见‌	多数模型已加入内容过滤机制	训练数据偏差导致性别、种族识别错误（如人脸识别误识率深肤色高10倍）
‌开源与商用‌	Apache 2.0（SVD）、MIT（OneStory）、LTX-2 允许无限制商用	商业模型（如Kling、Veo）禁止逆向工程，API调用受配额限制
‌长文本处理‌	通义千问、豆包支持百万token，可解析整本小说或财报	多数模型在超长上下文下出现“注意力衰减”，关键信息丢失

3.3 ‌典型适用场景与行业落地

场景类别	推荐模型	应用说明
‌短视频内容创作‌	‌Kling 3.0 Omni‌、‌文心一言（一镜流影）‌、‌豆包‌	快速生成15–30秒短视频脚本+画面，支持口型同步、运镜控制，适合抖音、快手创作者
‌企业级报告与分析‌	‌Claude 3.5‌、‌通义千问‌	自动总结财报、合同、会议纪要，支持多文档交叉分析，输出结构化PPT大纲
‌教育与智能辅导‌	‌文心一言‌、‌豆包‌	中文问答精准，支持个性化学习路径推荐，适配K12与语言学习场景
‌影视与广告预演‌	‌Veo 2‌、‌Kling 3.0 Omni‌	用于前期分镜设计、概念片制作，替代传统实拍脚本测试
‌医疗与科研辅助‌	‌通义千问‌、‌Gemini 1.5‌	解析医学影像报告、文献综述、临床数据，支持多模态输入（CT+文本）
‌开源开发者与研究‌	‌Stable Video Diffusion‌、‌LTX-2 AI‌、‌MOVA‌	可本地部署，支持二次训练，用于学术实验与算法创新
‌汽车与工业AIGC‌	‌NEXGROW平台‌、‌Seko AI‌	生成100%还原车型的营销视频，支持动态参数修改（颜色、灯光、内饰）

3.4 ‌中国模型专项优势：本土化与生态协同

文心一言‌：深度整合百度搜索与知识图谱，中文语境理解、政策解读、本地生活推荐能力远超国际模型。
‌通义千问‌：依托阿里云生态，可无缝对接钉钉、淘宝、菜鸟等业务系统，实现“AI+企业流程”闭环。
‌Kling 3.0 Omni‌：与快手APP深度绑定，支持一键发布至快手平台，创作者生态成熟。
‌豆包‌：字节跳动内容推荐算法加持，生成内容更贴合短视频平台用户偏好，爆款内容生成率高。

在这里插入图片描述

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

海外动态代理行业彻底换代，AI 数据时代新标准已到来

AtomGit开源社区

cover

2026年SEO+GEO优化指南：搜索排名机制解析与实用工具推荐

AtomGit开源社区

cover

2026年论文写作AI哪个好用？7款工具实测对比，轻松拿捏

AtomGit开源社区

所有评论(0)

查看更多评论

军军君01

已为社区贡献7条内容