腾讯混元 HunyuanVideo 1.5 登陆 AtomGit！消费级显卡也能玩转电影级视频生成

AtomGit

805人浏览 · 2025-11-24 10:05:44

AtomGit · 2025-11-24 10:05:44 发布

腾讯混元大模型团队视频生成模型 HunyuanVideo 1.5 在 AtomGit 正式开源。这款基于 Diffusion Transformer（DiT）架构、参数仅 8.3B 的轻量化模型，凭借消费级显卡部署、电影级生成效果和强指令遵循能力，以极低的门槛带给开发者旗舰模型的体验。

👉 模型链接：https://ai.gitcode.com/tencent_hunyuan/HunyuanVideo-1.5

核心技术亮点

01｜轻量化架构设计

DiT 架构 + 3D 因果 VAE 编解码器：通过空间 16 倍、时间 4 倍压缩，在 8.3B 参数量下实现旗舰级效果。
硬件适配：仅需 14G 显存即可运行，支持 CUDA 加速，显著降低消费级显卡部署门槛。

02｜SSTA 稀疏注意力机制

动态剪枝冗余数据块：通过选择性滑动分块注意力，推理效率大幅提升，长序列生成计算成本显著降低。
多阶段渐进式训练：覆盖预训练到后训练全流程，结合 Moun 优化器加速收敛，优化运动连贯性与美学质量。

03｜多模态理解与控制

中英文双语文本编码：采用多模态大模型精准解析 Prompt，支持 recaption 技术映射复杂描述（如“黄昏柔光下的中心构图”）。
跨模态指令融合：引入 ByT5 独立编码文本 OCR 信息，增强视频中文字生成的准确性（如霓虹灯管逐字点亮效果）。

04｜视频超分与推理加速

少步数超分网络：将生成结果上采样至 1080p，修复畸变的同时提升细节质感。
工程优化：集成模型蒸馏、Cache 优化等技术，大幅提升推理效率，显著降低推理资源消耗。

案例展示

01｜文生视频（Prompt）

充满活力的2D动画风格，一位戴着护目镜的少年发明家，驾驶着他自己建造的扑翼飞行器，在一座天空之城的上空轻快地滑翔。他穿梭于巨大的风车和漂浮的岛屿之间，下方是繁忙的空中街道。镜头平稳地跟随他，阳光穿过巨大的风车叶片，投下动态的光影，营造出乐观而富有想象力的氛围。

一个孤独的牛仔枪手，一动不动地站着，手悬停在他的左轮手枪上，身处一座尘土飞扬的西部小镇正午时分空无一人的主街，采用眼部大特写，相机拉远至广角镜头，光线是正午刺眼的顶光，在他的帽子下形成锐利深邃的阴影，整体为意大利西部片风格，营造出紧张和对峙的氛围。

02｜图生视频（静态图片配合 Prompt）

画面瞬间切换，背景变为竞技场。镜头环绕拍摄，捕捉竞技场内的整体环境与布局。

The hiker begins walking forward along the trail, causing the water bottle to swing rhythmically with each step. The camera gradually pulls back and rises to reveal a vast desert landscape stretching out ahead, while the sun position shifts from afternoon to dusk, casting increasingly longer shadows across the terrain as the figure becomes smaller in the frame.