2026-03-23 · 实战干货

做视频内容,最贵的从来不是剪辑,而是真人出镜

拍一条3分钟的真人出镜视频,从协调演员、租场地、打灯光、反复NG,到最后剪辑调色——没有大几千块下不来。如果你要批量生产内容,这个成本就直接劝退了。

所以当我发现这条流水线完整跑通的时候,第一反应不是兴奋,而是冷静下来把它写成可复用的SOP。因为我知道,这套东西一旦固化下来,批量生产视频内容的成本将直接降到一个可忽略的数量级。

本文核心问题:本地模型 + OpenClaw,能否撑起一条完整的数字人视频流水线?
答案是:能。

一、为什么我要验证这条流水线

数字人视频的方案一抓一大把,但大多数方案有个致命问题:按调用次数计费。一条30秒的视频,云服务可能要收你几块钱甚至几十块。听起来不贵,但你要日更100条呢?月产3000条呢?成本直接爆炸。

API不是长久之计,真正的落地必须本地部署。 所以我这次验证的核心问题不是"哪个云平台效果好",而是:本地开源模型 + OpenClaw 自动化调度,这套组合能不能跑通?

如果能跑通,意味着:批量生产,成本等于电费;不受第三方平台限制,不涨价不断供。

二、完整技术流程(验证成功,直接复用)

Step 1:文案生成 · 工具:video-script

你只需要给出一个主题或产品卖点,video-script会自动生成适合数字人播报的文案结构——包含开场hook、正文逻辑、结尾引导。输出的文案是口语化表达,无需二次修改直接可用。

实测:生成一条1分钟口播文案,耗时 < 30秒

Step 2:TTS音频 + 音色克隆 · 工具:video-tts

音色克隆是数字人视频的灵魂——你需要AI用"特定人物的声音"来播报文案。

CosyVoice2 支持音色克隆,只需要上传一段参考音频(30秒以上效果最佳),AI就能用同样的音色读任何文本。

标准操作流程:

  1. 上传参考音频(目标人物的真人录音)到 upload-voice
  2. 输入文案
  3. 调用 CosyVoice2 执行TTS,输出音频文件

关键能力:CosyVoice2 支持自然语言指令控制语速和情绪——"语速放慢20%"、"情绪更积极"、"专业播报感",直接写在提示词里就行。

实测:音色还原度在安静环境下接近85%+,非专业录音也能用

Step 3:场景合成 · 工具:video-portrait

很多人做数字人视频会踩的坑是:换场景的时候脸也跟着变了。

video-portrait的核心能力是脸保换场景——只替换背景环境,人的面部特征完全保留不动。

输入原真人素材(或高质量照片)+ 目标场景描述 → 执行编辑 → 输出脸部identity不变、背景已替换的新素材

实测:原图质量越高,输出效果越好。建议使用1080p及以上素材作为输入。

Step 4:视频生成(口型对齐) · 工具:video-gen

最后一步,把音频和已经合成好的场景素材结合,生成最终视频。

video-gen的audio-to-video模式会根据音频内容自动生成人物口型,让数字人看起来像在真实说话。

输入:Step 2的TTS音频 + Step 3合成的场景人脸素材
输出:完整视频,口型自动对齐音频

实测:音频越清晰、人物面部越正面,视频生成效果越好

三、项目目录结构

digital-human-pipeline/
├── 01_scripts/          # 文案脚本
├── 02_audio/            # TTS音频文件
├── 03_reference/        # 音色克隆参考音频
├── 04_portrait/         # 场景合成后人像素材
├── 05_video/            # 最终输出视频
├── prompts/             # 各步骤提示词模板
└── config.yaml          # 流水线全局配置

命名规范:日期_主题序号_版本号,例如 20260323_topic01_v1.mp4

四、关键参数与经验值

参数项 经验值 说明
视频单次最长时长 20秒 超过需分段生成后拼接
CosyVoice2 语速控制 自然语言指令 直接写"语速+10%"等
音色克隆参考音频 ≥30秒 时间越长效果越逼真
场景合成输入素材 ≥1080p 输入分辨率决定输出上限

五、已验证可用的Skills清单

基于OpenClaw平台,以下Skills已全部验证通过,可以直接调用组成完整流水线:

Skill 功能
video-script 文案自动生成
video-tts TTS音频合成 + CosyVoice2调用
video-portrait 场景合成,脸保换背景
video-gen 视频生成,口型自动对齐
video-pipeline 全流程串联,一键驱动

六、结论

核心链路验证成功。

从文案 → 音频 → 场景 → 视频,四步全流程跑通,输出质量达到生产级别可用标准。

更重要的是:这套流水线基于本地开源模型 + OpenClaw 自动化调度。不受第三方API成本绑架,不按次计费,批量生产的成本等于电费。

API方案适合技术验证阶段,真正要规模化生产、降低成本,必须走本地部署这条路。现在验证完毕,可以正式跑主题了。


本文涉及模型:CosyVoice2(语音合成)、nano-banana-2(图像编辑)、LTX-2.3(视频生成)等开源模型,均支持本地部署。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐