【OpenClaw全面解析:从零到精通】第037篇:OpenClaw v2026.4.5 深度解析:内置视频/音乐生成与 Dreaming 记忆系统
上一篇 [第036篇] OpenClaw CVE-2026-25253漏洞修复与安全加固实战——CVSS 8.8高危漏洞完整防护指南
下一篇 [第038篇] OpenClaw v2026.4.7+v2026.4.8 深度解析:推理中心、记忆-wiki与多模态编辑能力全面升级
一、版本概述与核心亮点
OpenClaw v2026.4.5 于 2026 年 4 月 6 日 正式发布,这是 OpenClaw 历史上最具里程碑意义的更新之一。与以往专注于安全修复和性能优化不同,本次更新带来了多项开创性的多媒体生成能力和实验性功能,标志着 OpenClaw 从"对话式 AI 助手"向"多模态内容创作平台"的战略跃迁。
什么是 OpenClaw 内置视频生成工具? 内置视频生成工具(video_generate)是 OpenClaw v2026.4.5 首次开放的核心功能,允许 AI 智能体直接调用视频生成能力,根据文本描述或参考素材创建视频,无需额外安装插件或配置第三方接口。
本次更新的核心亮点包括:
多媒体生成能力飞跃:首次内置 video_generate 视频生成工具和 music_generate 音乐生成工具,支持超过 12 个主流视频/音乐生成 Provider,覆盖 xAI Grok Imagine Video、阿里云 Wan、OpenAI Sora、Google Veo、MiniMax 等平台。用户只需在对话中描述需求,智能体即可自动调用合适的 Provider 生成内容。
Dreaming 记忆巩固系统:引入受人类睡眠记忆机制启发的实验性功能,通过浅睡(Light)、深睡(Deep)、快速眼动(REM)三阶段对记忆进行选择性巩固,将高频、相关、多场景使用的关键信息写入长期记忆,解决 AI 记忆碎片化问题。
ComfyUI 工作流深度集成:将 ComfyUI 引入原生工具体系,支持图像、视频、音乐的生成与编辑,提供完整的 Prompt 注入和参考素材支持,实现内容创作工作流的无缝衔接。
多语言控制面板全面升级:控制台界面新增 12 种语言支持,包括简体中文、繁体中文、巴西葡萄牙语、德语、西班牙语、日语、韩语、法语、土耳其语、印尼语、波兰语、乌克兰语,覆盖全球主要市场。
新增 AI 提供商矩阵:大幅扩展 AI 服务集成,新增 Qwen(通义千问)、Fireworks AI、StepFun(阶跃星辰)等 Chat 模型提供商,以及 MiniMax TTS、Ollama Web Search、MiniMax Search 等垂直场景 Provider,Amazon Bedrock 新增 Mantle 模型支持并优化推理配置自动发现。
二、内置视频生成工具详解
2.1 视频生成工具概述
什么是 OpenClaw video_generate 工具? video_generate 是 OpenClaw v2026.4.5 提供的内置视频生成工具,支持文本生成视频(Text-to-Video)、图片生成视频(Image-to-Video)、视频生成视频(Video-to-Video)三种运行时模式,智能体会根据配置和可用 API 密钥自动选择合适的 Provider。
视频生成是异步操作,整个生命周期包括四个状态:任务已创建等待 Provider 接受的 queued 状态、处理中的 running 状态(通常需要 30 秒至 5 分钟)、视频就绪的 succeeded 状态,以及生成失败的 failed 状态。当视频生成完成后,OpenClaw 会通过内部完成事件唤醒同一个会话,智能体会将生成的视频发回原始对话中。同一会话中若有视频任务处于 queued 或 running 状态,再次调用 video_generate 将返回现有任务状态而非创建新任务,有效防止重复生成。
2.2 支持的 Provider 矩阵
OpenClaw v2026.4.5 内置视频生成工具支持超过 12 个主流 Provider,以下是完整的支持矩阵:
| Provider | 默认模型 | 文本生成 | 图片参考 | 视频参考 | API 密钥环境变量 |
|---|---|---|---|---|---|
| Alibaba(阿里云) | wan2.6-t2v |
✅ | ✅(远程 URL) | ✅(远程 URL) | MODELSTUDIO_API_KEY |
| BytePlus | seedance-1-0-lite-t2v-250428 |
✅ | ✅(1 张) | ❌ | BYTEPLUS_API_KEY |
| ComfyUI | workflow |
✅ | ✅(1 张) | ❌ | COMFY_API_KEY 或 COMFY_CLOUD_API_KEY |
| fal | fal-ai/minimax/video-01-live |
✅ | ✅(1 张) | ❌ | FAL_KEY |
veo-3.1-fast-generate-preview |
✅ | ✅(1 张) | ✅(1 个) | GEMINI_API_KEY |
|
| MiniMax | MiniMax-Hailuo-2.3 |
✅ | ✅(1 张) | ❌ | MINIMAX_API_KEY |
| OpenAI | sora-2 |
✅ | ✅(1 张) | ✅(1 个) | OPENAI_API_KEY |
| Qwen(通义千问) | wan2.6-t2v |
✅ | ✅(远程 URL) | ✅(远程 URL) | QWEN_API_KEY |
| Runway | gen4.5 |
✅ | ✅(1 张) | ✅(1 个) | RUNWAYML_API_SECRET |
| Together | Wan-AI/Wan2.2-T2V-A14B |
✅ | ✅(1 张) | ❌ | TOGETHER_API_KEY |
| Vydra | veo3 |
✅ | ✅ | ❌ | VYDRA_API_KEY |
| xAI | grok-imagine-video |
✅ | ✅(1 张) | ✅(远程 MP4) | XAI_API_KEY |
从支持矩阵可以看出,阿里云和通义千问(Qwen)支持远程 URL 输入,适合企业级工作流集成;Google Veo 和 OpenAI Sora 支持视频参考输入,适合风格迁移和视频续写场景;BytePlus、MiniMax、fal 等 Provider 支持轻量级快速生成,适合创意探索阶段。
2.3 工具参数详解
video_generate 工具提供丰富的参数控制选项:
内容输入参数:单张参考图片使用 image 参数,多张参考图片使用 images 参数(最多 5 张),单参考视频使用 video 参数,多参考视频使用 videos 参数(最多 4 个)。需要注意的是,混合使用图片和视频参考可能导致不稳定,建议每次仅使用一种参考类型。
样式控制参数:aspectRatio 支持 1:1、2:3、3:2、3:4、4:3、4:5、5:4、9:16、16:9、21:9 等多种比例,resolution 支持 480P、720P、768P、1080P 等分辨率,durationSeconds 控制目标时长,audio 参数控制是否生成音频,watermark 参数控制是否添加 Provider 水印。
高级参数:action 参数支持 generate(默认)、status、list 三个操作,model 参数可覆盖默认 Provider/模型选择,filename 参数提供输出文件名提示。
2.4 快速配置实战
第一步:设置 API 密钥
以配置阿里云 Model Studio 为例:
export MODELSTUDIO_API_KEY="your-key"
第二步:配置默认模型(可选)
openclaw config set agents.defaults.videoGenerationModel.primary "qwen/wan2.6-t2v"
或在配置文件中设置:
{
"agents": {
"defaults": {
"videoGenerationModel": {
"primary": "qwen/wan2.6-t2v",
"fallbacks": ["qwen/wan2.6-r2v-flash"]
}
}
}
}
第三步:向智能体发起请求
生成一段 5 秒钟的电影感视频,内容是一只友善的龙虾在夕阳下冲浪。
智能体会自动调用 video_generate 工具,无需额外配置 allowlist。
2.5 任务管理命令
视频生成任务可以通过 CLI 命令进行管理:
# 列出所有视频生成任务
openclaw tasks list
# 查看特定任务详情
openclaw tasks show <taskId>
# 取消正在进行的任务
openclaw tasks cancel <taskId>
三、内置音乐生成工具详解
3.1 音乐生成工具概述
什么是 OpenClaw music_generate 工具? music_generate 是 OpenClaw v2026.4.5 提供的内置音乐生成工具,允许智能体通过配置的 Provider 创建音乐或音频,支持会话智能体的异步后台任务生成和无会话环境的同步内联生成两种工作模式。
音乐生成同样采用异步任务模式,支持生成、编辑、实时测试三种能力。生成完成后,智能体会将音频文件直接发布到对话中。
3.2 支持的 Provider 矩阵
| Provider | 默认模型 | 参考输入 | 歌词支持 | 器乐支持 | API 密钥 |
|---|---|---|---|---|---|
| ComfyUI | workflow |
最多 1 张图片 | ✅ | ✅ | COMFY_API_KEY 或 COMFY_CLOUD_API_KEY |
lyria-3-clip-preview |
最多 10 张图片 | ✅ | ✅ | GEMINI_API_KEY 或 GOOGLE_API_KEY |
|
| MiniMax | music-2.5+ |
无 | ✅ | ✅ | MINIMAX_API_KEY |
能力对比:Google Lyria 支持最丰富的参考图片输入(最多 10 张),适合基于图片风格创作音乐;MiniMax 提供纯 API 调用方式,适合批量音乐生成场景;ComfyUI 支持完整的工作流定制,适合高级用户自定义生成 pipeline。
3.3 工具参数详解
| 参数 | 类型 | 描述 | 必填 |
|---|---|---|---|
prompt |
string | 音乐生成提示词 | 是(生成时) |
action |
string | 操作类型:generate/status/list |
否 |
model |
string | Provider/模型覆盖 | 否 |
lyrics |
string | 歌词文本 | 否 |
instrumental |
boolean | 仅器乐输出 | 否 |
image |
string | 参考图片路径/URL | 否 |
images |
string[] | 多个参考图片 | 否 |
durationSeconds |
number | 目标时长(秒) | 否 |
format |
string | 输出格式(mp3/wav) | 否 |
filename |
string | 输出文件名提示 | 否 |
3.4 配置与使用示例
配置默认音乐生成模型:
{
"agents": {
"defaults": {
"musicGenerationModel": {
"primary": "google/lyria-3-clip-preview",
"fallbacks": ["minimax/music-2.5+"]
}
}
}
}
直接工具调用示例:
/tool music_generate prompt="温馨的环境合成器循环,带有柔和的磁带质感" instrumental=true
自然语言调用示例:
生成一首关于夜间驾车穿越霓虹城市的欢快 synthpop 音轨
四、Dreaming 记忆巩固系统
4.1 系统概述
什么是 OpenClaw Dreaming 记忆巩固系统? Dreaming 是 OpenClaw v2026.4.5 引入的实验性长期记忆巩固系统,其设计灵感来源于人类睡眠中的记忆巩固过程,通过浅睡(Light)、深睡(Deep)、快速眼动(REM)三个阶段对记忆进行选择性整理、强化和遗忘,解决 AI 记忆碎片化问题,让 OpenClaw 从"单次会话工具"转向"长期陪伴的个人 Agent"。
该功能默认关闭,需要用户手动开启。
4.2 三阶段工作原理
浅睡阶段(Light Phase):收集最近的对话信号、用户查询记录和候选记忆,进行去重和临时存储,仅写入"浅睡块",不会立即修改长期记忆。此阶段主要是观察和暂存,不做出永久记忆的决定。
深睡阶段(Deep Phase):这是核心阶段,负责评估并筛选有价值的信息进入长期记忆。评估采用加权评分机制,综合考虑以下六个维度:
- 频率(Frequency)权重 0.24:信息出现的频繁程度
- 相关性(Relevance)权重 0.30:信息与用户核心任务或偏好的关联度
- 查询多样性(Query Diversity)权重 0.15:信息在不同上下文场景中被调用的广泛性
- 时效性(Recency)权重 0.15:信息的新近程度
- 巩固度(Consolidation)权重 0.10:信息已被初步巩固的强度
- 概念丰富性(Conceptual Richness)权重 0.06:信息所包含的概念深度和广度
通过加权评分,将高频、相关、多场景使用的关键信息写入长期记忆,并将整个过程记录在 DREAMS.md 文件中。
快速眼动阶段(REM Phase):进行更高层次的"反思"和"归纳",从记忆中提取主题、总结行为模式、识别长期趋势,并生成"REM 块"反馈给深睡阶段,以强化重要的记忆线索。这使得系统不仅能记住事实,还能抽象出规律。
4.3 使用命令
Dreaming 记忆系统提供完整的命令行管理接口:
| 命令 | 功能 |
|---|---|
/dreaming on |
开启 Dreaming 记忆巩固功能 |
/dreaming off |
关闭该功能 |
/dreaming status |
查看当前 Dreaming 系统运行状态 |
/dreaming help |
获取命令使用帮助 |
openclaw memory promote <内容> |
手动将特定内容提升为长期记忆 |
openclaw memory promote-explain |
在提升操作时提供解释说明 |
五、ComfyUI 工作流集成
5.1 集成概述
什么是 OpenClaw ComfyUI 集成? OpenClaw v2026.4.5 将 ComfyUI 深度集成到原生工具体系中,作为视频生成、音乐生成、图像生成的原生 Provider 支持,支持本地 ComfyUI 和 Comfy Cloud 两种部署方式,提供完整的 Prompt 注入和参考素材支持。
通过 ComfyUI 集成,用户可以在 OpenClaw 中直接调用本地或云端的自定义工作流,实现完全定制化的内容生成 pipeline。
5.2 配置方法
本地 ComfyUI 配置:
export COMFY_API_KEY="your-local-comfyui-key"
Comfy Cloud 配置:
export COMFY_CLOUD_API_KEY="your-comfy-cloud-key"
5.3 支持的功能
ComfyUI Provider 支持的功能矩阵:
| 功能 | 生成 | 编辑 | 编辑上限 | 实时测试 |
|---|---|---|---|---|
| 图像生成 | ✅ | ✅ | 1 张图片 | 单独测试 |
| 视频生成 | ✅ | ✅ | - | 单独测试 |
| 音乐生成 | ✅ | ✅ | 1 张图片 | 单独测试 |
5.4 实时测试命令
# 共享 Provider 测试
OPENCLAW_LIVE_TEST=1 pnpm test:live -- extensions/music-generation-providers.live.test.ts
# ComfyUI 特定测试
OPENCLAW_LIVE_TEST=1 COMFY_LIVE_TEST=1 pnpm test:live -- extensions/comfy/comfy.live.test.ts
六、新增 AI 提供商与模型支持
6.1 Chat 模型提供商扩展
新增 Chat 模型 Provider:
- Qwen(通义千问):完整支持阿里云通义千问系列模型
- Fireworks AI:支持多种开源模型的托管推理
- StepFun(阶跃星辰):支持阶跃星辰系列模型
6.2 Amazon Bedrock 增强
Amazon Bedrock 在 v2026.4.5 中获得重要更新:
- 新增 Mantle 模型支持:扩展支持的模型矩阵
- 推理配置文件自动发现:简化配置流程
- 请求区域自动注入:优化多区域部署
- 广泛模型路由支持:Claude、GPT-OSS、Qwen、Kimi、GLM 等
记忆 Embeddings 新增支持:Titan、Cohere、Nova、TwelveLabs 模型,为语义搜索提供更丰富的选择。
6.3 新增垂直场景 Provider
| 场景 | Provider | 说明 |
|---|---|---|
| 语音合成 | MiniMax TTS | 高质量语音生成 |
| 搜索增强 | MiniMax Search | 搜索结果优化 |
| 搜索增强 | Ollama Web Search | 本地模型搜索能力 |
6.4 其他 Provider 更新
- OpenAI:新增
openai-codex/gpt-5.4-mini前向兼容模型 - Gemini:新增系统提示缓存(cachedContents)自动管理功能
七、移动端与多平台增强
7.1 iOS 端更新
APNs 执行审批通知:iOS 用户现在可以直接在应用内收到命令执行审批通知,无需切换到其他平台即可完成审批操作。这是 Human-in-the-loop 审批流程在移动端的重要扩展。
7.2 Android 端更新
对话模式改进:
- 修复语音播放中断后的残留回复问题
- 恢复节点级会话的语音回复功能
7.3 Matrix 平台增强
原生执行审批提示:Matrix 用户现在支持账户级审批人和频道/DM 投递,扩展了多平台审批渠道的一致性体验。
八、ACPX 与 Claude CLI 改进
8.1 ACPX 运行时嵌入
ACPX 运行时直接嵌入:acpx 插件现在将 ACPX 运行时直接嵌入捆绑包中,移除了外部 ACP CLI 的额外跳转,降低延迟并简化部署架构。
8.2 Claude CLI 交互增强
- MCP 桥接暴露:OpenClaw 工具通过 MCP(Model Context Protocol)桥接暴露给后台 Claude CLI 运行
- 流式传输优化:切换到
stream-json进行部分消息流式传输,长回复现在可以实时显示进度
8.3 诊断工具增强
openclaw doctor 新增 Claude CLI 专用健康检查,简化故障排查流程。
九、其他重要修复与优化
控制面板改进:
- 新增会话级思考级别选择器
- 修复 Safari 浏览器崩溃问题
模型切换优化:修复实时模型切换时的 LiveSessionModelSwitchError 误报。
提示缓存优化:调整工作区项目上下文文件顺序,避免因 HEARTBEAT.md 内容变化导致缓存失效,显著提升缓存命中率。
Cron 定时任务修复:修复网关重启时自动重播中断的周期任务的问题。
Discord 媒体限制提升:媒体文件大小上限提升至 100MB。
Provider 问题修复:修复多个 Provider 的认证、流式传输和用量报告问题。
网关关停修复:修复即使没有跟踪的客户端也能正确关闭 WebSocket 的问题。
十、破坏性变更与迁移指南
10.1 配置别名移除
本次更新移除了多个旧版配置别名,统一使用规范化的公共配置路径。受影响的配置包括:
| 旧配置路径 | 迁移建议 |
|---|---|
talk.voiceId |
使用规范化路径 |
talk.apiKey |
使用规范化路径 |
agents.*.sandbox.perSession |
使用新配置结构 |
browser.ssrfPolicy.allowPrivateNetwork |
使用新配置结构 |
10.2 迁移步骤
- 运行自动修复:
openclaw doctor --fix
该命令会自动检测并迁移旧配置到新路径。
-
手动检查:如果手动配置了被移除的别名,请查阅完整更新日志并手动更新为规范路径。
-
兼容性说明:现有配置在加载时保持兼容,无需紧急修改,但建议尽快迁移。
十一、升级建议与最佳实践
11.1 升级步骤
# 方式一:使用 update 命令(推荐)
openclaw update
# 方式二:手动升级
npm install -g openclaw@latest
11.2 升级后检查清单
- 运行
openclaw doctor --fix完成配置迁移 - 检查控制面板多语言显示是否正常
- 测试新增的视频/音乐生成功能
- 验证 Dreaming 记忆系统(如已开启)
- 检查 ComfyUI 集成(如已配置)
11.3 功能开启建议
推荐开启的功能:
- Dreaming 记忆巩固系统(适合长期使用场景)
- 视频/音乐生成工具(适合内容创作场景)
- ComfyUI 工作流(适合高级定制需求)
常见问题解答
Q1:OpenClaw v2026.4.5 的视频生成需要付费吗?
视频生成功能本身免费,但需要配置支持的 Provider(如 xAI、阿里云、OpenAI Sora 等)的 API 密钥,这些 Provider 通常按使用量收费。阿里云 Model Studio 提供免费额度,xAI Grok 和 OpenAI Sora 需要付费订阅。
Q2:Dreaming 记忆系统是否会影响性能?
Dreaming 系统设计为后台异步运行,默认关闭,不影响默认使用体验。开启后,系统会在后台空闲时进行记忆整理,用户可通过 /dreaming status 查看运行状态。
Q3:如何选择合适的视频生成 Provider?
建议根据以下场景选择:快速创意探索使用 MiniMax 或 BytePlus(成本低、速度快);企业级应用使用阿里云 Wan 或 OpenAI Sora(质量高、稳定性好);需要风格迁移使用 Google Veo(支持视频参考输入)。
Q4:旧配置迁移失败怎么办?
如果 openclaw doctor --fix 迁移失败,可手动备份旧配置文件(通常位于 ~/.openclaw/config.json),然后对比官方文档重新配置。部分旧配置可能需要完全重写。
Q5:ComfyUI 集成与原生 Provider 相比有什么优势?
ComfyUI 支持完全自定义的工作流,用户可以使用自定义节点、LoRA 模型、ControlNet 等高级功能,适合对生成质量有特殊要求的场景。但配置复杂度较高,适合有经验的用户。
总结
OpenClaw v2026.4.5 是继往开来的里程碑版本,首次将视频生成和音乐生成作为内置工具开放,配合 Dreaming 记忆巩固系统和 ComfyUI 工作流集成,标志着 OpenClaw 从对话式 AI 助手向多模态内容创作平台的战略升级。12+ 视频/音乐 Provider 的原生支持、12 种新增语言、多平台审批渠道的统一,以及 Amazon Bedrock 的大幅增强,共同构建了更强大的 AI Agent 能力矩阵。推荐所有用户尽快升级,体验这些重磅新功能带来的效率提升。
上一篇 [第036篇] OpenClaw CVE-2026-25253漏洞修复与安全加固实战——CVSS 8.8高危漏洞完整防护指南
下一篇 [第038篇] OpenClaw v2026.4.7+v2026.4.8 深度解析:推理中心、记忆-wiki与多模态编辑能力全面升级
参考资料
- OpenClaw 官方文档 - 视频生成
- OpenClaw 官方文档 - 音乐生成
- OpenClaw v2026.4.5 发布:内置视频/音乐生成工具、多语言控制面板与 ComfyUI 集成
- OpenClaw 2026.4.5 重大新功能详解
- OpenClaw v2026.4.5:这次升级,终于把多媒体、记忆和任务体验都做实了
- OpenClaw 2026.4.5:视频/音乐生成内置,11 种语言支持
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)