AI Weekly 4.13-4.19

乱世刀疤

432人浏览 · 2026-04-21 08:23:17

乱世刀疤 · 2026-04-21 08:23:17 发布

本周 AI 快讯 | 1 分钟速览

01 智谱 AutoClaw 上线「自进化」机制与 Skill 商店 ：对话结束弹出「进化请求」卡片，用户批准后写入记忆；Skill 商店首发 GLM Office 五件套（PPT、DOCX、XLSX、PDF、Charts），外加女娲、横纵分析法、Frontend Slides 等专家共创 Skill。

02 阿里开源 Qwen3.6-35B-A3B，3B 激活拿下 SWE-bench Verified 73.4% ：Apache 2.0 协议，Terminal-Bench 2.0 拿下 51.5；原生 262K 上下文可扩至 101 万，闭源同门 Qwen3.6 Plus 同项 78.8 分。

03 MiniMax 开源 M2.7，首个参与自身训练的 Agent 模型 ：自主跑 100+ 轮优化自家脚手架，内部基准涨 30%；SWE-Pro 56.22 追平 GPT-5.3-Codex，Terminal Bench 2 拿下 57.0，GDPval-AA Elo 1495 居开源最高。

04 腾讯 QQ 原生接入 Hermes Agent，华为云 OfficeClaw 同周启动邀测 ：Hermes Agent 是 Nous Research 2 月开源的自进化 Agent，QQ 成为官方首批渠道；华为云 OfficeClaw 起家于工程师个人开源项目，主打「思辨专家团」多 Agent 模式，官网每天 10 点限量放邀请码。

05 火山引擎 Seedance 2.0 API 全面开放，四模态输入接入企业工作流 ：4 月 14 日正式开放，海外由 BytePlus 同步发布；配套 1 万多虚拟肖像库，短剧和漫剧行业接入后效率提升 80% 到 90%，豆包日均 Token 已破 120 万亿。

06 Anthropic 发布 Claude Opus 4.7，SWE-bench Verified 87.6%，价格不变 ：比前代 Opus 4.6 的 80.8 高 6.8 个百分点；SWE-bench Pro 64.3、CursorBench 70、OSWorld-Verified 78.0；API 沿用每百万 token 5 美元 / 25 美元的定价，但新版 tokenizer 让同样输入多消耗约 1.0 到 1.35 倍 token。

07 Anthropic 上线 Claude Design，Figma 股价跌 7.28%，Krieger 三天前辞董事 ：Claude Design 由 Opus 4.7 驱动，支持对话生成原型、PPT、品牌系统；Figma 股价跌至 18.84 美元，Adobe 跌 2.7%、Wix 跌 4.7%；4 月 14 日 Krieger 辞 Figma 董事，同日 The Information 爆料 Opus 4.7 将内置设计工具。

08 Anthropic 同步上线 Claude Code 例程和身份验证 ：routines 支持定时、API、GitHub 三种触发，Pro 每日 5 次、Max 15 次、Team 和 Enterprise 25 次；同步启用 Persona 身份验证，少量账户需上传政府证件和自拍，验证数据不用于训练。

09 OpenAI 反手三连发，Codex Mac 电脑操控、生物学 GPT-Rosalind、网络安全 GPT-5.4-Cyber ：GPT-5.4-Cyber 4 月 14 日扩面给数千名安全专家，对标 Claude Mythos Preview；Codex Mac 端 4 月 16 日加装电脑操控、应用内浏览器、图像生成和 90+ 插件；同日发布生物学专用 GPT-Rosalind，合作方含 Amgen、Moderna、艾伦研究所。

10 OpenAI 内部备忘录泄露，新模型 Spud 对撞 Claude，指控 Anthropic 虚报营收 80 亿 ：Denise Dresser 四页备忘录指 Anthropic 300 亿 run rate 是毛收入口径计算，按净收入实际约 220 亿；五大 Q2 优先级含新模型 Spud（即 GPT-5.5）、企业 Agent 平台 Frontier、亚马逊合作和部署引擎 DeployCo。

11 谷歌 Gemini 原生 Mac 应用上线，Swift 写成、100 天交付 ：4 月 15 日面向 macOS 15 及以上全球免费开放，Option + Space 唤起迷你聊天，支持屏幕共享和本地文件；内置 Nano Banana 图像、Veo 视频、音乐、Canvas、Deep Research 等工具；Gemini 是桌面 AI 三家里最后一个落地的。

01｜智谱 AutoClaw 上线「自进化」与 Skill 商店，让 Agent「越用越懂你」

「简洁点」「不要用破折号」「参考 XX 的风格」，这类重复叮嘱是很多人用 AI Agent 的共同痛点。4 月 17 日智谱给 AutoClaw（中文名「澳龙」，本地版 OpenClaw）加了一套「自进化」机制，每轮对话结束它会扫描用户的纠正、新教的方法、表达过的偏好和自己踩过的坑，把值得记住的经验抽成一张「进化请求」卡片。用户点同意后写入记忆，下一次同类任务就自动按新经验走。智谱官方的说法是「用得越多越懂你」。

同步上线的 Skill 商店首发 GLM Office 五件套，覆盖 PPT、DOCX、XLSX、PDF 和图表生成，背后是 GLM-5.1 为 Office 场景单独训练的能力。第二批专家共创 Skills 同步上架，由领域专家把自家方法论打包成可调用的 Skill，包括女娲、横纵分析法和 Frontend Slides 等。3 月 10 日 AutoClaw 刚以「国内首个一键本地部署的 OpenClaw 集成工具」身份发布，这次把自进化和 Skill 市场补齐，形态从「一键装龙虾」走向「带记忆、带能力库的本地 Agent 平台」。

02｜阿里开源「Qwen3.6-35B-A3B」，3B 激活拿下 SWE-bench Verified 73.4

35B 总参、3B 激活，SWE-bench Verified 73.4%。4 月 16 日阿里以 Apache 2.0 协议在 Hugging Face 开源了 Qwen3.6-35B-A3B，算是闭源 Qwen3.6 Plus（3 月 31 日发布、SWE-bench Verified 78.8 分）的开源版。MoE 架构只激活约 30 亿参数，等于拿 3B 的算力开销跑出了接近前代密集模型 Qwen3.5-27B 的能力。Terminal-Bench 2.0 拿下 51.5、MCP-Atlas 62.8、MCPMark 工具使用 37.0，较谷歌同量级开源 Gemma 4-31B 在多数编程基准上领先一档。

Qwen3.6-35B-A3B 原生支持 262144 token，配合 YaRN 可扩展至约 101 万，和闭源 Plus 版的百万上下文对齐。它原生多模态，支持文本、图像和视频输入，RefCOCO 指代理解拿下 92.0 分。Hugging Face 提供 BF16 权重，兼容 Transformers、vLLM、SGLang、KTransformers 等主流推理框架，也能直接接到 Qwen Code、OpenClaw 和 Claude Code 等 Agent 工具里跑。这是国产开源模型第一次把「小激活参数 + 强编程能力」这条路线拉满，算力有限的团队可以直接拿来跑。

03｜MiniMax 开源「M2.7」，首个参与自身训练的 Agent 模型

「让模型参与自己的训练」第一次有了具体数据。上周末 MiniMax 在 Hugging Face 开源了专门为 Agent 训练的 MoE 模型 M2.7，核心看点是一段被公开的内部实验。MiniMax 让 M2.7 的一个内部版本自主跑了 100 多轮优化自家的 Agent 脚手架，全程分析失败轨迹、改脚手架代码、跑评估、自行决定改动是否回滚。过程中模型自己发现了几项优化，包括系统性搜索温度和频率惩罚等采样参数的最佳区间、自动检查修复后同类 bug 是否出现在别的文件里、给 Agent 主循环加上死循环检测等。整个过程没有人工介入，内部基准最终抬高 30%。

跑分 M2.7 也不弱。SWE-Pro 56.22 追平 GPT-5.3-Codex，Terminal Bench 2 拿到 57.0，VIBE-Pro 55.6 接近 Claude Opus 4.6，NL2Repo 39.8。GDPval-AA 榜单 Elo 1495 是开源权重里最高的一档；MLE Bench Lite 上连跑三次 24 小时，最好一次拿下 9 金 5 银 1 铜，奖牌率 66.6%，并列 Gemini 3.1、仅次于 Opus 4.6 的 75.7%。权重已经放出，支持 SGLang、vLLM、Transformers、NVIDIA NIM 部署，另外提供常规版和 M2.7-highspeed 两档 API，后者速度更快。

04｜腾讯 QQ 原生接入 Hermes Agent，华为云 OfficeClaw 同周启动邀测

腾讯本周把 QQ 接进了开源 Agent 生态。4 月 16 日 QQ 原生接入 Hermes Agent，QQ Bot 插件已合入 Hermes 官方仓库，开发者在 Messaging Platforms 配置里选 QQ Bot 通道即可用，支持文字、语音、图片消息收发。Hermes Agent 是 Nous Research 2026 年 2 月开源的 Agent，主打「持久运行和自我进化」，上线两个月在 GitHub 拿下 8 万多 Star。按 OpenRouter 数据，Hermes 日调用量全球第二，编程 Agent 和 CLI Agent 两个类别都是第一，过去一个月调用量超过 1.6 万亿 Token，后端模型覆盖 Qwen3.6 Plus、MiMo-V2-Pro、MiniMax M2.7 和 Claude Opus 4.6 等。

另一边，4 月 16 日华为云在新品体验会上启动 OfficeClaw 邀测，这款企业级办公 Agent 面向 PPT 制作、邮件整理、纪要生成、深度洞察等场景。产品来历有点特别，起家于华为云一位工程师的个人开源项目 Cat Café，被团队看中后联合攻关、接上华为云企业服务能力做成了可交付版本。主打的「思辨专家团」模式让多位专家 Agent 平等对话，降低单一模型的主观偏差。4 月 17 日起华为云官网每天上午 10 点限量发放邀请码，也支持微信扫码直连。

05｜火山引擎「Seedance 2.0」API 全面开放，四模态输入接入企业工作流

4 月 14 日火山引擎正式开放 Seedance 2.0 API 服务，海外由 BytePlus 同步发布。这款视频生成模型此前仅内置在豆包、即梦、火山方舟体验中心里，开放 API 后企业和个人开发者可以直接调用，支持文、图、音、视四种模态输入，复杂交互和运动场景的物理准确度、真实感和可控性较前代均有提升。合规层火山引擎为 Seedance 2.0 建立了肖像和版权安全标准，企业在火山方舟控制台完成面部验证和肖像授权后对应图像才能用于视频创作，配套的虚拟肖像库预置了超过 10000 个覆盖不同年龄、职业的形象供开发者直接选用。

央视 2026 年春晚的《荷花神》等多个节目用 Seedance 2.0 做舞台效果生成，上影元拿它激活了一批上海美影厂的经典 IP。短剧和漫剧赛道里，聚睿鹿接入后 AI 剧集整体生产效率提升近 10 倍，九州文化、麦芽传媒等多家把从剧本到剪辑的全流程效率抬高 80% 到 90%，掌阅在 IP 改编场景上实现 5 倍以上提升。数十家具身智能企业用它生成机器人跨环境训练数据和 3D 场景重建素材，自动驾驶行业也在用它合成暴雨、大雾、雪天等极端工况数据。火山引擎同步披露，豆包大模型日均 Token 使用量已经超过 120 万亿，相比三个月前翻了一番。

06｜Anthropic 发布「Opus 4.7」，SWE-bench Verified 87.6，价格不变

4 月 16 日 Anthropic 正式发布 Claude Opus 4.7，Claude、API、Amazon Bedrock、Vertex AI、微软 Foundry 和 GitHub Copilot 全渠道同步上线。SWE-bench Verified 拿下 87.6 分，比 Opus 4.6 的 80.8 高 6.8 个百分点，也领先 Gemini 3.1 Pro 的 80.6；SWE-bench Pro 64.3 比 GPT-5.4 的 57.7 拉开近 7 分；CursorBench 70 对比 Opus 4.6 的 58 涨了 12 分。乐天内部的 Rakuten-SWE-Bench 上 Opus 4.7 解决的生产任务数是 Opus 4.6 的 3 倍。

电脑操作 OSWorld-Verified 从 72.7 涨到 78.0，超过 GPT-5.4 的 75.0，与未公开的 Claude Mythos Preview（79.6）只差 1.6 分；XBOW Visual Acuity 从 54.5 跳到 98.5。图像处理最高分辨率从 1568 像素提到 2576 像素，像素数约 3.3 倍。弱项是 BrowseComp，Opus 4.7 只拿到 79.3，落后 GPT-5.4 Pro 的 89.3 和 Gemini 3.1 Pro 的 85.9，涉及大量实时网页检索和跨页合成的 Agent 工作流值得先做对比评估。

API 沿用每百万 token 5 美元 / 25 美元的定价，但要留意 tokenizer 的变化。Opus 4.7 换了新版 tokenizer，同样输入比 Opus 4.6 多消耗约 1.0 到 1.35 倍 token，算下来实际成本会比前代略高。Prompt Caching 可省最多 90%，Batch API 对输入输出各打 5 折。GitHub Copilot 侧 Opus 4.7 4 月 30 日前以 7.5 倍请求倍率上线 Pro+ 订阅，之后逐步替换掉 Opus 4.5 和 Opus 4.6。此外新增 xhigh 档思考强度，Hex 测试显示 Opus 4.6 的 high 档大致对应 Opus 4.7 的 low 档，迁移时把思考预算档位同步抬一档才能得到可比输出。

07｜Anthropic 上线 Claude Design，Figma 股价跌 7.28%，Krieger 三天前辞董事

Mike Krieger 在 4 月 14 日这天做了两件事。第一件是以 Anthropic 首席产品官身份向 SEC 披露辞去 Figma 董事会席位，当日生效。第二件是那天晚些时候 The Information 爆料 Anthropic 即将发布的 Opus 4.7 将内置设计工具，与 Figma 核心产品形成直接竞争。Krieger 是 Instagram 联合创始人，2024 年出任 Anthropic 首席产品官，去年才加入 Figma 董事会，如今主管 Anthropic Labs 实验室团队。两件事同一天落地，合作期就此结束，接下来就是正面交锋。

4 月 17 日 Anthropic Labs 正式上线 Claude Design，由 Opus 4.7 驱动，面向 Pro、Max、Team 和 Enterprise 订阅用户开放（Enterprise 默认关闭，需管理员手动打开）。用户以对话描述想要的界面或幻灯片，Claude 生成初稿后通过对话、批注、直接编辑或 Claude 自动生成的自定义滑块继续微调。首次使用会读取用户代码仓库和设计文件建立一套专属设计系统，后续项目自动沿用颜色、字体和组件。导出支持 Canva、PDF、PPTX 和独立 HTML 文件，也能一键切到 Claude Code 继续编码；Claude Design 的额度独立计算，不占聊天和 Claude Code 的订阅配额。

Claude Design 上线当日 Figma 股价盘中最大跌幅 7.28%，收于 18.84 美元，前一日收盘是 20.32 美元，Adobe 跌 2.7%、Wix 跌 4.7%、GoDaddy 跌 3%。Figma 自去年夏天 IPO 以来股价已从高点跌超过 80%，整体估值从 600 多亿美元缩到约 100 亿。Canva 则选择站到桌子另一边，Claude Design 的图像渲染引擎由 Canva 的 Design Engine 提供，Canva 同步推出 HTML 导入能力，把 Claude 生成的交互稿接回自家编辑器继续精修。

08｜Anthropic 同步上线 Claude Code「例程」与身份验证

Claude Code 本周补上了 cron 定时任务和 AI Agent 之间的那一层。4 月 14 日 Anthropic 把 routines 加进 Claude Code 研究预览，一次配好 prompt、仓库和触发器就能反复执行。三种触发方式分别是定时（每小时、每晚或每周）、API（带 bearer token 的 HTTP POST）、GitHub（响应 PR 或 Release 等仓库事件），常见用法包括每晚整理积压 issue、合并 PR 后扫描文档漂移、部署完成跑回归并发到发布频道。Claude 默认只能把改动推到 claude/ 前缀分支以免误动 main，用量上 Pro 每日 5 次、Max 15 次、Team 和 Enterprise 25 次，超出按计量计费。同周 Anthropic 还翻新了 Claude Code 桌面客户端，支持同窗口并排多个会话、集成终端和更快的 diff 查看器。

同一天 Anthropic 还悄悄上线了身份验证页面，开始要求部分用户上传政府颁发的证件和一张实时自拍，合作方 Persona Identities 是金融服务常用的 KYC 基础设施。Anthropic 的说法是仅对「少量」账户触发，场景是疑似欺诈或违反使用政策，流程通常不到 5 分钟，证件和自拍由 Persona 保管，Anthropic 不复制、不存储、也不会用于训练模型。争议立刻就来了，有用户在社交媒体喊话「OpenAI 和谷歌不要，Anthropic 这是把用户送给竞争对手」，也有声音把它和去年 10 月 Discord 约 7 万份证件照泄露事件放在一起比较。

09｜OpenAI 反手三连发，Codex Mac 电脑操控、生物学「GPT-Rosalind」、网络安全「GPT-5.4-Cyber」

4 月 14 日 OpenAI 把 GPT-5.4-Cyber 向「可信访问」计划（TAC）扩到数千名通过审核的安全专家和数百个团队，节奏直接对标 Anthropic 一周前把 Claude Mythos Preview 发给约 40 家机构的 Project Glasswing。GPT-5.4-Cyber 是 GPT-5.4 针对防御工作做的微调版，降低了正当安全研究的拒答门槛，新增二进制逆向工程能力，可以在没有源码的情况下分析编译后软件挖漏洞。OpenAI 顺便披露 Codex Security 近期扩面后已协助修复生态内超过 3000 个关键和高危漏洞。

4 月 16 日 Codex 桌面 Mac 端做了一次大更新，最关键的一项是新加的电脑操控能力。Codex 可以用自己的光标操作 Mac 桌面应用，支持多 Agent 并行、不干扰用户当前工作，主要面向前端调试和游戏开发。同步上线的还有应用内浏览器（可在页面上批注给 Agent 指令）、基于 gpt-image-1.5 的图像生成、跨会话记忆和自动化，Codex 可以跨天甚至跨周执行任务，响应 Slack、Gmail、Notion 中的活动。新增的 90 多个插件涵盖 Atlassian Rovo、CircleCI、CodeRabbit、GitLab Issues、Microsoft Suite、Neon、Remotion 和 Render 等。这次也是 Codex 首次支持 Intel Mac，OpenAI 同时披露 Codex 目前有 300 万周活开发者。

同日发布的 GPT-Rosalind 是 OpenAI 首款生物学专用模型，致敬 DNA 双螺旋发现者 Rosalind Franklin，定位「生命科学系列」第一款，面向药物发现和转化医学。模型基于 50 种常见生物学工作流训练并接入主流公共生物数据库，BixBench 生物信息与数据分析基准 0.751 通过率，LABBench2 在 11 项研究任务中 6 项超过 GPT-5.4。与 Dyno Therapeutics 合作的 RNA 序列功能预测评估使用了从未进入公开数据集的未发表序列，GPT-Rosalind 十次最佳提交里预测任务超过 95% 的人类专家，序列生成任务达到 84 分位。模型走「Trusted Access」路线，仅向少数合格企业开放研究预览。这一周 OpenAI 和 Anthropic 把战线分别延伸进了设计工具和制药研究。

10｜OpenAI 内部备忘录泄露，新模型「Spud」对撞 Claude，指控 Anthropic 虚报营收 80 亿

一份四页内部备忘录 4 月 13 日晚间从 OpenAI 泄露。发件人是今年 2 月从前 COO Brad Lightcap 手里接过职能的首席营收官 Denise Dresser，备忘录被媒体视为她上任后第一次全员战略宣言，矛头直指 Anthropic。Dresser 称 Anthropic 披露的 300 亿美元年化 run rate 是按毛收入口径计算（把 AWS、Azure、Google Cloud 分销渠道的全额计入自家收入），高估了约 80 亿；按 OpenAI 对微软 Azure 分成采用的净收入口径核算，Anthropic 真实可比的 run rate 接近 220 亿，低于 OpenAI 2 月披露的 250 亿。Anthropic 回应称自己在合作中担任交易主体、云厂商是分销渠道，毛收入口径符合会计准则。两家都在筹备 IPO，这是他们第一次在营收口径上公开较量。

备忘录同时披露了 OpenAI Q2 的五个优先级。第一个是代号 Spud 的新模型（即 GPT-5.5），3 月 24 日预训练完成，Sam Altman 此前说距离发布「只有几周」，Greg Brockman 形容它是「两年研究的成果」。第二项是企业 Agent 平台 Frontier，被定位为「企业 Agent 的默认平台」，第三项是 4 月初已宣布的亚马逊合作，亚马逊最多投 500 亿并承诺算力、拿下 Frontier 的第三方云独家分销权，这一动作也拉紧了 OpenAI 和微软的关系。第四项是让 ChatGPT for Work、Codex、API 和 Frontier 横向打通，做「一家有多个入口的平台公司」。最后一项是名为 DeployCo 的部署引擎，配合「Frontier Alliance」合作伙伴解决企业落地规模化的瓶颈，备忘录里对 Anthropic 的收尾评价直白，「不要做平台战争里的单一产品公司」。

11｜谷歌 Gemini 原生 Mac 应用上线，Swift 写成、100 天交付

100 天，100 多项功能，100% Swift。4 月 15 日谷歌上线 Gemini 原生 Mac 应用，面向 macOS 15 及以上版本全球免费开放，谷歌 CEO Sundar Pichai 在社交媒体披露这是一支小团队用谷歌自家的 Antigravity 写出来的。Option + Space 唤起迷你聊天框，Option + Shift + Space 唤起完整聊天界面，两个快捷键都能在设置里自定义，Dock 和菜单栏都能调出应用。

比 ChatGPT 和 Claude 桌面端多的一块能力是屏幕共享。用户可以把任意窗口或本地文件共享给 Gemini 后直接提问，比如丢一张复杂图表过去让它给出三个核心要点。内置工具涵盖图像生成 Nano Banana、视频生成 Veo、音乐、Canvas、Deep Research、Guided Learning 和 Personal Intelligence 等。桌面 AI 御三家至此补齐，OpenAI 和 Anthropic 的 Mac 客户端早已推出，Gemini 是最后一个落地。谷歌同时预告 Gemini Live 语音模式即将登陆桌面，作为常驻「悬浮球」提供实时对话。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

OpenClaw实操指南42｜安全边界2：提示词注入与沙箱防护

AtomGit开源社区

如何在CV中使用transformer

AtomGit开源社区

穿透AI Agent五大范式：原理、源码与工程实践

AI Agent技术正在重塑人机交互的边界。与传统聊天机器人不同，Agent具备自主决策、工具调用和任务执行的闭环能力。本文将深入剖析五大核心范式，从原理到源码，从理论到实践，为读者提供系统化的技术指南。本文深入解析了AI Agent的五大核心范式，从理论原理到源代码实现，再到工程实践，为读者提供了完整的技术指南。关键要点总结范式选择原则：根据任务复杂度、准确度要求和成本预算动态选择工程实践建议：