AI做好复杂系统该怎么做?

单个Agent问题在哪里?

上下文退化

AI 模型处理信息的方式,可以想象成一个白板。你往上面写的东西越多,前面的内容就越难看清楚。随着任务越来越长,模型会逐渐失去对整体目标的把握,开始产生前后矛盾、逻辑断裂。

有些模型甚至会产生"上下文焦虑"——它感觉白板快写满了,于是提前宣告"工作完成",即使任务根本没完成。

解决这个问题的方式,不是压缩上下文,而是彻底清空,重新来过。给模型一块全新的白板继续工作。

自我评估偏差

让 AI 评估自己的作品,它几乎总是打高分。

把"做"和"评"分开,让不同的 AI 负责。

从GAN(生成对抗网络)开始

GAN(生成对抗网络,Generative Adversarial Network):一种由两个神经网络组成的框架。一个负责"生成"(造假),一个负责"判别"(鉴假)。两者互相博弈,生成方不断改进,判别方不断提高标准,最终生成出质量越来越高的内容。就像一个造假币的人和一个验钞员,彼此逼着对方越来越厉害。

一个 AI 负责生成,另一个 AI 负责评估。 生成方输出内容,评估方提出批评,生成方根据批评改进,循环往复。

前端设计好看怎么评估?

标准

评估内容

设计质量

颜色、字体、版式、图像是否构成一套有辨识度的视觉语言,整体是否有凝聚力

原创性

是否有明显的刻意选择,还是堆砌了一堆模板化的 AI 默认风格

工艺

字体层级、间距、色彩和谐度、对比度等具体执行细节

功能性

用户能否顺畅完成任务,界面是否真正可用

评估者 AI 用 Playwright 实际打开页面、截图、和界面互动,然后给出具体批评。生成者 AI 根据这些批评修改,每次完整运行经历5到15轮迭代,有时长达四个小时。

全栈开发

规划者(Planner)

用户只需要给一两句话的描述,规划者 AI 把它扩展成一份完整的产品规格书:十个以上的功能点,分成若干个开发冲刺。

这里有个重要的设计原则:规格书应该说清楚"做什么",而不应该事无巨细地规定"怎么做"。过度规定技术细节,反而容易在后续实现中引发连锁错误。就像指挥官不应该告诉士兵每一步怎么走,而是告诉他们要拿下哪个山头。

实现者(Generator)

按照规格书逐个冲刺实现功能,技术栈通常是 React、Vite、FastAPI、SQLite 或 PostgreSQL。在把代码交给 QA 之前,实现者 AI 会先做一轮自我检查,全程用 Git 做版本管理,保证每个节点都可以回滚。

评估者(Evaluator)

像真实用户一样用 Playwright 测试正在运行的应用。在每个冲刺开始之前,评估者会和实现者协商一份"冲刺合约",提前定义好这个冲刺要达到的可测试标准。冲刺完成后,评估者按合约验收,提交具体的 bug 报告,包括复现步骤、问题路径、逻辑漏洞。

Playwright:一个浏览器自动化框架,可以让程序像真实用户一样打开网页、点击按钮、填写表单、截图。在这套系统里,评估者 AI 用它来模拟真实的用户行为,测试应用是否真正可用。就像让一个机器人帮你测试软件,而且它永远不会偷懒跳过某个步骤。

写在最后

AI员工重构操作系统

当前的AI形式的问题

智能体工作流构建器(如n8n、Dify、Flowise等工具)非常适合用于原型开发。你只需要将节点拖到画布上,将它们连接起来,就能得到一个看起来像智能体工作流的东西。问题在于,它们很快就会遇到瓶颈。复杂的多智能体协调、动态任务分配、企业访问控制、审计跟踪等,大多数这类工具并非为此而设计。

代码优先的框架(LangChain、CrewAI、AutoGen)可以赋予你强大的能力,但很麻烦。你需要用Python编写图定义,配置基于角色的代理模式,手动管理状态。有经验的开发者会告诉你:一旦你的agents.py文件超过几百行,这种抽象化设计反而会开始对你造成阻碍。调试很痛苦,重写也成了家常便饭。

个人AI助手(OpenAI的智能体、Claude、处于助手模式的Gemini)在处理单个任务方面表现出色。你可以让它们研究某个主题、起草文档或执行单个工作流程。它们一次处理一个对话。但它们并非为协调一组专业智能体围绕共同目标并行开展工作而设计。

以下是所有这些内容的模式:

  • 它们只能帮你一次构建或交互一个智能体
  • 它们没有统一的方式来管理一批智能体
  • 它们无法通过自然语言为已部署的智能体分配新任务
  • 它们不具备共享内存、共享状态或共享管控层

AI操作系统意思

操作系统并不负责编写程序,而是运行程序并对程序间的资源进行管理。它为你提供统一的操作界面,用于查看和控制设备上发生的所有操作。它会执行权限管控、记录运行活动,并妥善处理各类运行故障。

面向AI Agent的操作系统也会发挥同样的作用,只不过服务对象是你的智能体团队。

  • 无需编写任何代码,即可创建、修改并部署智能体
  • 通过自然语言指挥所有智能体集群
  • 为专业智能体分配任务并监控其执行进度
  • 将智能体接入共享知识库、共享数据与共享工具
  • 设置权限,确保不同团队仅能访问对应智能体
  • 查看运行日志,审计执行记录,清晰掌握每个智能体的具体行为

实践者:https://www.sim.ai/

快速搞定公众号排版

问题

不支持 CSS 类名。你在 HTML 里写 class="highlight",微信直接给你删掉。所有样式必须写成内联的 style="color: red; font-size: 16px"——每个标签都要写一遍。

不支持外部链接。你在文章里放一个 [点击这里](https://...) ,微信会把链接吃掉,读者看到的就是一段没有链接的纯文本。

图片必须在微信服务器上。你本地的图片、别的 CDN 的图片,粘贴进去都不显示,必须先上传到微信的素材库拿到 mmbiz.qpic.cn 的地址。

市面上MD转微信工具:mdnice、135 编辑器、墨滴

安装方式

帮我安装这个公众号排版技能 https://github.com/xiaohuailabs/xiaohu-wechat-format

具体操作步骤

首先对AI说:

排版这篇文章 /path/to/article.md
  1. 读文章,分析内容结构

它会判断文章类型(访谈?教程?深度分析?),然后自动做一些排版增强。比如检测到对话体内容会套上聊天气泡容器,检测到金句会加高亮框,连续多张图片会变成横向滚动画廊。

  1. 打开主题画廊

浏览器里会弹出一个页面,用你的真实文章渲染了 30 个主题

  • 深度长文:报纸、杂志、墨韵、咖啡——严肃、留白多、适合万字长文
  • 科技产品:字节蓝、GitHub、少数派、暗夜——现代、代码友好
  • 文艺随笔:赤陶、薄荷、日落、薰衣草——有温度、有情绪
  • 活力动态:运动、包豪斯、中国风、微信原生——醒目、节奏快
  • 模板系列:简约/聚焦/精致/醒目 × 多种配色——同一布局换个色
  1. 生成微信兼容 HTML

所有样式写成内联、外链自动转脚注、图片路径自动处理。输出一个 HTML 文件,打开就是手机上看到的效果。

  1. 推送到草稿箱(可选)

如果配了公众号 AppID 和 AppSecret,可以直接推到草稿箱,图片自动上传到微信 CDN。

公众号推送配置

要用自动推送功能,编辑 config.json

{
  "wechat": {
    "app_id": "你的AppID",
    "app_secret": "你的AppSecret"
  }
}

地址:https://developers.weixin.qq.com/

⚠️ IP 白名单

必须把你的公网 IP 加到公众号后台的 IP 白名单里,否则会报 40164 错误。每次换网络环境(比如换 WiFi、用热点)IP 都会变,得重新加。

封面图生成

公众号发文必须有封面图。如果你手边没有现成的,可以让 Claude Code 帮你生成:


给这篇文章生成封面图

封面图生成用的是 Gemini 的图片生成 API。你需要一个 Gemini API Key,在技能的 config.json 里配置:


{ "gemini_api_key": "你的Gemini API Key" }

开源地址:https://github.com/xiaohuailabs/xiaohu-wechat-format

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐