几天前,我在 GitHub 上开源了 AI Flow Architect。

当时的想法很朴素:让 AI 做事,别让它自己检查自己。用两个独立的大脑,一个生成,一个审查,中间加一道对抗评审。114 个单元测试,项目跑通了。

但最近我意识到,我做的这件事,定位从一开始就错了。

我以为我在做一个框架。实际上,我在做的是一层信任中间件

这两件事,差别很大。


为什么需要"信任"

你用 GPT-4 写了一段登录逻辑。它给你的代码看起来很干净——API 设计合理,数据库 schema 整洁,中间件也到位了。你扫了一遍,感觉不错,合进主分支。

三周后,安全扫描报警:密码哈希用的是 MD5,登录接口没有限速。

这不是 GPT-4 在撒谎。它只是没有机制发现自己的盲点。

同一个模型检查自己的输出,等于什么都没检查。这是结构性问题,不是提示词问题,换再好的 prompt 也绕不过去。


从"框架"到"生态"——我的认知转变

AI Flow Architect 最初的设计是:你把任务扔进来,它跑完整的三阶段流水线——Brain#1 规划、专家团队执行、Brain#2 仲裁。全自动,有质量保证。

这个设计本身没有问题。但它有一个隐含假设:你愿意换掉现有工作流。

现实是:大多数人有自己的 LangChain 链、自己的 Cursor 工作流、自己的 CI/CD 流程。没有人想因为引入一个质量工具就重写整个项目。

所以我做了一个决定:把 TrustEngine 从框架里剥离出来,做成独立的审计层。

你不需要用 FlowArchitect。你只需要:

from ai_flow_architect import TrustEngine

engine = TrustEngine(brain2="claude-3-5-sonnet")
report = engine.audit(
    requirement="实现带限速的密码重置接口",
    ai_output=your_generated_code
)
print(report.verdict)   # "pass" | "review" | "reject"

三行代码,任何地方都能加进去。你的框架不变,你的工作流不变。


生态架构图——三层设计

现在整个项目分三层:

底层:TrustEngine(信任引擎) 这是核心,也是最小可用单元。三个审查员并行跑(BrainTwo 多元仲裁),BrainOpponent 做反例攻防,最后输出带证据链的 TrustReport。它是无状态的,没有副作用,你可以把它插进任何地方。

关键设计:它会告诉你它不确定什么

## Uncertainty
- [HIGH] 并发安全:仲裁员意见分歧(60 vs 90),建议人工复查
- [MEDIUM] 边缘情况:未覆盖负数输入场景

一个永远输出"通过"的审计工具没有意义。TrustEngine 会诚实地承认自己的局限。

中层:包装层(三种接入方式)

  • API:FastAPI 服务,一次部署,团队共享
  • Skill:IDE 插件形式,一条命令调用
  • GitHub Action:PR 自动触发审查,merge 前拦截

入乡随俗。你用什么工作流,就用什么方式接进来。

上层:FlowArchitect(完整框架) 完整的三阶段流水线,BrainOne 规划 → 专家执行 → TrustEngine 审查 → 全程可追溯记录。适合需要完整质量保证的场景。


TrustReport——审计结果长什么样

这是一次真实审查的输出。被审的是一个银行系统的登录服务。

三个仲裁员,三种视角:

  • GPT-4o(严格审计员):评分 60,REJECT——发现了 SQL 注入和竞态条件
  • Claude-3.5-Sonnet(架构师):评分 85,PASS——架构整体合理
  • DeepSeek-Chat(代码审查员):评分 70,PASS——有问题但可接受

最终判决:REJECT,置信度 40/100

置信度低不是系统的失败,是系统在告诉你:仲裁员之间存在严重分歧,这件事需要你人工决定,不能交给 AI 自动处理。

这是我认为最重要的设计哲学:AI 该做的是把问题摆到你面前,而不是替你做决定。

证据链是 SHA-256 哈希 + UTC 时间戳,每次审查结果都可追溯、可复现。


当前状态和下一步

项目目前的状态:

  • 177 个单元测试,全部通过
  • 支持 OpenAI + Anthropic 生产验证,另有 5 个 OpenAI 兼容协议提供商(DashScope、GLM、Moonshot、DeepSeek、Ollama)等待社区验证
  • TrustEngine 已独立可用
  • FlowArchitect 完整流水线可运行

接下来在做的:

  • PyPI 包(pip install ai-flow-architect
  • CLI 接口(ai-flow audit your_code.py
  • 并行执行(当前专家串行,独立步骤可以并发)

结尾

我不想造一个让大家都来用我框架的工具。

我想造的是一层每个人都能插进自己工作流里的东西——不管你用 LangChain、用 Cursor、用自己写的脚本,都能在 AI 输出和你信任它之间,加一道真正有用的检查。

幻觉的问题不会因为模型变强就消失。它会因为你有了独立的、诚实的审计机制而变得可管理。

GitHub:https://github.com/wdnmd1265/ai-flow-architect

如果你也在用 AI 生成代码,欢迎试试,有问题直接开 issue。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐