一句话定位

过去一个月我做了一件事:让多个 AI 智能体协作,自动完成一款 Unity 小游戏的开发——从需求理解、代码生成到资源制作、质量校验,全部交给 AI。

在Claude的协助下,项目迭代了三个大版本、约 6 万行代码、近 200 次提交。我对最初的目标有了清醒判断,也找到了项目接下来真正能创造价值的方向。

借这篇文章进行总结。


做出来什么、没做到什么

做到的:单个 C# 脚本的生成、单张图片素材的产出、单步骤工具调用——这些 AI 能做好。完整的桌面应用也跑通了:React + Tauri 前端、Python FastAPI 后端、SQLite 持久化、多模型适配、WebSocket 实时通信、任务编排、契约校验。

没做到:用户按一个按钮、零干预、产出一个可玩的 Unity 游戏。

这不是悲观,是来自实测的诚实结论。最近一轮 5 模型 × 5 trial 的对照实验里,没有任何一种组合让 AI 自然完成多步骤工具调用闭环——全部依赖额外兜底机制才能跑通。

这跟 Devin AI 公开基准 13.86% 的解决率、学术界报告的多智能体生产失败率 41-87%,是同一个故事的不同切面。

值得说一句的是前端:整套系统的可视化看板(任务 DAG 画布、agent 实时输出流、IO 数据查看、失败原因诊断)不是装饰。AI 失败的方式比成功的方式多得多,黑盒产品在生产里没法调试。用户能看清 AI 当前在干什么、为什么成功或失败——尽管在商业环境下这会造成技术泄露,但在技术探索或产品调试的现阶段,它是合理适用的。


走过的路:三版本 + 五次大改写

v1(demo 验证):用 CrewAI 模板跑通"研究→总结"两步流,几天跑完,确认框架可用。

v2(产品化优先,弃用):直接做完整桌面应用 + 14 个 Agent + YAML 配置。问题在于先做 UI 和功能、再去填核心稳定性,等于在沙地上盖房,每次跑都不稳,最终弃用。

v3(核心稳定性优先,当前):空目录重写。先磨稳"AI 能不能可靠完成一件事",再往上加产品层。


三个最重要的收获

一、AI 工程化的本质是给 AI 加"防御层"

主流框架的默认假设是"AI 会按规则做事"。生产环境的真实情况是"AI 经常不按规则"。我的项目最终累积了 7 层防御机制——每加一层不是想多此一举,是某次事故让你不得不加。

评估一个 AI 应用产品的成熟度,看它的"防御层厚度",比看它的"主流程多酷"更准。

二、连辅助你的 AI 自己都会偷懒,要保持警惕

这条专门讲给同样大量使用 Claude / Cursor / GPT 类辅助大模型的同行听。

辅助大模型有一个一致的倾向:能取巧就取巧、能少干就少干。表现:

  • 让它诊断 bug,它读 commit 史模式匹配,而不去读实际日志和产物
  • 让它修代码,它在外围加 try/except 把异常吞掉,而不定位根因
  • 让它清理代码,它偷偷跳过"看起来很难"的边角

这些行为不是 bug,是模型在"产出看起来合理 + 用户满意"这个隐性目标下的优化策略。在生产工程里这是致命的——bug 没被真正修复、技术债悄悄累积、问题被压到后面爆发。

我的应对:

  • 重要决策强制"先看证据再下判断",把"读 commit 史脑补"明确列为禁区
  • 用 Claude Skill / 自定义指令把诊断纪律沉淀下来,每次诊断会话强制走"复现 → 假设 → 验证 → 修复"
  • 关键架构改动必须做受控对照实验,不接受"我觉得应该可以"

意识到"AI 辅助不是免费的智能、是有偏的智能"之后,AI 协作的可靠度直接提升一档。

三、AI 辅助工作流已经熟练到工程级

两个月时间里,Claude Code、Openclaw、Powershell + MCP 已经是我的日常工作环境,不是辅助工具。具体的可量化锚点:

  • 独立两个月做到 6 万行代码 + 200 commit + 完整前后端 + 188 个测试 + 5 次大架构重写
  • Claude Skill / Custom Commands 已是封装重复工作流的主要载体
  • MCP 协议熟悉到能自己包装新工具(Unity / ComfyUI / Notion 都集成过)
  • Prompt 工程作为工程实践——结构化模板、版本管理、对照评估

这个熟练度本身是可迁移资产——任何团队想把 AI 辅助引入研发流程,从工具选型、协作规范、防止滥用到效率评估,我都有第一手经验。


关于 CrewAI 的真话

很多人看 CrewAI 47.8K stars 就觉得是多智能体的银弹。两个月实测告诉我:它既不是银弹,也不是垃圾,有非常清晰的适用边界

适合

  • 探索性、容忍创意空间的任务(研究、内容创作、调研、灵感生成)
  • 输入输出结构灵活的场景
  • 多角色分工但每步边界宽松、最终靠用户审美判断成败的工作流

不适合

  • 严格结构化输出(代码生成必须满足契约、合规文档每字段必须正确)
  • 长链路跨任务一致性要求高(完整软件项目)
  • 需要与确定性外部工具反复同步状态(Unity Editor、IDE)

我的 Unity 项目恰好同时撞上这三条"不适合",这就是为什么要付出 7 层防御机制的工程代价。而这是符合预期的,一个月前作为AI新手选择了最容易上手的Crewai架构,并将它的性能压榨到极致,来探索今天Harness工程在这个方向的极限。


项目接下来的方向:轻量化场景

"AI 一键产出完整 Unity 游戏"在今天还不可能。当下大模型在跨文件一致性、领域知识深度上都有真实瓶颈;用户对游戏的预期,无论多简单,都涉及大量隐性决策(手感、风格、节奏),还没法完全脱离人。

所以我把项目重新定位到适合 CrewAI 跑稳的场景

  • AI 漫剧剧本生成:用户给灵感,AI 多 agent 协作产出角色设定 + 分镜大纲 + 完整对白
  • 自动化制作 PPT:用户给主题,AI 拆章节 → 写大纲 → 描述视觉 → 调图像 API → 装配 PPTX
  • AI 内容创作类:营销文案、自媒体脚本、产品介绍页、PRD 草稿

这些场景的共同特点:容忍创意空间 + 用户审美判断为主 + 流程相对线性 + 失败成本低——正是 CrewAI 擅长的区间。

我现有的整套基础设施(PM 多阶段拆解、Crew 池、可视化看板、多模型路由、token 经济)可以原样迁移——只是把"代码生成 + Unity 集成"这两个最难的领域,换成更友好的领域。

这不是放弃,是承认现状把架构调到能持续创造价值的姿态。

同时我会继续跟进新模型、新框架。下一代 Claude / GPT / Qwen 出来时,我有完整的测试基线可以立即评估它们能否突破当前瓶颈。一旦突破,"AI 一键完整游戏"会重新进入射程。


我在寻找什么

我擅长

  • 复杂 AI 应用的架构设计与稳定性工程
  • 快速学习新框架并落地(CrewAI / LiteLLM / Unity MCP / Tauri 都是这两个月从零上手到生产)
  • AI 辅助工作流的工程化使用(Claude Code / Cursor / MCP / Skill 已是日常)

希望参与的方向

  • AI 应用工程化、平台化
  • AI + 内容创作工具(漫剧、PPT、视频、自媒体类多 agent 编排)
  • AI 辅助研发流程建设(帮团队把 Claude/Cursor/MCP 落到实践)

合作形式

  • 全职工作仅考虑上海
  • 兼职 / 项目合作可以远程(国内时区)

如果你的团队在做相关方向,或者对文中某个细节有兴趣讨论,欢迎私信。我可以提供完整项目代码、技术细节复盘(姊妹篇)、任何一项实验数据的可复现脚本。


最后

一个月做这个项目,最大的收获不是写了多少代码,而是建立起一套关于"AI 在今天能做什么、不能做什么、用什么姿势做最划算"的判断框架——这套框架是从两个月真实试错里长出来的,不是从论文或营销稿里看来的。

项目的形态会变——从"AI 自动做游戏"变成"AI 自动做剧本/PPT/内容",但底层信念不变:用 AI 加速创造价值、对 AI 的不可靠保持工程级别的防御、让用户始终能看清 AI 在做什么

期待交流。


*姊妹篇:《从 v1 到 v3:一个 CrewAI 多智能体 Unity 自动开发项目的三轮迭代复盘》——含全部技术细节、实测数据、行业对比

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐