一个月独立做“AI 自动开发 Unity 游戏“

wenhuawasi

393人浏览 · 2026-05-21 17:51:33

wenhuawasi · 2026-05-21 17:51:33 发布

一句话定位

过去一个月我做了一件事：让多个 AI 智能体协作，自动完成一款 Unity 小游戏的开发——从需求理解、代码生成到资源制作、质量校验，全部交给 AI。

在Claude的协助下，项目迭代了三个大版本、约 6 万行代码、近 200 次提交。我对最初的目标有了清醒判断，也找到了项目接下来真正能创造价值的方向。

借这篇文章进行总结。

做出来什么、没做到什么

做到的：单个 C# 脚本的生成、单张图片素材的产出、单步骤工具调用——这些 AI 能做好。完整的桌面应用也跑通了：React + Tauri 前端、Python FastAPI 后端、SQLite 持久化、多模型适配、WebSocket 实时通信、任务编排、契约校验。

没做到：用户按一个按钮、零干预、产出一个可玩的 Unity 游戏。

这不是悲观，是来自实测的诚实结论。最近一轮 5 模型 × 5 trial 的对照实验里，没有任何一种组合让 AI 自然完成多步骤工具调用闭环——全部依赖额外兜底机制才能跑通。

这跟 Devin AI 公开基准 13.86% 的解决率、学术界报告的多智能体生产失败率 41-87%，是同一个故事的不同切面。

值得说一句的是前端：整套系统的可视化看板（任务 DAG 画布、agent 实时输出流、IO 数据查看、失败原因诊断）不是装饰。AI 失败的方式比成功的方式多得多，黑盒产品在生产里没法调试。用户能看清 AI 当前在干什么、为什么成功或失败——尽管在商业环境下这会造成技术泄露，但在技术探索或产品调试的现阶段，它是合理适用的。

走过的路：三版本 + 五次大改写

v1（demo 验证）：用 CrewAI 模板跑通"研究→总结"两步流，几天跑完，确认框架可用。

v2（产品化优先，弃用）：直接做完整桌面应用 + 14 个 Agent + YAML 配置。问题在于先做 UI 和功能、再去填核心稳定性，等于在沙地上盖房，每次跑都不稳，最终弃用。

v3（核心稳定性优先，当前）：空目录重写。先磨稳"AI 能不能可靠完成一件事"，再往上加产品层。

三个最重要的收获

一、AI 工程化的本质是给 AI 加"防御层"

主流框架的默认假设是"AI 会按规则做事"。生产环境的真实情况是"AI 经常不按规则"。我的项目最终累积了 7 层防御机制——每加一层不是想多此一举，是某次事故让你不得不加。

评估一个 AI 应用产品的成熟度，看它的"防御层厚度"，比看它的"主流程多酷"更准。

二、连辅助你的 AI 自己都会偷懒，要保持警惕

这条专门讲给同样大量使用 Claude / Cursor / GPT 类辅助大模型的同行听。

辅助大模型有一个一致的倾向：能取巧就取巧、能少干就少干。表现：

让它诊断 bug，它读 commit 史模式匹配，而不去读实际日志和产物
让它修代码，它在外围加 try/except 把异常吞掉，而不定位根因
让它清理代码，它偷偷跳过"看起来很难"的边角

这些行为不是 bug，是模型在"产出看起来合理 + 用户满意"这个隐性目标下的优化策略。在生产工程里这是致命的——bug 没被真正修复、技术债悄悄累积、问题被压到后面爆发。

我的应对：

重要决策强制"先看证据再下判断"，把"读 commit 史脑补"明确列为禁区
用 Claude Skill / 自定义指令把诊断纪律沉淀下来，每次诊断会话强制走"复现 → 假设 → 验证 → 修复"
关键架构改动必须做受控对照实验，不接受"我觉得应该可以"

意识到"AI 辅助不是免费的智能、是有偏的智能"之后，AI 协作的可靠度直接提升一档。

三、AI 辅助工作流已经熟练到工程级

两个月时间里，Claude Code、Openclaw、Powershell + MCP 已经是我的日常工作环境，不是辅助工具。具体的可量化锚点：

独立两个月做到 6 万行代码 + 200 commit + 完整前后端 + 188 个测试 + 5 次大架构重写
Claude Skill / Custom Commands 已是封装重复工作流的主要载体
MCP 协议熟悉到能自己包装新工具（Unity / ComfyUI / Notion 都集成过）
Prompt 工程作为工程实践——结构化模板、版本管理、对照评估

这个熟练度本身是可迁移资产——任何团队想把 AI 辅助引入研发流程，从工具选型、协作规范、防止滥用到效率评估，我都有第一手经验。

关于 CrewAI 的真话

很多人看 CrewAI 47.8K stars 就觉得是多智能体的银弹。两个月实测告诉我：它既不是银弹，也不是垃圾，有非常清晰的适用边界。

适合：

探索性、容忍创意空间的任务（研究、内容创作、调研、灵感生成）
输入输出结构灵活的场景
多角色分工但每步边界宽松、最终靠用户审美判断成败的工作流

不适合：

严格结构化输出（代码生成必须满足契约、合规文档每字段必须正确）
长链路跨任务一致性要求高（完整软件项目）
需要与确定性外部工具反复同步状态（Unity Editor、IDE）

我的 Unity 项目恰好同时撞上这三条"不适合"，这就是为什么要付出 7 层防御机制的工程代价。而这是符合预期的，一个月前作为AI新手选择了最容易上手的Crewai架构，并将它的性能压榨到极致，来探索今天Harness工程在这个方向的极限。

项目接下来的方向：轻量化场景

"AI 一键产出完整 Unity 游戏"在今天还不可能。当下大模型在跨文件一致性、领域知识深度上都有真实瓶颈；用户对游戏的预期，无论多简单，都涉及大量隐性决策（手感、风格、节奏），还没法完全脱离人。

所以我把项目重新定位到适合 CrewAI 跑稳的场景：

AI 漫剧剧本生成：用户给灵感，AI 多 agent 协作产出角色设定 + 分镜大纲 + 完整对白
自动化制作 PPT：用户给主题，AI 拆章节 → 写大纲 → 描述视觉 → 调图像 API → 装配 PPTX
AI 内容创作类：营销文案、自媒体脚本、产品介绍页、PRD 草稿

这些场景的共同特点：容忍创意空间 + 用户审美判断为主 + 流程相对线性 + 失败成本低——正是 CrewAI 擅长的区间。

我现有的整套基础设施（PM 多阶段拆解、Crew 池、可视化看板、多模型路由、token 经济）可以原样迁移——只是把"代码生成 + Unity 集成"这两个最难的领域，换成更友好的领域。

这不是放弃，是承认现状把架构调到能持续创造价值的姿态。

同时我会继续跟进新模型、新框架。下一代 Claude / GPT / Qwen 出来时，我有完整的测试基线可以立即评估它们能否突破当前瓶颈。一旦突破，"AI 一键完整游戏"会重新进入射程。

我在寻找什么

我擅长：

复杂 AI 应用的架构设计与稳定性工程
快速学习新框架并落地（CrewAI / LiteLLM / Unity MCP / Tauri 都是这两个月从零上手到生产）
AI 辅助工作流的工程化使用（Claude Code / Cursor / MCP / Skill 已是日常）

希望参与的方向：

AI 应用工程化、平台化
AI + 内容创作工具（漫剧、PPT、视频、自媒体类多 agent 编排）
AI 辅助研发流程建设（帮团队把 Claude/Cursor/MCP 落到实践）

合作形式：

全职工作仅考虑上海
兼职 / 项目合作可以远程（国内时区）

如果你的团队在做相关方向，或者对文中某个细节有兴趣讨论，欢迎私信。我可以提供完整项目代码、技术细节复盘（姊妹篇）、任何一项实验数据的可复现脚本。

最后

一个月做这个项目，最大的收获不是写了多少代码，而是建立起一套关于"AI 在今天能做什么、不能做什么、用什么姿势做最划算"的判断框架——这套框架是从两个月真实试错里长出来的，不是从论文或营销稿里看来的。

项目的形态会变——从"AI 自动做游戏"变成"AI 自动做剧本/PPT/内容"，但底层信念不变：用 AI 加速创造价值、对 AI 的不可靠保持工程级别的防御、让用户始终能看清 AI 在做什么。

期待交流。

*姊妹篇：《从 v1 到 v3：一个 CrewAI 多智能体 Unity 自动开发项目的三轮迭代复盘》——含全部技术细节、实测数据、行业对比

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

cover

AtomGit 2026年6月三方库下载量排行榜重磅发布！双榜格局稳固，生态深耕持续发力

AtomGit开源社区

cover

行业 Agent 黑客松圆满收官：打通行业落地“最后一公里”

AtomGit开源社区

cover

AtomGit 6 月：AtomCode CodingPlan 上线 GLM-5.2！

AtomGit开源社区

所有评论(0)

查看更多评论

wenhuawasi

已为社区贡献2条内容