零代码写游戏:一个后端开发的三周 AI 项目实录
技术曾是程序员最深的护城河,而如今 AI 正在以远超预期的速度把它填平——而这恐怕才是个开始。当技术变得人人可用,我不禁想问:这个时代,社会还需要什么样的人才?
这篇博客,记录了这三个星期的经历以及一路走下来的想法与思考。整个项目纯AI编写,共提交3万2千行代码,消耗超4.4亿token,873次迭代,5天极限编程。上架国内最大手游平台taptap,同类玩法榜排行 TOP 2,新品榜排行第6,全站热门榜第28,app评分9.2分,正式开服3天下载量破万。
一. 缘起:半夜刷手机,突然想试试
大概在某个 emo 的深夜,在 B 站刷到有人用 AI 仅 2 天就复刻了 Steam 上大火的《杀戮尖塔 2》。白天在公司一直在说AI的强大,在做AI 提效,不禁在想:我能不能也从 0 自己做一款游戏上架呢?
顺便介绍一下自己,一个4年工作经验的老后端开发,没有音乐/美术/策划经历,作为一个工科男音乐和美术的造诣更是惨不忍睹,也没有接触过任何游戏引擎以及andriod开发知识。
做游戏和后端开发完全是两码事。独立游戏需要同时兼顾UI布局、美术资源、音效与音乐、粒子特效、动画反馈、数值手感(游戏手感),以及发布所需的所有物料——图标、截图、宣传海报/视频,以及发布后的营销费用管理,社区运营……缺了任何一环,都感觉不能上线。本质上,原本需要产品、技术、测试、运营等多个团队分担的工作量,现在全得由一个人扛下来。
细想起来,确实不容易——但我总不能连试都没试,就先给自己判了「做不成」。正巧五一假期临近,那就试一把!
二. 产品方案设计/技术可行性分析: 动手之前,先做调研
虽然很多人吐槽大厂的流程规范,但是他确实是将一件事情做成的方法论。动手之前先想清楚,确认需求范围,防止后期反复删改带来的额外工作量是十分重要的。
由于游戏制作这块我完全是门外汉,就花了一些时间跟豆包聊天,让它帮我整理设计文档——核心玩法、局外养成、6 条技能线、30 多个天赋、普通 Boss 和关底 Boss,都是这么一点点聊出来的。
此外就是跟豆包做市场调研,主要是大陆的游戏上线平台,隐私合规,未成年人防沉迷,版号上线要求,以及广告sdk合规要求,用户画像,同类型游戏调研等内容。
最后就是最关键的AI选择,因为我完全不懂游戏引擎,以及美术音乐等,这些工作我只能交给AI来做,其次我不想在项目还没有确认前就下很大的成本。我对比了很多模型以及收费标准,最终拟定了如下计划。
| 决策项 | 选择结果 | 原因 |
|---|---|---|
| 上架平台 | taptap | 生态圈好,国内行业第一手游平台,据说手游垂直领域市场份额超50%。提供登录sdk/防沉迷sdk/接受无版号游戏上线测试 |
| 游戏引擎 | godot4.3 | godot轻量级,免费,4.3后版本更新了对andriod插件的额外支持,为后面接tapsdk铺垫。对比之下,unity下载有些麻烦,社区好像在搞什么团结引擎,被很多人吐槽。 |
| 主力codingAI | cursor+ops4.7 | 一开始其实是选择的glm4.7 +vsode + roocode环境进行开发,但是体验了的cursor免费额度后,真的感受到了巨大的差距,遂付费120元使用cursor |
| 美术资源/特效/宣传海报 | gemini3.1pro + cursor | gemini免费,同时也是最强大的图片生成模型之一。但是美术资源的优化是很耗时的,我的预估工期没有那么长,我只能接受少量的美工资源制作。因此游戏采用极简霓虹色彩风格,让cursor本身可也通过游戏引擎直接生成部分游戏美工素材,极大缩短工期。 |
| 音乐 | gemini3.1pro | 因为美术用的gemini…所以顺手就用了…没有太多对比,关键是我也听不出来好坏 |
| 隐私合规等文档撰写 | 豆包 | 免费而且在国内应该是最方便的了 |
| 玩法策划 | 豆包+cursor | 豆包原因同上,cursor是因为本身开发用的,能扫到我的文档库 |
| 防沉迷 | taptapsdk | 这也是选择tap平台最大原因之一。(其实还是挺担心的因为官方文档没有写godot如何接入…搜了一下还要写android插件,完全小白,担心自己搞不定,但是AI的强大超乎我想象) |
| 广告 | tapAdn | 直接集成tap生态,方便 |
| 用户画像 | 1、面向手机端普通用户,节奏短平快,玩完即删,突出快节奏 2、面向竞争心理强的玩家,使用周排行榜功能提高用户留存率 |
计划拟定后,就是人日排期
| 工作项 | 人日 |
|---|---|
| 主界面功能+养成功能实现 | 0.5天 |
| 核心游戏玩法 | 2天 |
| tapsdk等接入 | 1天 |
| 自测调整数值 | 1天 |
| 开发周期buffer | 0.5天 |
| 篝火测试(大概是灰度上架的意思) | 2周 |
排期拍脑袋定了 5 天极限开发,(大概因为五一就五天假吧哈哈哈,感觉有点把自己不当人整了)。现在回头看,5 天顶多算「能跑起来」——离「好玩」还差得远。
三. 跟 AI 写代码:我摸索出的办法
任何软件工程的方法论都是为了迭代的效率与防止腐化。效率是第一原则,其余均为手段 。 方法论无非两件事:迭代更快,项目别烂。有用的留下,吹出来的扔掉。 我理解openSpec以及Harness 等AI编程思想,也理解subAgent/skill/rules等AI编程技巧。
但放到一款小游戏上能否真正的提高效率,在项目开始是存疑的,我也并没有在初期照搬。前期基本就是 vibe coding:想到哪改到哪。直到迭代深了,硬编码、功能记不住、回滚困难这些问题一个个冒出来,才慢慢补上 Rules、Skill、wiki、openSpec这些约束——不是先信方法论,确实是被问题逼出来的。 下面是我跟AI沟通的技巧整理。
3.1 渐进式信息披露
虽然说我这是个小游戏,但是整体的信息量也是爆炸的,如果一口气将所有设计直接扔给cursor,让他全部生成,先不说上下文是否足够,AI一把出来的东西不可控,且大概率不符合我的预期。因此我承担了架构师的角色,负责功能的拆解,并渐进式披露信息,每一步由我来作为验收官,最终逐步实现全量功能。
3.2 引入的第一个rule:配置化
虽然我完全不理解AI写的什么东西,但是在一次我希望修改一个常量配置时,AI修改了5~6个文件,我就觉得不太对劲。我担心在工程越来越大时,AI会扫描不全,影响整体效率,或带来bug。因此我引入了第一个rule。这里使用了cursor的create-rule 命令。
3.3 【重要】openSpec思想引入
前面做一些简单的功能还是比较顺利的,但是到了核心玩法时,真的遇到很多问题。
- 不清楚实现逻辑:因为一共有30多种天赋,在不断的自测体验过程中会不断的调整数值以及技能逻辑,改着改着就完全忘记了现在系统实现和我想要的设计有哪些出入,而我又看不懂代码,产品现在长什么样我都说不清。
- 回滚困难:虽然用了git进行版本控制,但是很多时候为了开发快捷,会多个子功能合并到同一分支内,在我看不懂代码的情况下回滚有些麻烦。尤其是回滚到很多个版本之前的数据。
- 我不知道怎么设计:有一些产品功能,比如特效或者其他的一些实现,我也不是专业人士,我自己也不知道怎么做如何设计效果,我往往需要有AI帮我先行设计。如果让AI直接去修改代码往往会面临预期不一致导致的回滚。
openSpec即通过结构化的方式管理需求规格、设计文档和实现任务,帮助 AI 编程助手和开发者达成"先约定后构建"的协作模式。 也是我解决我遇到问题的方案。我主要做了以下内容(通过create-skill + create-rule命令实现):
- OpenSpec驱动:AI必须先设计后执行,与预期不符则修改设计文档,直到人与AI达成一致。
(但是我还是认为Vibe coding在项目初期的迭代与沟通效率,会给项目带来巨大的收益;Spec决定产品的稳定性与质量。两者并非对立,而是不同产品阶段的最优解。) - 沉淀wiki知识库:让AI对全量的所有功能进行拆分,拆分成足够细致的子模块功能。比如游戏判负条件,挡板移动方式等等…不要以界面或者技能这种大而全的概念进行拆分,而是以所有相对独立的逻辑单元模块进行拆分。并且每次修改需求必须回写wiki。最终ai建立的知识库大概是如下样子(即按功能内聚的子模块分类,感觉有点面向对象的思想)。

同时ai自己生成的skill还附带了个索引,感觉好像也很有用。
- 需求-实现归档:进行需求迭代时,AI在完成整个实现后,必须将 "本次需求内容->技术方案->修改前后逻辑"以文档化形式沉淀。方便后续溯源或者回滚(下面有示例)。
- 将所有需求分等级迭代:正如前文所说,效率是第一原则,其余均为手段。 openSpec自然有他的优点,但是流程长,在时间不足时,我需要的是极致的效率。因此必须对所有需求分类,让AI自动针对不同类型的需求进行处理。具体如下表所示。
| 等级 | 类型 | OpenSpec驱动 | 需求-实现归档 | 回写Wiki |
|---|---|---|---|---|
| L0级 | 完全新增/删除产品功能 | ✅ | ✅ | ✅ |
| L1级 | 对现有功能进行结构性修改,或者修改了用户层面的展示逻辑(用户可感知功能与历史不同) | ✅ | ✅ | ✅ |
| L2级 | 对现有功能进行增量优化或者对现存问题进行修复(用户不感知或可平滑过渡) | ❌ | ✅ | ✅ |
| L3级 | 纯配置/参数/文案等调整 | ❌ | ❌ | ✅ |
下面是分类实操截图:
3.4 绝对定位布局沟通模式
因为游戏界面上会有很多的图片布局,我是希望AI能准确的将图片放到某个位置上,甚至于图片的大小,我也希望AI能自动缩放到我期望的大小。如果仅是以“左边,右边,右边偏下”…这些语句去提示ai,那么弄出来的效果确实不好。这也是我遇到的一个很大的问题。
最终我想到了绝对定位布局沟通模式,即将整个游戏界面分为1600×900的网格,每次跟AI沟通我会以网格的绝对定位的位置进行沟通,比如把这个图片的左上角放在网格(400,300)的定点位置上,同时图片占据3*3个格子。由此来实现绝对定位。
3.5 未启用的设计
- subAgent:看过一些文章,子agent是可以解决复杂问题下,上下文爆炸的问题,但是如果问题复杂度没有到那个程度,用了反而是浪费token。在这个项目里因此没有使用。
- godot mcp:在一开始使用glm编程时,因为glm的coding错误率太高了,迫不得已接了一下,给agent读取引擎的权限,但是接了后效果又感觉还是一般,问题修复率也很低。后来换到cursor,因为cursor的正确率太高了,没有机会接。
AI可以帮你做的快,但是没办法帮你做的好
三四天,核心功能跑通了,AI带来的真的是极致效率。我自己玩了两把,咋说呢,三个字:不好玩。
代码写得再快,产品不好玩就是白搭。开发效率 ≠ 产品成功。
那时候感觉也说不上难受,都做到这了,放弃是不可能的。得想想办法救一下。
用户视角看问题
首先,分析产品特性:1个客观事实,我后面迭代产品的频次必然极低,即制作完成基本为成品单机游戏,毕竟上班是主职,不是有个五一的话,可能我也不会动。因此游戏的深度必然受到限制,即游戏流程短,玩法单一,整体游玩时间不会很长。其次,开发仅五天时间,很多美工资源或细节未打磨更好,相比新品榜同期热门产品距离甚大。分析下来,其实我的目标产品类型更偏向于那种“跳一跳”,“羊了个羊”的那种小游戏。这类游戏,迭代频次低,玩法轻松,相比大厂制作的游戏可以说走的是两种路线,但是其依旧有着大量受众。
其次,任何产品都应该有其目标用户,一个产品的好坏,最终是由客户决定的。
回到最初的设计。我面向的用户有俩大类:
- 面向手机端喜欢快节奏的用户,玩完即删,受到游戏流程短限制,估计这辈子不会打开第二次,突出快节奏,进入游戏1~3分钟内就需要获得正反馈。刚开始第一局就需要极致的快感,存粹的乐趣。而这部分用户预期应该会占到90%及以上。这部分用户才是APP评分的主力军,由这部分用户拉动数据,由此提高第二类用户的人数。
- 竞争心强的用户,针对这一部分用户,增加了周排行榜,预期是形成竞争循环,提高用户短期留存率(上面分析过,这种类型产品长期留存率本身就不高),增加额外局外提升辅助冲榜,(这里可接入广告,带来收益)。
简单分析过后,就大致理解了原因,想做深,又做不深,最后做出个四不像,当产品设计背离主要的客户群体,必然不好玩。
后面又断断续续搞了个周末,全花在调数值、改机制、甚至推翻之前的设计上(删了个模式,产品功能直接对半砍,因为不符合上诉分析定位。不破不立。)
这部分 AI 帮不上忙——它不会告诉你「这个手感爽不爽」,只能你自己玩、自己感受。而这也许才是AI真正代替不了人的地方。AI给人们带来了超乎想象的生产力,可是一个产品的成功与否最终还是看人。
(PS : 从上线后的一些用户的评论也可以看出,用户画像抓的极其精准。。。这大概才是这个游戏高评分的原因)
这里不方便放用户本身评论截图,大致是:
一类用户评论游戏轻松,好玩,但是流程短,深度不够。
二类用户,在评论区/官方博客下互相竞争比分。感兴趣的话可以去官方论坛去看用户评价(审核不让填连接)。
篝火测试、正式上线与营销资源投放
篝火测试
玩法打磨得差不多,开始走 TapTap 的上架流程,我选择先走了篝火测试(灰度少部分用户进来,评论与评分和正式环境隔离),同时也可以测出有没有未知bug,防止正式上线后大面积出问题。而且篝火测试有taptap的专属2000元启动礼包,仅可用于篝火测试模式下的推广。
篝火测了 4 天,每天花了500元预算。评分 8.8,下载量759人。怎么说呢,相当让我惊喜了。说实话,很开心。由于篝火测试期间,taptap登录人数满100,又送了5000元的启动礼包。这个礼包就是正式上线后的启动资金,也是我唯一营销预算。
正式上线以及营销资源投放
我很清楚:在美术和整体品质上,我的产品绝对比不过那些专业的大中小厂。工期又这么紧,游戏玩法时长有限,目标用户画像也偏向喜欢短平快节奏的群体,产品寿命天然就不会长。想要冲击新品榜或者其他榜单唯一的方法就是用好这平台赠送的5000块流量,做好营销。
下面就是我跟AI(豆包)想出的运营计划。
| 时间点 | 事项 |
|---|---|
| 周三 | 10点正式上线 |
| 周三~周四 | 每日投入500元流量,建立app基础下载量,以及评分的初步展示(超过10个评论才有评分),为后续铺垫,占总预算20%。 |
| 周五~周六 | 3500元冲量,集中冲量占总预算70%。 |
| 周日 | 剩余500元,榜单维稳,吃榜单回馈流量。占总预算10%。 |
超乎我想象的是,周三~周四的预期结果比我想的要好一些。甚至有点太好了。。。单分类榜下排行25,新品榜排行32。好评100%5星,所以评分是10。
在周五凌晨突然流量爆发,凌晨开始不断有大量流量涌入,1小时的时间几乎完成了周四半天的下载量,猜测是因为触发了taptap的离线任务-游戏重新分配等级池。这个等级大概率与游戏评分+新品榜排行+下载量等有关(而且据观测看,评分影响很大)。总归是好事,并不影响运营计划。
到了周五以及周六的关键冲量时间点,这里稍微看了一下细节。因为taptap在设置竞价时会有一个竞价策略。官方给出我这个品类的一般竞价在8元左右(这个赛道感觉偏高,休闲的才6元。。)。
我尝试了一下不同的价格也许在不同的时间可以省一点,比如高峰期按推荐来,低峰期则可以远低于预期值。由此来节约成本,对应的指标可以看竞价带来的REP下载完成率。所以打算高峰期用8.01元。低峰期使用6.01元。(1分是因为想比那些只打了整数的多一点哈哈哈哈哈)
同时我注意到,下载量的趋势是在半夜达到峰值。果然这种品类的小游戏,都是半夜睡前刷俩下。。所以营销预算更要大部分的投入在半夜时分。
最后的结果,远超我个人预期。同类玩法榜排行 TOP 2(2/50),新品榜排行第6(6/100),全站热门榜第28(28/150),app评分9.2分,正式开服3天下载量破万。(taptap的排行榜算法应该是短期实时流量计算,估计过一段时间新品的热乎劲儿过了, 就会归于平淡)。TOP2观察了几天确实冲不上去,我发布后几天,正巧赶上同类玩法最高的山,最长的河—《元气骑士》更新新版本。。。
下面是一些运营后台的数据截图
更有些让我意外的是,可能新品榜冲的确实有点高,有一些独立游戏开发者找到我沟通心得,聊一聊这个行业,我也学到了很多,还有聚合广告平台的人找我,问我接不接他们的广告。最让我惊喜的是,还有人免费帮忙做宣传视频,真的感谢。
走完全程,我的一些想法
未必对,但真实。
在我的印象里,今年年初我还在古法编程。然而仅仅半年不到,这个行业就变化的如此的迅速。AI 像海啸一样席卷软件行业,似乎没有人能躲过去。
做完这个项目,AI 的强大确实让我叹服——3w2千行代码,2~3 周里,产品、策划、开发、美工、音乐、测试、运营等,一个人全链路跑通。但 AI 并不是万能的:效率也有提高的尽头,「做出来」和「做好」是两回事。 「跑通」到「好玩」,中间的那一步,AI 帮不了我,当然也有可能是我没有想到好的方式。
回到最初的问题:这个时代,社会还需要什么样的人才?
AI 很擅长解题,但题目往往还是人出的。“发现问题,拆解问题,判断结果,承担责任“,AI 负责加速,但是人负责方向。AI时代可以成就一人成军的浪漫英雄主义,懂业务,也会用 AI 提效,有产品思维,也能推动落地,有创意表达,也具备基本的技术实现能力,能带团队,还能用数据和 AI 优化流程,即能从”业产研“全链路视角去看问题的人(曾经有个P7跟我说,这也是领域架构师和开发工程师的区别)。
最后,我很喜欢我本科的数据结构老师说的一句话,“程序员是万能的魔法师”,现在只不过是换了根魔法棒而已。
一路走来,磕磕绊绊,不错的一次经历。
写于 2026 年 6 月。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)