补一个五一两天做的小玩意儿。

整个假期我都在外面玩儿。在路上、排队、堵车的时候,对着手机巴拉巴拉说一会儿。等再低头一看,已经做出来一个吐槽 / 夸夸小米的 3D 银河系网站,挂在 Vercel 上跑着。

整个过程完全是手机上口喷出来的。

在线试一下:https://mimo-roast.vercel.app

开源仓库:https://github.com/BND-1/mimo-web

以下理一下那两天的开发流程:


01. 起点:用自己做的项目,换来了 16 亿 token

事情起点是小米的「100T Token 计划」。

申请的时候要填项目,我把自己持续维护的 skills 站报了上去:

  • SkillForge —— https://skills.yangsir.net —— 目前在我看来全网分类最细 Claude Code Skill 中文目录站。之前专门写过一篇文章介绍过。

当时报这个站就是为了用 Mimo 的 token 来跑我的 Skill 站,毕竟之前的搜索 Token 都是我无偿提供的,哈哈哈。

可能就是这一点,让我顺利拿到了 max 档。

一个月 16 亿 token 直接打到账户,挺爽的。

PS:申请地址https://100t.xiaomimimo.com/ 有项目的可以抓紧申请,还有羊毛可以薅~

但 token 不用就过期。这种量级也不适合零碎消耗,必须做一个能集中烧的项目。我打开 Claude Code 把目标定下来:要做一个能给小米官方"整活儿"的 web 端项目,反差越大越好,要能吸引大众甚至官方的注意力。让它自己出方案、跑调研、挂 Ralph Loop 一直迭代到方案能爆为止。

兜底我又补了一句:16 亿额度全部花在这个项目里,不要节省,效果好就大量用 token。token 用不完就是浪费,宁可烧也要把效果做满。

调研完出来一堆候选方案,我挑了反差最大的那一个:用小米的 mimo 模型,去吐槽小米自己的产品。

让小米 AI 吐槽小米,我吐槽我自己。


02. 没带电脑,在外面是怎么干活的

整段时间我都在外面,没带电脑。

设备就一台手机。我之前公众号里专门写过一篇《Vibe Easily Everywhere:随时随地 Vibe Coding 的完整指南》,介绍我那套移动端开发工作流:Termius 在手机上 SSH 进我的 Mac 服务器,tmux 起一个常驻会话挂着 Claude Code,配合 Typeless 口喷需求。这次 mimo 整个项目就是用这一套做出来的,断网重连不用重新进会话,怎么走怎么停都行。

干活节奏不是"我说一句、它做一点"那种小步反馈,而是阶段式推进:

每隔几个小时或者坐车时我停下来看看,然后把这一阶段要解决的问题写清楚——目标、约束、要什么效果、不要什么。一段需求扔出去之后挂上 Ralph Loop 让 Claude Code 自己跑,几十轮、上百轮收敛到稳定。我在外面继续走自己的,回来看眼网页过不过得了关,过了就进下一段。

随便举几段我那两天定下的方向:

3D 银河系的架构 —— 53 款小米产品按恒星量级排布。最核心的当太阳,重要的当行星,边缘的小众产品丢小行星带。整个分层模型是一段需求一次性圈出来的。

音色 + 方言随机系统 —— 音色要走极端反差:阴狠、刻薄、萝莉、暗黑腹黑,反差越大越好。方言不能固定,每次生成必须随机抽。一段需求把 12 种音色 + 9 种方言的系统边界一次性框死。

真实用户评论数据集 —— 不能只让 AI 凭空吐槽。让 Claude Code 全网搜每款产品的真实评论吐槽,做成 CSV,每款至少 5 条,完不成挂 Ralph Loop 一直跑。一晚上之后 48 款产品的数据集就在仓库里了。

评论系统 + AI 审核 —— 用户在每款产品下能发评论,存储 + 筛选(仅当前产品 / 全部)+ 大模型审核。关键人物姓名打码、脏话和敏感信息统一替换成 xxx。整个评论模块的需求范围一段话讲清楚就交出去了。

前期的所有决策都是这种粒度——一段方向,配 Ralph Loop 自己跑到位。我只在阶段之间出现,不去管中间过程。

到了后期 debug 阶段,才轮到一些短话——「还是 4000 端口」「重启一下」「再提交一次」——那是收尾的小修小补,不是主线。


03. 做出来了什么

最后的成品是一个 3D 银河系。53 款小米产品按重要性分成 5 层:太阳、核心行星、重要行星、生态卫星、小行星带。

53 款产品的清单不是我手敲的,是让 Claude Code 自己去爬小米官网拼出来的——产品名、品类、上市时间、用户评论数据全自动收集,挂 Ralph Loop 跑了快一个小时,53 款的全量结构化数据就齐了。

点击任意一颗星球,右侧弹出面板:

  • AI 吐槽 / 夸夸:两种模式,各 5 种子风格(脱口秀、发布会、小故事、Battle、随机)
  • 9 种方言 TTS:东北、四川、粤语、台湾腔、陕西、河南、上海、福建话等
  • 音色:3 种小米官方内置(冰糖/茉莉/苏打)+ 1 个雷军声音克隆彩蛋
  • 真实评论:手动收的 48 款产品的真实用户评论数据集,混进随机池
  • 弹幕:所有吐槽 / 夸夸文案以弹幕形式飘过屏幕
  • 评论系统:用户可以对每款产品发表评论,AI 自动审核敏感词

同一款 SU7,吐槽模式 vs 夸夸模式,反差直接拉满:

吐槽模式让雷军用脱口秀的口气吐自己家的车:"发布会吹得天花乱坠,结果呢?等车等了半年多……"

夸夸模式立刻换上冰糖音色加陕西方言一波吹捧:"额跟你说,SU7这个造型真是嫽咋咧!……"

模式 + 音色 + 风格,三个维度叉乘下来,每点一次都是新内容。

雷军彩蛋是中途冒出来的——一开始我让 Claude Code 在后台偷偷加一个语音克隆模块,把雷军的声音以小概率混进随机池里。藏着藏着觉得太可惜,干脆拎到台面上:把雷军做成正式的可选音色,"发布会"模式默认就走他。

发布会 + 雷军音色 + 吐槽小米的产品,这组合本身就很反差。

主体功能之外还顺手加了几个小东西:

  • 排行榜 —— 哪款产品被吐槽最多、哪款被夸最多
  • 历史回放 —— 每次生成的吐槽 / 夸夸都存着,可以回去重听
  • 喜欢 / 分享 / 投票 —— 都用 localStorage 存,不带账号系统也能完整玩
  • 弹幕轨道 —— 所有 AI 吐槽和真实评论作为弹幕飘过 3D 银河系背景

整套做下来,整体调子是一致的——黑色星空底 + 小米橙的高亮,一眼能记住是哪个项目。


04. 给大家看看时间表:49 次 commit 都压在两天里

我后来回去看 git log,发现:

 05-01  20 个 commit
05-02  29 个 commit
05-03   1 个
05-04   1 个

5 月 1 号上午 10 点开第一刀,11 点 22 分 1 号晚上方言系统跑通;2 号下午弹幕、排行榜、喜欢、分享、投票、双模式、评论系统全部加完,晚上推到 Vercel。

📋 完整时间线(节选)

05-01 10:27 · 第一次 commit:3D 银河系 + 基础 TTS

05-01 14:39 · 不同模式不同音色

05-01 15:13 · 随机音色 + 随机方言

05-01 18:14 · 按 mimo 官方文档重写 TTS,12 种音色人格

05-01 18:41 · 15 种方言人格全部带方言

05-01 19:19 · 雷军声音克隆彩蛋

05-02 12:25 · 加入 48 款产品真实用户评论

05-02 16:47 · 弹幕升级 + 排行榜 + 历史 + 喜欢分享投票

05-02 18:35 · 吐槽 / 夸夸双模式切换

05-02 19:47 · 部署到 Vercel

05-02 20:59 · 评论系统 + AI 审核 + Vercel KV 存储

主体功能两天内全部跑通。剩下时间主要在收尾和打磨 TTS 的"自然停顿"。


05. 部署:一句话上线

5 月 2 号晚上要上线的时候,我让 Claude Code 自己搞 Vercel 部署。

它是真的一气呵成:装 vercel cli、登录、vercel --prod --yes 推上去、开通 Vercel KV 存评论、把 MIMO_API_KEY 之类的环境变量塞好——一遍走完,最后吐回来一个网址:mimo-roast.vercel.app。

中间确实碰到了一个坑:Vercel 免费版的 Serverless Function 有 10 秒硬超时,生成长一点的 TTS 音频会被中途切掉。Claude Code 自己分析完原因,方案也是它定的——把 TTS 改成浏览器直接调 mimo API,绕开 Serverless 这一层;评论审核这种短接口才走 Serverless。两条路分流之后,超时就再没出现过。

我啥都在手机就搞定了,一句话给到方向,生产环境就上去了。这放在两年前是不可想象的——但现在变成了一段对话的成本。


06. mimo 模型用下来真感受

写这篇之前,我特意把 session 记录翻了一遍。一个一周时间在外面用、最后烧了 4 亿 token 的体感,比看官网评分实在多了。

好的部分:

最大的优点是"听得懂人话"。 这是 mimo 在我这里加分最多的一项。

我口喷下去的需求里 4-5 个约束叠在一起是常态:「以等了半年 SU7 的真实车主视角」「吐槽 2.78 秒破百是发布会噱头」「带四川话口癖」「80 字以内」「不要直接骂粗话」——这种约束密集型 prompt,mimo 基本一次就能产出符合要求的文案,不会出现"约束多到模型开始糊弄、把约束当背景音忽略"的情况。每一条限制它都接住了。

多人格切换的稳定性也意外的好。 12 种音色 + 9 种方言交叉,等于 100 多种角色。每种角色都给了一段 personality prompt("段子手 + 重庆口音 + 怼人带宠溺"这种)。mimo 切人格时不带"前一个语气没洗干净"的残留——同一种角色连续生成 10 条调性不漂,切人格后立刻换风格不沾旧的。这种"角色稳定"是这次能做出"双模式 + 多音色 + 多风格"叉乘玩法的前提。

TTS 的方言是真做扎实了,不是装样子。 读出来的不只是"带方言味",连节奏、停顿、重音都跟普通话不一样——四川话尾音拖一下,东北话抢拍,上海话黏连,福建话连读吃字。一耳朵就能听出来。这一层做扎实之后,整个吐槽的"活人感"才立得住。

文本和 TTS 配合得很顺。 文本生成和 TTS 是同一家做的,我在文本里塞的情绪 / 节奏标签,TTS 那边直接能读懂——省掉了"两家厂商接口对不齐"那种破事。换成接两家不同模型,光这一层兼容能磨掉一两天。

雷军声音克隆是意料之外的强项。 一个公开平台的 API 能克到这种相似度,是真没想到。后来还有个发现颠覆了我的预期:克隆音色的稳定性反而比内置音色更好——连续生成几条不会一会儿夹尖一会儿夹粗。这是我最终决定把雷军从"后台彩蛋"提到"正式可选音色"的原因。

速度配得上"互动级"。 Flash 版毫秒级出语音,点完一颗星球到出来吐槽 + 音频,整体不到三秒。如果走更慢的 TTS 模型,这种"边逛边听"的玩法体验就崩了。

差点意思的部分:

不支持生图、生视频。 中途我想过加图像玩法,让 Claude Code 去查了下,确认目前 mimo 平台只有文本和语音两个模态。这事我没纠结——既然小米自己没做,就不去拼接别家模型了。这是一个"用小米吐槽小米"的项目,混进去别家文生图,调子就不对了。

前端样式生成能力不太行——能跑,但不耐看。

代码结构层是没问题的:组件拆分、props 传递、Three.js 场景搭建、不报错。但样式细节、视觉一致性、交互动效这一档明显跟不上:

  • 样式细节差一档 —— 间距、字号、配色、圆角这些"审美细节"经常不到位,出来的卡片像 Bootstrap 默认出厂
  • 视觉一致性弱 —— 主页一个调子、产品面板又是另一个调子,不过好在银河系星球界面看起来不错
  • 交互动效基本是空 —— hover 过渡、入场动画、过场感这些得我专门要求才会加

为了让 UI 看起来"上一点品味",我中途装了好几个外部 skill 当辅助:先装了 taste-skill 改基础样式,不满意又装 impeccable 调色,再不满意还是反复让它来回改主页布局。

折腾了几轮之后,最终上线的版本是个反复磨过的将就版:能跑、能用、视觉上勉强能接受,但说"漂亮"是真说不上。

整体一句话总结:模型本身够好用,前端配套差点意思,但够做出一个能跑、能传播、还挺像那么回事的东西。


07. 烧了多少 token

刚刚在 Mac 上把 session 全部解析了一遍,数据是:

 input_tokens         :       4,874,773
output_tokens        :       1,352,590
cache_read_tokens    :     409,023,872
合计                 :     415,251,235

4.15 亿——比我自己估的还多了 1 亿多。大头是 cache_read(缓存命中),真正的新 input 不到 500 万。

其他统计:

  • 我一共敲了 250 条用户输入
  • Claude Code 回复了 5014 次
  • 调用 Bash 921 次、Edit 437 次、Read 371 次、Write 102 次
  • 还派出去 58 个 subagent
  • WebSearch 41 次、WebFetch 91 次(基本都是查 mimo TTS 文档)

16 亿额度还剩一大半。


08. 最后

这个项目做完之后的三天我一直在多个景区观光,开工后也是忙公司的事情,一直忘了发。直到今天才把它推 GitHub 开源出来。

代码全在 GitHub,希望大家帮我点一个star:https://github.com/BND-1/mimo-web

在线版:https://mimo-roast.vercel.app

写到这儿,我一直在想一个事——整个五一在外面玩,一个人,全程手机口喷,4 亿 token,做出来一个有点用的、有点反差的、能传播的小项目。

要是回到 2023 年,光是 53 个产品的 3D 银河系这一个功能,前端外包报价都能开到一万。

AI就是这样,毫不讲理,逐步碾压一切,但是又带来新的机会。

以上。


🔗 往期推荐:

扫描下方图片中我的微信二维码备注"进群",拉你进社群一起交流学习!

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐