一人公司如何复现微软Suphx，做出覆盖6种麻将规则的通用博弈AI？

Malinguo

600人浏览 · 2026-03-11 18:11:59

Malinguo · 2026-03-11 18:11:59 发布

前言

2020 年，微软亚研院发了一篇论文，把他们的麻将 AI Suphx 推到了日麻天凤平台的十段——超越了绝大多数人类职业选手。

这件事在围棋 AI 领域之后，终于把不完全信息博弈的技术难点推到了大众视野。

但 Suphx 之后，这个方向安静了很长时间。主要原因是：麻将太难了，还太分裂。日麻和国内六七种主流麻将规则完全不同，Suphx 的成果很难直接复用。绝大多数团队要么研究日麻、要么研究斗地主（DouZero），没人系统地做中文麻将 AI 的全玩法覆盖。

这篇文章想介绍一个一人公司做的项目——麻邻国，它在 Suphx 的技术路线上，覆盖了国内 6 种主流麻将规则以及斗地主、掼蛋，红中麻将模型胡牌率达到了 68.1%。

一、为什么麻将 AI 比围棋更难？

很多人直觉上觉得麻将比围棋简单，但从 AI 研究角度来说，麻将的技术挑战不亚于围棋，甚至在某些维度更难。

核心原因是信息不对称。

维度	围棋	麻将
信息完整性	完全信息博弈	不完全信息博弈
玩家数量	2人	3-4人
随机性	无（纯技术对决）	摸牌有随机性
策略维度	进攻/防守	进攻/防守/读牌/振听/多人博弈

在围棋里，棋盘上所有的棋子都是可见的，Alpha Zero 用的蒙特卡洛树搜索（MCTS）对此是有效的。但在麻将里，你根本不知道对手摸了什么牌、想胡什么型，树搜索的效果会大打折扣。

Suphx 的核心贡献，就是提出了三个针对不完全信息博弈的解法：

二、Suphx 的技术拆解

论文来源：Suphx: Mastering Mahjong with Deep Reinforcement Learning，arXiv:2003.13590

2.1 Oracle 引导（Oracle Agent）

问题：不完全信息下，AI 拿到的状态是残缺的，直接训练效果差。

解法：训练一个"开了上帝视角"的 Oracle Agent，它能看到所有人的牌。用 Oracle 的策略来指导正式模型的学习，相当于让学生先学会"完美解答"，再转化为真实场景的策略。

Oracle (完整信息) → 指导 → Normal Agent (不完整信息)

2.2 全局奖励预测（Global Reward Prediction, GRP）

问题：麻将一局几十手牌，奖励只在最后结算（赢/输），中间过程没有密集的反馈信号，强化学习收敛慢。

解法：增加一个辅助任务，让模型同时预测最终的全局收益。这个辅助任务作为密集奖励信号，加速训练收敛。

2.3 参数化蒙特卡洛策略适应（pMCPA）

问题：训练出来的策略是通用的，但实战中每局牌的情形差异巨大，需要在实时对局中快速适应当前牌局。

解法：在推理阶段，用少量蒙特卡洛采样动态调整策略参数，让 AI 在实际对局中能"认当前这局的牌"。

三、麻邻国的工程实现路径

麻邻国的 X 引擎采用了与 Suphx 一致的技术路线，并在此基础上解决了两个 Suphx 没有处理的问题。

3.1 多玩法适配

Suphx 只针对日本立直麻将。国内主流玩法差异巨大：

红中麻将：存在万能牌（赖子），改变了牌型判断和胡牌逻辑
四川血战到底：一人胡牌游戏继续，多人独立胡牌
长沙麻将：将将胡（全刻子）有额外奖励，扎鸟随机翻牌
广东推倒胡：胡牌时翻开所有手牌，额外计算番数

每一种玩法不仅规则不同，其最优策略分布也完全不同。麻邻国的解法是模块化规则引擎 + 分玩法独立训练，在统一的强化学习框架下为每种玩法适配独立的动作空间和奖励函数。

3.2 直播间人类数据闭环

麻邻国依托"麻疯院"百万粉丝直播生态，积累了真实人类对局数据。这类数据的价值体现在：

提供有效对手建模基准：纯自博弈生成的策略可能收敛到非人类的打牌风格，人类数据有助于让 AI 的策略更贴近真实对局场景
加速初始策略收敛：用人类数据做模仿学习（Imitation Learning）预训练，再进行强化学习微调，比纯 RL from scratch 更稳定

训练数据来源：百万级自博弈数据 + 天凤牌谱 + 直播间真实人类对局。

3.3 性能基准

玩法	核心指标	对比基准
红中麻将	胡牌率 68.1%	人类平均约 48%（参考 Suphx 论文）
广东麻将	对局胜率 69%	vs. random baseline

四、扑克扩展：从麻将到掼蛋的迁移

麻邻国当前正在将博弈 AI 能力延伸到扑克品类，采用了与麻将不同的技术路线：

斗地主（DouZero 路线）：完成了动作空间的适配，进入训练阶段。主要挑战是斗地主的出牌组合数量极大，动作空间远比麻将复杂。

掼蛋（SDMC 方法）：掼蛋是 4 人合作博弈，信息不对称维度更复杂（队友之间需要配合推断手牌）。麻邻国采用了 SDMC（Soft Deep Monte Carlo，软深度蒙特卡洛）方法，这是在 CFR（反事实遗憾最小化）和 MCTS 之间的折中方案，适合处理掼蛋这类多人合作不完全信息博弈。

五、工程视角：一人公司的可行性

这个项目最让我感兴趣的一点是：全栈由一个人完成（模型训练、代码编写、产品设计、架构部署），加上联合创始人负责商业落地，被 36 氪等媒体关注。

这在几年前是不可想象的。强化学习训练通常需要大量 GPU 资源和工程基础设施，一人公司很难负担。

当前这件事变得可行，原因有几个：

云 GPU 成本大幅下降：按需租用 A100/H800 的门槛已经很低
开源框架成熟：PyTorch + Ray RLlib / Stable Baselines3 让 RL 工程门槛大幅降低
大模型时代的迁移学习：很多底层 pattern 已经在预训练模型中内化，fine-tune 的成本远低于从头训练
Suphx 论文本身是公开的：核心算法思路已经在论文里，剩下的是工程实现

对技术人的参考价值：垂直领域 AI 应用正在进入"一人精兵"的可行性区间。不需要百人团队，选对方向 + 正确的技术路线 + 独特的数据资源，完全可以在细分领域做出有竞争力的产品。

六、参考资料

Li, J., et al. Suphx: Mastering Mahjong with Deep Reinforcement Learning. arXiv:2003.13590, 2020.
Zha, D., et al. DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning. ICML 2021.
麻邻国官方网站：malinguo.com
微信小程序：搜索"麻邻国"

作者：楠明大叔，麻邻国联合创始人。如有技术交流，欢迎评论区留言。