Spring AI 2.0 弃用智谱 AI 的背后：一份来自压测实验室的真实报告

Topfogking

878人浏览 · 2026-04-18 03:07:20

Topfogking · 2026-04-18 03:07:20 发布

免责声明：本文所有数据均来自 Mayfly 项目团队的内部压测，测试结果受测试环境、API 配额、网络条件等因素影响，仅供参考。文中观点均为团队个人见解，不代表任何官方立场。我们尊重所有大模型厂商的努力和贡献，本文旨在通过真实数据帮助企业开发者做出更明智的技术选型。

⚠️ 引言：Spring AI 2.0 的"弃用"风波

2026年3月26日，Spring 官方发布公告：

📢 Noteworthy:

The ZhiPu AI model integration classes have been deprecated and will be removed in a future release. #5676

这条消息在国内 Java 开发者社区引发了广泛讨论：

Spring AI 为什么要弃用智谱 AI？
智谱 AI 真的不适合企业级场景吗？
国内开发者该怎么办？

作为专注于 Spring AI 企业级治理的开源项目，Mayfly 团队决定用数据说话。我们设计了 6 个压测场景，对智谱 AI 在企业级负载下的真实表现进行了全面测试。

今天，我们公布第一份报告：智谱 AI 的压测表现。

明天，我们将发布对比测试：DeepSeek vs 通义千问 vs 智谱 AI，谁更适合企业级场景？

🧪 压测环境说明

测试配置

项目	配置
设备	Intel i9-11900H @ 2.50GHz, 16GB RAM
操作系统	Windows 11 家庭版 25H2
JDK	17.0.16
Spring Boot	3.2.4
Spring AI	1.0.0-M6
JMeter	5.6.3
测试接口	POST /api/chat/send
模型配置	智谱 AI (glm-4), 权重 5%

测试场景设计

场景	并发数	持续时间	测试目的
场景1	50	3分钟	基础功能验证
场景2	100	3分钟	中等负载稳定性
场景3	200	3分钟	高负载压力测试
场景4	300	3分钟	极限负载测试
场景5	500	3分钟	系统极限测试
场景6	50	10分钟	长时间稳定性测试

重要说明

本次压测中，智谱 AI 仅配置 5% 的权重，作为备用模型。这意味着：

智谱 AI 仅处理约 5% 的请求
即使智谱 AI 出现问题，也不会影响整体成功率
这正是 Mayfly 企业级能力的体现：单模型故障不影响整体服务

📊 智谱 AI 压测表现

场景1：50并发基础测试

系统整体表现：

总请求数：442
成功率：96.15%
错误率：3.85%

智谱 AI 表现：

❌ 频繁触发熔断器：错误日志中大量出现 CircuitBreaker 'zhipu-primary' is OPEN
❌ API 稳定性不足：即使在 5% 低权重下，仍频繁出现 500 错误
⚠️ 响应时间不稳定：有时响应很快，有时超时

分析：

在低并发场景下，智谱 AI 的 API 稳定性问题已经显现。5% 的权重意味着智谱 AI 仅处理约 22 个请求，但仍然是错误的主要来源。

场景2：100并发中等负载测试

系统整体表现：

总请求数：924
成功率：96.1%
错误率：3.9%

智谱 AI 表现：

❌ 熔断器持续 OPEN：智谱 AI 的熔断器在测试期间多次触发
❌ 错误率与场景1持平：说明智谱 AI 的问题不是偶发的
⚠️ 通义千问有效分担流量：作为副模型（25%权重），通义千问表现稳定

分析：

智谱 AI 的稳定性问题在中等负载下持续存在。Mayfly 的多模型路由机制有效分散了风险，通义千问作为副模型承担了更多流量。

场景3：200并发高负载测试（最佳性能场景）

系统整体表现：

总请求数：1704
成功率：99.4% ✅
错误率：0.6% ✅

智谱 AI 表现：

✅ 错误被其他模型分担：高并发时，智谱 AI 的 5% 权重被 DeepSeek（60%）和通义千问（25%）有效分担
✅ 系统整体表现优秀：这是 6 个场景中成功率最高的
⚠️ 智谱 AI 仍是错误来源：虽然整体成功率高，但智谱 AI 仍然是错误的主要来源

分析：

这是 Mayfly 企业级能力的完美体现：即使智谱 AI 存在问题，通过智能路由和负载均衡，系统整体成功率仍达到 99.4%。单模型故障不影响整体服务。

场景4：300并发极限负载测试

系统整体表现：

总请求数：1971
成功率：95.1%
错误率：4.9%

智谱 AI 表现：

❌ 错误率上升：智谱 AI 的错误率随并发数增加而上升
⚠️ 系统开始出现压力：活动线程数达到 222 个
✅ 系统未崩溃：即使在高负载下，系统仍能处理 95.1% 的请求

分析：

300并发是可接受的生产环境上限。智谱 AI 的稳定性问题在高负载下更加明显，但 Mayfly 的熔断器机制有效防止了系统雪崩。

场景5：500并发系统极限测试

系统整体表现：

总请求数：2233
成功率：~66%
错误率：~34%

智谱 AI 表现：

❌ 大量请求失败：智谱 AI 的错误率显著上升
❌ 系统达到极限：错误率达到 34%
✅ 系统未崩溃：仍能处理 66% 的请求，证明容错机制有效

关键发现：

活动线程数与 300 并发几乎相同（222 vs 221），说明系统瓶颈不在本地，而在外部 AI 模型 API 的响应速度。即使增加并发数，实际处理能力受限于外部 API。

场景6：50并发长时间稳定性测试（10分钟）

系统整体表现：

总请求数：1634
成功率：95.2%
错误率：4.8%

智谱 AI 表现：

❌ 长时间运行仍不稳定：10分钟测试下，智谱 AI 的错误率与场景1（3分钟）基本一致
✅ 系统长时间稳定性优秀：无内存泄漏，无线程泄漏
⚠️ 智谱 AI 问题持续存在：说明不是偶发问题，而是 API 稳定性问题

时间线数据：

时间点	堆内存使用	活动线程	系统状态
压测前	~76 MB	31	基准
2分钟	~127 MB	72	✅ 稳定
4分钟	~99 MB	72	✅ 稳定
6分钟	~125 MB	72	✅ 稳定
8分钟	~82 MB	72	✅ 稳定
10分钟	~95 MB	72	✅ 稳定

分析：

10分钟长时间测试证明：Mayfly 系统本身非常稳定，无内存泄漏，无线程泄漏。智谱 AI 的错误率稳定在 4.8%，说明这是 API 稳定性问题，而非系统问题。

🔍 关键发现

1. 智谱 AI 的 API 稳定性问题

场景	并发数	智谱 AI 表现	系统整体成功率
场景1	50	❌ 频繁触发熔断器	96.15%
场景2	100	❌ 熔断器持续 OPEN	96.1%
场景3	200	⚠️ 错误被分担	99.4%
场景4	300	❌ 错误率上升	95.1%
场景5	500	❌ 大量请求失败	~66%
场景6	50 (10分钟)	❌ 长时间不稳定	95.2%

结论：

智谱 AI 的 API 稳定性问题在所有场景中都存在，不是偶发问题。这可能是：

API 调用频率限制较严格

API 响应时间不稳定

API 可用性不足

⚠️ 重要更正：智谱 AI 并发限制说明

我们之前的判断存在偏差。经过进一步调查，我们发现智谱 AI 的失败主要原因是账户权益等级限制，而非 API 本身不稳定。

根据智谱 AI 官方公开文档速率限制和用户权益说明：

用户权益等级与并发限制

等级	积分范围	主要权益	并发能力
V0 等级	[0, 2,000)	基础服务	极低（不适合生产）
V1 等级	[2,000, 10,000)	并发权益	中等
V2 等级	[10,000, 50,000)	更高并发	较高
V3 等级	>= 50,000	最高并发	最高

免费模型限制

GLM-4-Flash：永久免费，限制 30 并发
GLM-4（本次测试模型）：免费用户并发限制极低

📋 智谱 AI 使用建议

企业使用智谱 AI 的前提条件：

账户等级要求：
- ✅ 最低要求：V1 等级（积分 >= 2,000）
- ✅ 推荐等级：V2 或以上（积分 >= 10,000）
- ❌ 不推荐：V0 等级（免费账户，并发限制极低）
如何提升账户等级：
- 调用模型 API 消耗现金余额获得积分
- 购买产品资源包获得积分
- 花费金额与积分按 1:1 比例兑换
免费模型限制：
- GLM-4-Flash：永久免费，限制 30 并发
- 如需更高并发，需使用付费模型或升级账户
申请提额：
- 通过控制台提交速率限制调整申请
- 填写需要调整的模型、期望增加的并发数量、实际使用场景
- 平台将在 10 个工作日内完成审核

2. Mayfly 的企业级能力验证

即使智谱 AI 存在问题，Mayfly 仍能保障系统稳定运行：

企业级能力	验证结果	说明
智能路由	✅ 验证通过	60% DeepSeek + 25% 通义千问有效分担流量
负载均衡	✅ 验证通过	加权轮询算法智能分配流量
熔断保护	✅ 验证通过	智谱 AI 触发熔断器，防止系统雪崩
故障转移	✅ 验证通过	智谱 AI 失败时自动切换到其他模型
长时间稳定性	✅ 验证通过	10分钟测试无内存泄漏、无线程泄漏

结论：

Mayfly 的企业级能力在真实压测中得到验证：即使单模型（智谱 AI）存在问题，系统仍能通过智能路由、负载均衡、熔断保护、故障转移等机制保障整体服务可用性。

3. 系统瓶颈分析

关键发现：

300并发和500并发的活动线程数几乎相同（222 vs 221），说明系统瓶颈不在本地，而在外部 AI 模型 API 的响应速度。

这意味着：

Mayfly 本地系统的并发处理能力远未达到极限
如果外部 API 限制解除，系统可能支持更高的并发数
企业级场景下，多模型冗余是提升系统吞吐量的关键

🚀 Mayfly 的企业级能力

为什么 Mayfly 能解决智谱 AI 的稳定性问题？

1. 智能路由：不依赖单模型

mayfly:
  models:
    # DeepSeek 配置（主要模型）
    - name: deepseek-primary
      provider: deepseek
      weight: 60  # 60% 流量
    
    # 通义千问配置（副模型）
    - name: tongyi-primary
      provider: tongyi
      weight: 25  # 25% 流量
    
    # DeepSeek 备用
    - name: deepseek-backup
      provider: deepseek
      weight: 10  # 10% 流量
    
    # 智谱 AI 配置（备用模型）
    - name: zhipu-primary
      provider: zhipu
      weight: 5   # 5% 流量（因稳定性问题降低权重）

效果：

智谱 AI 仅处理 5% 的请求
即使智谱 AI 完全不可用，系统仍能处理 95% 的请求
单模型故障不影响整体服务

2. 熔断保护：防止系统雪崩

mayfly:
  circuit-breaker:
    failure-rate-threshold: 50  # 50% 失败率触发熔断
    wait-duration-in-open-state: 60000  # 熔断后等待 60 秒
    sliding-window-size: 100  # 滑动窗口大小

效果：

智谱 AI 错误率达到 50% 时自动熔断
熔断期间，请求自动路由到其他模型
防止单模型故障导致系统雪崩

3. 故障转移：业务无感知

@Service
public class ChatService {
    private final ModelRouter modelRouter;
    
    public ChatResponse chat(String message) {
        // Mayfly 自动处理故障转移
        // 智谱 AI 失败时，自动切换到 DeepSeek 或通义千问
        return modelRouter.chat(new Prompt(message));
    }
}

效果：

业务代码无需处理故障转移逻辑
智谱 AI 失败时，自动切换到其他模型
业务无感知，用户体验不受影响

4. 长时间稳定性：生产就绪

10分钟压测结果：

无内存泄漏：内存底部稳定在 70-80MB
无线程泄漏：活动线程数完全稳定在 72 个
GC 工作正常：锯齿状波动持续，垃圾回收有效

效果：

适合生产环境长时间运行
资源管理稳定
系统行为可预测

📈 压测数据汇总

6个场景完整数据

场景	并发数	持续时间	总请求数	成功率	错误率	活动线程峰值	系统状态
场景1	50	3分钟	442	96.15%	3.85%	~70	轻松
场景2	100	3分钟	924	96.1%	3.9%	~120	轻松
场景3	200	3分钟	1704	99.4%	0.6%	~120	优秀
场景4	300	3分钟	1971	95.1%	4.9%	222	有压力
场景5	500	3分钟	2233	~66%	~34%	221	极限
场景6	50	10分钟	1634	95.2%	4.8%	72	稳定

关键结论

结论	说明
最佳生产配置	150-200并发，错误率<1%
可接受生产上限	300并发，错误率<5%
系统极限	500并发，错误率~34%，但系统未崩溃
长时间稳定性	10分钟测试无内存泄漏、无线程泄漏
系统瓶颈	外部AI模型API（非本地系统）

⚠️ 已知问题与改进计划

当前版本限制

模型数量：当前支持3个模型（DeepSeek、通义千问、智谱AI），v1.1将扩展至8+
智谱AI说明：本次测试使用免费账户（V0等级），并发限制极低。企业使用智谱AI需确保账户达到V1或以上等级
文档完善度：用户文档正在完善中，v1.1将提供完整文档

v1.1改进计划

扩展模型支持至8+（文心一言、讯飞星火、OpenAI、Claude等）
完善用户文档（快速入门、配置说明、FAQ）
补充Token成本统计监控
编写基础单元测试

🎯 明天预告：对比测试

明天，我们将发布第二份报告：DeepSeek vs 通义千问 vs 智谱 AI，谁更适合企业级场景？

对比测试内容

对比维度	说明
API稳定性	各模型在压测下的错误率对比
响应时间	各模型的平均响应时间对比
并发能力	各模型在不同并发下的表现
成本效益	各模型的Token成本对比
综合评分	基于压测数据的综合评分

预期结论

基于今天的压测数据和进一步调查，我们预期：

DeepSeek：API稳定性优秀，适合作为主要模型
通义千问：API稳定性良好，适合作为副模型
智谱AI：免费账户并发限制极低，需升级至V1或以上等级才能用于生产环境

✅ 第二份报告已发布

**《DeepSeek vs 通义千问 vs 智谱 AI：三大模型独立对比测试报告》**已发布！

👉 点击阅读第二份报告

核心发现：

通义千问：100% 成功率，平均响应 6.5s，响应速度最快
DeepSeek：100% 成功率，平均响应 11.0s，性价比最高
智谱 AI：免费账户并发限制极低，数据不可用，企业使用需升级至 V1 或以上等级

🤝 关于 Mayfly

Mayfly 是一个基于 Spring AI 的企业级模型路由增强插件，专为国内 Java 开发者打造。我们致力于解决 Spring AI 在国产模型支持和企业级特性方面的不足，让每个开发者都能轻松构建生产级的 AI 应用。

核心能力

✅ 智能路由：固定路由、权重路由、SpEL规则路由
✅ 负载均衡：轮询、加权轮询算法
✅ 熔断保护：基于Resilience4j，50%失败率自动熔断
✅ 故障转移：主备切换+冷却机制
✅ 健康监控：Micrometer + Prometheus 完整指标
✅ 零配置集成：3行配置快速接入

开源与社区

许可证：Apache License 2.0 (商业友好)
代码托管：https://gitcode.com/Topfogking/mayfly
Issues：https://gitcode.com/Topfogking/mayfly/issues
邮箱：git@xsjyby.asia

快速开始

# 克隆项目
git clone https://gitcode.com/Topfogking/mayfly.git

# 查看示例配置
cat mayfly-demo/src/main/resources/application.yml

# 运行测试
cd mayfly-demo && mvn spring-boot:run

💬 免责声明

测试数据：本文所有数据均来自 Mayfly 项目团队的内部压测，测试结果受测试环境、API 配额、网络条件等因素影响，仅供参考。
个人观点：文中观点均为团队个人见解，不代表任何官方立场。
尊重厂商：我们尊重所有大模型厂商的努力和贡献，本文旨在通过真实数据帮助企业开发者做出更明智的技术选型。
非官方测试：本文非 Spring 官方测试，非智谱 AI 官方测试，仅作为第三方技术团队的独立测试报告。
数据时效性：压测数据仅反映测试时的 API 状态，大模型厂商可能随时优化 API 稳定性。
智谱 AI 说明：本次测试使用免费账户（V0等级），并发限制极低。企业使用智谱AI需确保账户达到V1或以上等级。

📣 立即体验

# 克隆项目
git clone https://gitcode.com/Topfogking/mayfly.git

# 查看压测报告
cat mayfly-demo/stress-test-report.md

# 运行测试
cd mayfly-demo && mvn spring-boot:run

访问测试端点：