AI系统如何做性能测试？

霍格沃兹测试开发学社

227人浏览 · 2026-04-30 16:12:15

霍格沃兹测试开发学社 · 2026-04-30 16:12:15 发布

过去做性能测试，我们最关心的通常是：

接口能不能扛住并发？ RT 有没有超过阈值？ TPS/QPS 能不能达到目标？ CPU、内存、数据库连接池有没有打满？

但到了 AI 系统，尤其是大模型应用、RAG 知识库、AI Agent、多模态问答系统，性能测试就不能再只套传统那一套了。

因为 AI 系统的慢，不一定慢在接口。它可能慢在模型生成第一个 Token。可能慢在检索召回。可能慢在工具调用。可能慢在上下文太长。也可能慢在队列排队、GPU KV Cache、流式输出、重试机制和成本控制。

所以，AI 系统性能测试的核心，不是问一句：

“
“这个接口能抗多少 QPS？”

而是要问：

“
“在真实业务场景下，用户多久能看到第一个结果？完整回答多久生成？并发上来后 Token 输出是否稳定？系统成本是否可控？质量有没有明显下降？”

这才是 AI 系统性能测试和传统系统压测最大的区别。

阅读目录

一、AI 系统性能测试和传统压测有什么不同二、AI 系统性能测试到底测什么三、核心指标：别只看 RT，要看 TTFT、TPOT、TPS 四、不同 AI 系统的压测重点五、AI 性能测试的整体链路怎么设计六、压测数据怎么准备七、监控指标怎么埋八、常见性能瓶颈与优化方向九、一个可落地的 AI 性能测试流程

一、AI 系统性能测试，为什么不能只看 QPS？

传统系统性能测试，本质上是在验证服务端资源承载能力。

比如：

用户登录接口下单接口支付接口查询接口报表接口

这些接口的特点是：请求进来，服务端执行一段确定性的逻辑，然后返回结果。

但 AI 系统不一样。

一个 AI 问答请求进来后，背后可能经历这些步骤：

这个链路里，任何一层都可能成为性能瓶颈。

更关键的是，AI 系统的响应不是一次性返回，而是经常采用流式输出。

用户体感上的“快”，并不是完整响应耗时短，而是：

第一个 Token 出来得快不快；后续 Token 输出是否顺滑；回答中途会不会卡顿；完整生成时间是否可接受；并发上来后是否排队严重。

所以，AI 系统性能测试要从“接口压测”升级成“端到端链路压测”。

二、AI 系统性能测试到底测什么？

AI 系统性能测试，至少要覆盖四层。

1. 接口服务层

这一层和传统性能测试接近，主要关注：

接口 RT QPS / RPS 错误率超时率网关限流鉴权耗时连接池线程池 CPU / 内存日志写入消息队列堆积

但这只是最外层。

如果只测这一层，很容易得出一个错误结论：

“接口很快，系统没问题。”

实际上接口可能只是很快把请求转发给模型服务，真正的慢在后面。

2. 模型推理层

这是 AI 系统性能测试最核心的一层。

大模型推理不能只看接口耗时，还要看 Token 级指标。NVIDIA 的 LLM 推理性能文档中就把 TTFT、ITL、吞吐等作为大模型推理性能的重要指标；OpenAI 的延迟优化文档也强调，模型处理 Token 的速度通常会用 TPM 或 TPS 来衡量。

重点指标包括：

指标	含义	重点关注
TTFT	Time To First Token，第一个 Token 返回耗时	用户多久看到系统开始响应
TPOT / ITL	每个输出 Token 的平均生成耗时	流式输出是否顺滑
TPS	Tokens Per Second，每秒生成 Token 数	模型整体吞吐能力
E2E Latency	端到端完整响应耗时	一次请求完整完成时间
Input Tokens	输入 Token 数	Prompt、上下文、历史对话长度
Output Tokens	输出 Token 数	生成内容长度
Queue Time	请求排队时间	并发下是否堵塞
Timeout Rate	超时率	高峰期稳定性

其中 TTFT 很关键。它通常包含排队、预填充、网络等耗时；Prompt 越长，首 Token 出来的时间往往越容易变长。

3. RAG 检索层

如果你的 AI 系统接入了知识库，就不能只压模型接口。

RAG 系统至少要测这些环节：

Embedding 生成耗时向量检索耗时关键词检索耗时混合检索耗时 Rerank 重排耗时上下文拼接耗时 TopK 数量变化对性能的影响文档数量增长后的查询耗时召回内容过多导致的 Prompt 变长问题

很多 RAG 系统上线后变慢，不是模型本身变慢，而是：

知识库越来越大； TopK 设置过高； Rerank 模型耗时过长；拼接上下文太多；历史对话没有裁剪；检索结果质量不稳定导致模型生成更长。

所以 RAG 性能测试不能只看“问答接口 RT”，要把检索链路拆开测。

4. Agent 工具调用层

如果系统是 AI Agent，性能测试会更复杂。

因为 Agent 不只是“问一次模型，返回一次答案”，它可能会循环执行：

模型思考选择工具调用接口读取结果再次思考再次调用工具最终输出答案

Agent 的链路可能是这样的：

Agent 性能测试要重点关注：

单次任务平均工具调用次数工具调用成功率工具调用平均耗时模型循环次数最大执行步数任务完成时间中间步骤失败率重试次数外部 API 超时率最终成功率

很多 Agent 系统的慢，不是模型慢，而是工具链慢。

比如：

一次任务调用 8 个工具；每个工具平均 1 秒；中间再重试 2 次；最终任务耗时自然会被拉长。

三、AI 系统性能测试的核心指标

传统压测里，我们常看：

QPS TPS RT P90 / P95 / P99 错误率资源利用率

AI 系统当然也要看，但还不够。

AI 系统至少要增加下面这些指标。

1. TTFT：第一个 Token 返回时间

TTFT 决定了用户是否觉得系统“有反应”。

比如两个系统：

系统 A：1 秒开始输出，10 秒完整输出系统 B：6 秒才开始输出，8 秒完整输出

从完整耗时看，B 更快。但从用户体感看，A 可能更好。

因为用户更怕“没反应”。

所以，AI 应用尤其是聊天机器人、客服助手、代码助手、智能问答，一定要单独监控 TTFT。

建议指标：

TTFT 平均值 TTFT P90 TTFT P95 TTFT P99 高并发下 TTFT 增长曲线长 Prompt 下 TTFT 增长曲线

2. TPOT / ITL：Token 输出是否顺滑

ITL 通常表示相邻 Token 之间的时间间隔，也可以理解成每个输出 Token 的生成耗时。NVIDIA 文档中也把 ITL 定义为连续 Token 之间的平均时间间隔。

这个指标影响的是“流式输出体验”。

如果 TTFT 很快，但后续输出一卡一卡的，用户体验也不好。

比如：

第一个字 1 秒出来；后面每隔 2 秒吐几个字；看起来就像系统卡住了。

建议指标：

平均 TPOT / ITL P95 TPOT / ITL 输出 Token 抖动情况不同输出长度下的生成速度不同并发下的生成速度

3. TPS：Token 吞吐量

TPS 不是传统意义上的事务数，而是 Token 处理能力。

这里要区分：

Input TPS：每秒处理多少输入 Token Output TPS：每秒生成多少输出 Token Total TPS：整体 Token 吞吐能力

vLLM 的监控指标里也会关注 prompt tokens processed per second 和 generation tokens per second，这类指标可以帮助判断推理服务真实吞吐能力。

为什么 TPS 很重要？

因为 AI 系统的压力不只来自请求数，还来自 Token 数。

同样是 100 个请求：

每个请求 200 Token 输入，500 Token 输出；和每个请求 8000 Token 输入，3000 Token 输出；

对系统压力完全不是一个量级。

所以 AI 压测不能只说“100 并发”，还要说明：

平均输入 Token 数是多少；平均输出 Token 数是多少；是否流式输出；上下文长度是多少；是否包含工具调用；是否包含 RAG 检索。

4. E2E Latency：端到端完整耗时

端到端耗时仍然重要。

但 AI 系统的 E2E Latency 要拆开看：

用户请求进入系统 Prompt 拼装检索召回 Rerank 模型首 Token 模型完整输出工具调用结果后处理内容安全审核日志落库返回前端

只有把链路拆开，才能定位到底是哪一段慢。

5. 成本指标：AI 系统性能测试必须看钱

AI 系统还有一个传统系统不明显的问题：成本。

一次请求不是简单消耗 CPU，而是消耗：

模型调用费用输入 Token 成本输出 Token 成本 Embedding 成本 Rerank 成本向量数据库资源 GPU 资源缓存资源外部工具 API 成本

所以 AI 性能测试还要看：

单请求平均成本千次请求成本每用户会话成本高峰期小时成本失败请求成本重试带来的额外成本长上下文带来的成本增长

否则可能出现一种情况：

性能指标看起来没问题，但成本已经不可接受。

四、不同 AI 系统，压测重点不一样

AI 系统不是一种系统，而是一类系统。

不同类型的 AI 应用，性能测试重点完全不同。

1. 普通大模型问答系统

典型场景：

智能客服 AI 助手知识问答代码解释文本生成

重点测试：

TTFT TPOT 完整响应时间并发用户数输入 Token 长度输出 Token 长度上下文轮数流式输出稳定性超时率限流策略

测试重点不是“接口能不能通”，而是“用户是否觉得它快”。

2. RAG 知识库系统

典型场景：

企业知识库文档问答制度查询客服知识库合同问答技术文档助手

重点测试：

检索耗时 Embedding 耗时向量库查询耗时 Rerank 耗时 TopK 对耗时的影响文档规模增长后的性能变化上下文拼接后 Prompt Token 增长答案生成耗时召回质量和性能之间的平衡

RAG 压测不能只压问答接口，还要压知识库规模。

比如：

1 万文档 10 万文档 100 万文档不同 chunk 大小不同 TopK 是否启用 Rerank 是否启用混合检索

这些都会影响最终性能。

3. AI Agent 系统

典型场景：

自动化测试 Agent 运维 Agent 数据分析 Agent 代码生成 Agent 办公自动化 Agent 浏览器操作 Agent

重点测试：

任务完成时间平均执行步数最大执行步数工具调用次数工具调用耗时工具失败率重试次数循环失控率外部系统依赖耗时任务成功率

Agent 系统性能测试最怕只看“接口返回耗时”。

因为有些 Agent 是异步任务，接口可能很快返回 task_id，但真正任务执行可能要几十秒甚至几分钟。

所以 Agent 要测的是“任务生命周期性能”。

4. 多模态 AI 系统

典型场景：

图片问答截图分析视频理解 OCR + 大模型图文审核视觉质检

重点测试：

图片上传耗时图片预处理耗时 OCR 耗时视觉模型推理耗时多模态模型首 Token 时间图片大小对性能影响分辨率对性能影响批量图片处理能力多模态输入 Token 成本端到端耗时

多模态系统经常不是文本模型慢，而是图片处理链路慢。

比如：

图片压缩格式转换 OCR 目标检测视觉编码文件存储对象存储读取安全审核

这些都要纳入性能测试范围。

五、AI 系统性能测试怎么设计场景？

AI 性能测试场景不能只写：

100 并发，持续 10 分钟。

这太粗了。

应该按真实业务负载设计。

1. 按输入长度分层

AI 请求的压力，很大程度取决于输入 Token。

可以分成：

短输入：100 - 500 Token 中输入：500 - 2000 Token 长输入：2000 - 8000 Token 超长输入：8000 Token 以上

不同长度要分别压测。

因为短 Prompt 快，不代表长 Prompt 也快。

2. 按输出长度分层

输出越长，模型生成时间越久，成本也越高。

可以分成：

短回答：100 - 300 Token 中回答：300 - 1000 Token 长回答：1000 - 3000 Token 报告型回答：3000 Token 以上

很多系统平时问答没问题，一到“生成报告”“总结长文档”“生成测试用例”，性能就明显下降。

原因就是输出 Token 变长了。

3. 按业务任务分层

不要只用随机问题压测，要用真实任务。

比如测试 AI 测试平台，可以设计这些场景：

需求文档生成测试点接口文档生成接口用例图片页面生成测试用例错误日志分析根因根据用户故事生成自动化脚本根据缺陷描述生成复现步骤基于知识库回答测试规范问题调用工具查询接口返回并分析结果

每种任务的链路不同，性能表现也不同。

4. 按链路复杂度分层

可以把 AI 请求分成四类：

类型	链路	示例
L1	只调用模型	普通问答、文本改写
L2	模型 + RAG	知识库问答、文档问答
L3	模型 + 工具	查询订单、调用接口、执行脚本
L4	模型 + RAG + 多工具 + 多轮推理	Agent 自动完成任务

压测时一定要区分。

否则你可能用 L1 场景压出来一个很好看的数据，然后上线跑 L4 任务直接崩。

六、AI 性能测试数据怎么准备？

AI 压测数据不能随便写几句“你好”“介绍一下公司”。

因为这种数据太短、太简单、太不真实。

建议准备四类数据。

1. 真实业务问题集

从线上日志、客服记录、用户提问、内部工单中抽样。

注意要脱敏。

例如：

用户真实问题历史客服问答真实需求文档真实接口文档真实缺陷描述真实日志片段真实知识库文档

真实数据的价值在于：它能暴露真实性能问题。

2. 长上下文数据

专门构造长 Prompt。

比如：

长需求文档长接口文档长会议纪要长日志文件长合同文本多轮历史对话

很多 AI 系统在短文本下表现很好，但长文本下 TTFT 急剧上升。

3. 高复杂任务数据

用于压测 Agent。

比如：

需要 3 次工具调用才能完成的任务需要查询多个系统的任务需要先检索再分析的任务需要生成结构化结果的任务需要失败重试的任务

这类数据能测出 Agent 的真实瓶颈。

4. 异常数据

性能测试不能只测正常请求。

还要测：

空输入超长输入乱码输入大量特殊符号图片过大文件格式异常检索无结果工具调用失败模型返回超长模型返回不完整用户连续快速提问

AI 系统的稳定性，往往是在异常输入下暴露问题。

七、AI 性能测试监控怎么做？

AI 系统性能测试，如果没有监控，压测结果基本没什么价值。

因为你只能看到“慢了”，但不知道为什么慢。

建议监控分为五层。

1. 应用层监控

关注：

接口 RT QPS / RPS 错误率超时率限流次数重试次数请求队列长度连接池使用率线程池使用率日志写入耗时

2. 模型层监控

关注：

TTFT TPOT / ITL Input Tokens Output Tokens Tokens Per Second 请求排队时间 Batch Size KV Cache 使用率模型服务错误率模型服务超时率流式输出中断率

3. RAG 层监控

关注：

Embedding 耗时向量检索耗时关键词检索耗时 Rerank 耗时 TopK 数量召回文档数量上下文拼接 Token 数向量库 CPU / 内存 / IO 索引查询耗时缓存命中率

4. Agent 层监控

关注：

任务总耗时执行步骤数工具调用次数工具平均耗时工具失败率模型调用次数循环次数最大步数触发次数任务成功率任务取消率

5. 资源与成本监控

关注：

CPU 内存 GPU 利用率显存使用率网络 IO 磁盘 IO 数据库连接 Redis 命中率消息队列堆积单请求 Token 成本单位时间模型调用成本失败请求成本

AI 系统性能测试最好把“性能”和“成本”放在一张图里看。

因为只追求快，可能成本爆炸。

八、一个 AI 性能测试指标体系

可以参考下面这个指标体系设计。

九、AI 系统常见性能瓶颈

1. Prompt 太长

很多系统慢，不是模型不行，而是 Prompt 拼得太长。

常见原因：

历史对话无限追加 RAG 召回内容过多系统提示词太复杂把无关字段都塞给模型没有做上下文裁剪没有做摘要压缩

优化方向：

限制历史轮数长对话摘要化 RAG 结果裁剪减少无用 system prompt 按任务动态拼 Prompt 对上下文做 Token 预算

2. RAG 检索链路太重

常见原因：

TopK 设置过大 Rerank 模型太慢向量库索引不合理文档 chunk 过碎混合检索没有缓存每次请求都重新 Embedding 知识库规模增长后没有重新评估

优化方向：

调整 chunk 大小优化 TopK 增加缓存异步预处理 Embedding 优化索引按业务场景拆知识库只对高价值候选做 Rerank

3. Agent 工具调用太多

常见原因：

模型规划不稳定工具描述不清晰工具粒度太细每一步都重新调用模型工具失败后无限重试缺少最大步数限制缺少任务中断机制

优化方向：

合并工具能力优化工具描述限制最大执行步数增加工具调用缓存失败快速返回增加任务状态机对高频任务做模板化流程

4. 流式输出看似快，实际后端压力大

流式输出能改善用户体感，但不代表系统压力小。

因为连接保持时间更长，服务端需要维护更多长连接。

需要关注：

连接数连接保持时间 SSE / WebSocket 稳定性中途断连率客户端消费速度服务端缓冲区网关超时配置

5. 重试机制放大流量

AI 系统经常会有重试：

模型超时重试工具失败重试检索失败重试网络异常重试内容审核失败后重试

如果重试策略不合理，高峰期可能形成流量放大。

比如原始 QPS 是 100，失败率 20%，每次失败重试 2 次，实际后端压力可能远高于预期。

所以压测时一定要打开真实重试策略。

十、AI 性能测试怎么落地？

可以按这个流程来做。

第一步：明确业务场景

先不要急着写压测脚本。

先问清楚：

这个 AI 系统给谁用？核心任务是什么？用户一次会话大概问几轮？输入内容一般多长？输出内容一般多长？是否需要 RAG？是否需要工具调用？是否需要多模态？是否需要流式输出？高峰期并发是多少？用户能接受多长时间返回？

如果这些不清楚，压测指标就没有意义。

第二步：拆分调用链路

把一次 AI 请求拆开。

例如 RAG 问答系统：

用户请求鉴权 Prompt 拼装 Embedding 向量检索 Rerank 上下文拼接模型调用流式返回日志记录

每一段都要有耗时。

否则压测报告只能写一句：

“接口 P95 = 8.5 秒。”

但这句话无法指导优化。

第三步：定义性能目标

AI 系统性能目标要分层定义。

例如：

指标	目标示例
TTFT P95	小于 2 秒
完整响应 P95	小于 15 秒
超时率	小于 1%
工具调用成功率	大于 99%
RAG 检索 P95	小于 800ms
单请求平均成本	不超过预算
流式输出中断率	小于 0.5%

注意：这些数值不是通用标准，要根据业务场景定。

客服问答和报告生成，对响应时间的要求完全不同。

第四步：准备压测数据集

建议至少准备三套数据：

基准数据集：正常问题长文本数据集：长 Prompt、长文档复杂任务数据集：RAG、工具调用、Agent 多步任务

每条数据最好记录：

问题类型输入 Token 数预期输出长度是否需要检索是否需要工具是否多轮对话是否流式输出任务复杂度等级

这样压测结果才能按场景分析。

第五步：执行基准测试

先单用户、低并发跑。

目的不是压垮系统，而是拿到基线。

要记录：

平均 TTFT 平均 TPOT 平均完整耗时平均输入 Token 平均输出 Token 平均检索耗时平均工具调用耗时单请求成本

基准测试很重要。

没有基准，就不知道后面性能下降是从哪里开始的。

第六步：执行阶梯压测

不要一上来就 1000 并发。

建议阶梯式增加：

1 并发 5 并发 10 并发 20 并发 50 并发 100 并发 200 并发

每个阶段观察：

TTFT 是否突然升高 P95/P99 是否恶化队列是否堆积 GPU 显存是否接近上限 RAG 检索是否变慢工具调用是否超时错误率是否上升成本是否线性增长

AI 系统压测特别要看拐点。

很多系统在低并发下很稳定，但到某个并发点之后，TTFT 会突然变长。

这个点就是容量边界。

第七步：执行稳定性测试

稳定性测试不是看峰值，而是看长时间运行。

比如：

持续 2 小时持续 6 小时持续 12 小时持续 24 小时

观察：

是否内存泄漏连接是否释放队列是否持续堆积缓存是否失效日志是否打爆磁盘 Token 成本是否异常模型服务是否出现周期性抖动向量库是否出现查询变慢工具 API 是否触发限流

AI 系统的稳定性问题，经常不是一开始就暴露，而是运行一段时间后才出现。

十一、压测脚本要注意什么？

如果是普通 HTTP 接口，可以用 JMeter、Locust、k6。

但 AI 系统压测要额外处理：

流式响应 Token 统计首 Token 时间完整响应时间请求上下文多轮会话 RAG 参数工具调用结果失败重试成本统计

伪代码可以这样设计：

import time
import requests

def test_ai_stream_api(payload):
    start_time = time.time()
    first_token_time = None
    output_text = ""

    response = requests.post(
        "https://your-ai-api.com/chat",
        json=payload,
        stream=True,
        timeout=60
    )

    for chunk in response.iter_lines():
        if chunk:
            now = time.time()

            if first_token_time isNone:
                first_token_time = now

            output_text += chunk.decode("utf-8", errors="ignore")

    end_time = time.time()

    return {
        "ttft": first_token_time - start_time if first_token_time elseNone,
        "e2e_latency": end_time - start_time,
        "output_length": len(output_text),
        "success": response.status_code == 200
    }

这个脚本只是示意，真实项目里还要增加：

Token 计算异常处理并发模型统计聚合 P95/P99 日志上报请求数据集管理结果落库

十二、AI 性能测试报告应该怎么写？

AI 系统性能测试报告，不建议只写传统格式。

建议包含这些部分：

1. 测试对象

系统架构模型类型是否流式输出是否使用 RAG 是否使用 Agent 是否调用外部工具是否多模态输入

2. 测试场景

普通问答知识库问答长文本总结测试用例生成工具调用任务多轮对话异常输入高并发请求

3. 负载模型

并发用户数请求速率输入 Token 分布输出 Token 分布会话轮数任务复杂度持续时间压测数据来源

4. 核心指标

TTFT TPOT / ITL TPS 完整响应时间 P90 / P95 / P99 错误率超时率任务成功率工具调用耗时 RAG 检索耗时资源使用率单请求成本

5. 瓶颈分析

瓶颈在哪一层什么时候开始出现哪个指标先恶化是否和 Token 长度相关是否和检索有关是否和工具调用有关是否和 GPU / 队列有关是否存在成本异常

6. 优化建议

Prompt 优化上下文裁剪 RAG 参数调整缓存策略模型选择推理服务扩容工具调用优化异步化处理限流与降级成本控制策略

十三、AI 系统性能测试最容易踩的坑

坑一：只用短问题压测

比如全部使用：

“你好” “介绍一下你自己” “帮我写一段话”

这种压测没有意义。

真实用户不会只问这种问题。

坑二：只看平均响应时间

AI 系统一定要看 P95 和 P99。

平均值很好看，不代表高峰期用户体验好。

尤其是模型服务，尾延迟经常很明显。

坑三：只压模型，不压完整链路

模型单独压测很快，不代表业务系统快。

因为线上链路还有：

检索 Rerank 权限过滤内容审核工具调用日志记录网关转发数据库查询

性能测试必须覆盖完整链路。

坑四：不统计 Token

不统计 Token，就无法解释性能变化。

一次请求慢，到底是因为并发高，还是因为输入太长，还是输出太长？

没有 Token 统计，就说不清楚。

坑五：不测成本

AI 系统不是只要能扛住就行。

有些方案性能很好，但成本高到无法上线。

性能测试必须带上成本视角。

十四、结尾

AI 系统性能测试，已经不是传统意义上的接口压测。

它要同时回答四个问题：

第一，用户体验是否足够快？重点看 TTFT、流式输出、完整响应时间。

第二，系统链路是否稳定？重点看 RAG、Agent、工具调用、重试、超时和错误率。

第三，资源容量是否清楚？重点看并发、队列、Token 吞吐、GPU/CPU/内存和缓存。

第四，成本是否可控？重点看输入 Token、输出 Token、模型调用次数、失败重试和单请求成本。

真正成熟的 AI 性能测试，不是压出一个漂亮的 QPS 数字，而是建立一套可解释、可定位、可复测、可优化的性能基线。

因为 AI 系统的性能问题，表面看是“回答慢”，本质上往往是：

上下文太长；检索链路太重；工具调用太多；模型排队太久； Token 生成不稳；成本控制不足；缺少端到端观测。

所以，测试 AI 系统性能时，不能只问：

“能扛多少并发？”

而要问：

“在真实业务任务下，它能不能稳定、及时、可控地完成一次智能响应？”

本文部分内容参考了霍格沃兹测试开发学社整理的相关技术资料，主要涉及软件测试、自动化测试、测试开发及 AI 测试等内容，侧重测试实践、工具应用与工程经验整理。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

深度学习模型优化利器：AIFengheshu/Plug-play-modules即插即用模块库深度解析与实战应用指南

极大地降低了深度学习模型改进的门槛。它让开发者不再受限于基础架构，而是能够像搭积木一样，灵活尝试各种前沿的注意力机制与卷积策略。无论是为了在学术竞赛中提升名次，还是在工业界落地中优化模型精度，这个项目都是一个值得深入挖掘和使用的强大工具库。

AtomGit开源社区

单相整流器整流电路pwm并网模型仿真研究（Simulink仿真实现）

单相PWM整流器作为低压并网发电、分布式储能、智能家居供电系统的核心电力电子装置，具备电能双向流动、电网谐波抑制、单位功率因数运行等优势，有效解决了传统二极管整流器谐波污染大、功率因数低、电能利用率不足的问题。为探究单相PWM整流器并网运行的稳态特性、动态响应及电能质量控制效果，本文依托电力电子仿真平台，搭建完整的单相PWM整流器并网仿真模型。

AtomGit开源社区

小区团购管理信息管理系统源码-SpringBoot后端+Vue前端+MySQL【可直接运行】

AtomGit开源社区

所有评论(0)

查看更多评论

霍格沃兹测试开发学社

@Hogwartstester

已为社区贡献134条内容

AI系统如何做性能测试？

霍格沃兹测试开发学社

阅读目录

一、AI 系统性能测试，为什么不能只看 QPS？

二、AI 系统性能测试到底测什么？

1. 接口服务层

2. 模型推理层

3. RAG 检索层

4. Agent 工具调用层

三、AI 系统性能测试的核心指标

1. TTFT：第一个 Token 返回时间

2. TPOT / ITL：Token 输出是否顺滑

3. TPS：Token 吞吐量

4. E2E Latency：端到端完整耗时

5. 成本指标：AI 系统性能测试必须看钱

四、不同 AI 系统，压测重点不一样

1. 普通大模型问答系统

2. RAG 知识库系统

3. AI Agent 系统

4. 多模态 AI 系统

五、AI 系统性能测试怎么设计场景？

1. 按输入长度分层

2. 按输出长度分层

3. 按业务任务分层

4. 按链路复杂度分层

六、AI 性能测试数据怎么准备？

1. 真实业务问题集

2. 长上下文数据

3. 高复杂任务数据

4. 异常数据

七、AI 性能测试监控怎么做？

1. 应用层监控

2. 模型层监控

3. RAG 层监控

4. Agent 层监控

5. 资源与成本监控

八、一个 AI 性能测试指标体系

九、AI 系统常见性能瓶颈

1. Prompt 太长

2. RAG 检索链路太重

3. Agent 工具调用太多

4. 流式输出看似快，实际后端压力大

5. 重试机制放大流量

十、AI 性能测试怎么落地？

第一步：明确业务场景

第二步：拆分调用链路

第三步：定义性能目标

第四步：准备压测数据集

第五步：执行基准测试

第六步：执行阶梯压测

第七步：执行稳定性测试

十一、压测脚本要注意什么？

十二、AI 性能测试报告应该怎么写？

1. 测试对象

2. 测试场景

3. 负载模型

4. 核心指标

5. 瓶颈分析

6. 优化建议

十三、AI 系统性能测试最容易踩的坑

坑一：只用短问题压测

坑二：只看平均响应时间

坑三：只压模型，不压完整链路

坑四：不统计 Token

坑五：不测成本

十四、结尾

所有评论(0)

温馨提示：您尚未绑定手机号

霍格沃兹测试开发学社