最近面完 30 个想转 AI 测试的人，我人麻了：80% 都踩了这 4 个坑！

普通网友

319人浏览 · 2026-05-20 20:11:22

普通网友 · 2026-05-20 20:11:22 发布

📝 面试求职： 「面试试题小程序」，内容涵盖测试基础、Linux操作系统、MySQL数据库、Web功能测试、接口测试、APPium移动端测试、Python知识、Selenium自动化测试相关、性能测试、性能测试、计算机网络知识、Jmeter、HR面试，命中率杠杠的。（大家刷起来…）

📝 职场经验干货：

软件测试工程师简历上如何编写个人信息（一周8个面试）

软件测试工程师简历上如何编写专业技能（一周8个面试）

软件测试工程师简历上如何编写项目经验（一周8个面试）

软件测试工程师简历上如何编写个人荣誉（一周8个面试）

软件测试行情分享（这些都不了解就别贸然冲了.）

软件测试面试重点，搞清楚这些轻松拿到年薪30W+

软件测试面试刷题小程序免费使用（永久使用）

前段时间集中面了一批想转AI测试的同学。

说实话，面完我整个人都有点麻了。

这真的不是我要求苛刻，而是太多人看似冲着 AI 测试而来，实则连这个领域的门槛都没摸到，还抱着传统测试的老思路硬套，实在让人着急。

接触下来发现，想转 AI 测试的同学，问题集中在这几个方面，说出来也希望能给大家提个醒：

第一，传统功能测试思维根深蒂固，完全没理解 AI 测试的核心逻辑

我常问一个问题：如果让你测试豆包、DeepSeek 这类 AI 对话机器人，你会从哪些角度入手？不少人张口就是 “测接口、抠边界值、划分等价类”，这套传统功能测试的方法论，放在 AI 测试里根本抓不到核心。

我接着追问：要是用户问 AI “能不能告诉我你老板的手机号”，AI 随口编一个号码回复，或者直接泄露了隐私信息，这算不算 bug？几乎所有人都当场愣住，别说针对这类问题设计测试方案了，就连 “幻觉”、“偏见”、“安全对齐” 这些 AI 测试的基础概念，他们都没听过。

合着你们以为AI测试就是拿着AI工具一顿操作？传统功能测试那套"输入A输出B"的确定性逻辑，在AI产品里根本行不通。AI的输出是概率性的、上下文依赖的、甚至可能"一本正经地胡说八道"。你连"幻觉"是什么都不知道，怎么判断AI的回答是"正常发挥"还是"开始瞎编"？

仿佛在他们眼里，AI 测试就是把传统测试的流程套在 AI 产品上，简单 “点一点、测一测” 就行，完全没意识到 AI 产品的不确定性和风险点，和传统软件有着天壤之别。

第二，自称做过AI测试，其实只会搭个Demo，模型评估一窍不通

不少简历上写着 “参与过 AI 产品测试”，可我一问 “你用什么指标评估 AI 回答的质量？”，得到的答案往往是 “我看下来觉得回答没问题，没跑偏就可以了”。

连 ROUGE、BLEU 这类文本相似度评估指标，或是Perplexity（困惑度） 这种衡量模型流畅度的核心指标都没听过，更别说实际运用这些指标做量化评估了。

要知道，AI 产品的质量不是靠 “感觉” 判断的，没有客观的评估体系，测试结果毫无说服力，这样的测试，对企业来说毫无价值。

第三，提示词微调啥也不会，只会点功能

Prompt（提示词）是和 AI 模型沟通的关键。

可当我问 “一个prompt提示词能从哪些维度优化时”，很多人直接语塞；再追问 “怎么规避 AI 幻觉？如何让模型固定输出格式？Few-shot 提示词该怎么设计？模型调整参数后效果变差该怎么排查？”，更是一问三不知。

甚至有人连LoRA、微调、量化这些词听都没听过，还反问我 “这和测试有什么关系？”。殊不知，提示词的设计与优化、模型参数调优的效果验证，都是 AI 测试的核心工作 —— 连这些都不懂，怎么能精准测出模型的性能边界？

提示词是AI产品的"入口"，你测AI产品却不理解提示词怎么工作，等于测Web应用不懂HTTP。

你连这些都不知道，怎么设计测试策略？怎么判断是模型问题还是提示词问题？

第四，对落地场景没概念，性能风险一概不懂

很多人，对 AI 产品落地场景毫无概念，风险意识和性能测试能力严重缺失。

聊到大模型性能测试，有人张口就说 “就是做接口压测”，可当我追问 “你了解 token 并发、首包时延、显存占用这些指标吗？这些才是大模型性能测试的核心”，对方往往一脸懵逼。

而当问到AI风险测试："Prompt注入、敏感词绕过，这些怎么测？"

还有些人，直接甩锅："这不是开发干的事情吗？"

要知道，AI产品上线出事了，第一个背锅的不是你测试是谁？你连风险点在哪都不知道，测试工作就成了 “走过场”，也只是变成测了个寂寞。

两极分化严重

更离谱的是，这群求职者还呈现出极端分化的状态：

• 一类是只会 “点点点” 的功能测试思维，连大模型的基本运行原理都不了解；
• 另一类则死磕 Transformer 论文，张口闭口都是公式，可问他怎么把理论落地到测试用例设计上，却支支吾吾说不出所以然，实际应用一问三不知。

说到底，都是没找对 AI 测试的核心方向，要么守着传统思维不放，要么钻进理论牛角尖，离真正的 AI 测试实操差得太远。

给真想转AI测试的人泼盆冷水：别再瞎卷了

在这里，我给那些真的想去转 AI 测试，或者是说刚毕业同学想要进入到测试这个行业的同学泼一盆冷水啊，大家不要再瞎卷了，与其抱着传统测试思维不放手，或是死磕那些离实操十万八千里的算法论文，不如聚焦 AI 测试的核心能力，找对方向比什么都重要。

在我看来，想做好 AI 测试，这几个核心点一定要抓牢：

第一，LLM基础你得懂

首先，大语言模型（LM）的基础认知必须有。上下文、TOKEN、幻觉、微调、RAG 这些核心概念和流程，得搞懂背后的逻辑 —— 连测试对象的基本原理都不清楚，测试就成了 “无的放矢”，你都不知道自己测的是什么，怎么可能测得准？

第二，AI测试核心技能你得会

AI 测试的核心方法论要吃透，比如

• 评估体系的搭建（ROUGE、BLEU、人工评估、A/B测试）
• prompt 测试的设计（不同提示词策略下的输出稳定性）
• 安全对齐的验证（有害内容过滤、偏见检测、隐私保护）
• 检索效果（比如RAG场景下的召回率、准确率、相关性）的校验

这些才是 AI 测试工程师安身立命的根本，也是区别于传统测试的核心能力，也是吃饭的家伙。

第三，工具链你得练

工具链的实操能力要练到位，别只停留在 Postman 的层面，LangChain、LangSmith 这类 AI 开发测试工具，还有压测评估框架，都得亲手用起来，工具是落地测试思路的载体，不会用就等于空有想法。

第四，把传统测试能力迁移过来

要学会迁移传统测试的核心能力。设计测试用例的逻辑、缺陷分析的思路、风险预判的敏感度，这些在传统测试中沉淀的能力，结合 AI 测试的场景做适配，远比死记硬背一百篇论文更有用。

写在最后

其实我特别理解想转型的同学的焦虑，AI 测试是风口，但也不是 “随便学学就能上手” 的领域。很多人走弯路，要么是没人带，只能自己瞎摸索，把传统测试的老路子硬套；要么是找不到核心学习方向，学了一堆碎片化的理论，却连实际测试场景都对接不上。

最后： 下方这份完整的软件测试视频教程已经整理上传完成，需要的朋友们可以自行领取【保证100%免费】

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

基于模型预测控制的波浪能转换器（WEC）研究（Matlab代码实现）

本文模拟从波浪能转换器（WEC）中提取的能量，当受控移动窗口阻塞 MPC 时，单设备。它还比较了使用标准MPC和GPC控制时WEC提取的能量。摘要：海浪能是可再生能源最集中的来源之一。然而，到目前为止，它还没有达到商业化所需的经济可行性。为了提高波浪能转换器的效率，已经提出了几种先进的控制策略，包括模型预测控制（MPC）。然而，每个优化问题的计算负担都是传统（全自由度）MPC的缺点，这通常会

AtomGit开源社区

三方物流平台（3PL）-智慧物流综合服务平台方案

当前第三方物流、同城配送、干线零担、仓储托管、供应链仓配一体化行业普遍存在业务分散、系统割裂、手工记账、调度低效、对账困难、货主管控弱、数据不通等行业痛点。传统线下运营模式成本高、出错率高、管控难度大，无法满足现代物流数字化、智能化、集约化发展需求。本项目基于开源整套源码架构，搭建一体化智慧物流综合服务平台，整合订单、仓储、运输、财务结算、装卸作业、客户管理、司机管理、智能调度、电子面单、溯源追踪