大模型工程师进阶：从打杂到核心

ZhangJiQun&MXP

360人浏览 · 2026-03-21 22:31:51

ZhangJiQun&MXP · 2026-03-21 22:31:51 发布

目前大模型开发应用：数据打标通过设计合理的提示词之后再连接对应的gemini接口实现工单打标。目前我认为工作很普通，没有核心竞争力怎么办

先做核心定位澄清（先破焦虑）

你当前的工作100%属于大模型应用开发的核心基础环节，也是90%企业大模型落地的核心场景，绝非“打杂”。
你觉得没有核心竞争力，本质是3个问题：

只做了「单点功能实现」，没有形成工业化、可复用、可量化的工程体系，可替代性极强；
只完成了「打标」这个环节，没有绑定业务全链路价值，老板看不到你的不可替代性；
只调用了通用大模型，没有沉淀垂直场景的技术资产与数据壁垒，没有形成个人技术护城河。

第一阶段：短期突破（1-2个月）—— 把现有工作做到极致，形成执行层不可替代性

核心目标：不换工作内容，只做深度优化，把「单次prompt+API调用」升级为生产级工单打标系统，用可量化的业务结果证明价值，同时夯实大模型应用工程的基础能力。

动作1：把「试错式写提示词」升级为「工业化提示词工程体系」

这是你当下最容易落地、最快出效果的动作，也是大模型应用工程师的核心基本功，绝非网上烂大街的“prompt技巧”。

具体执行步骤：

先做标准化：输出《拓竹科技工单打标分类体系V1.0》
没有明确的分类标准，再好的提示词也没用。你需要先对齐业务方（客服、售后、产品），明确：
- 一级分类（如设备故障、账号问题、功能建议、物流售后、合规投诉）
- 二级分类（如设备故障下细分：3D打印机喷头/主板/固件故障、摄像头/传感器故障等）
- 每个分类的明确判定边界、正反例、异常场景处理规则（如多意图工单、模糊工单、无效工单的判定标准）
  输出一份可落地、全公司对齐的文档，这是你所有工作的基础，也是你业务话语权的起点。

模块化提示词模板搭建，告别单句prompt
把提示词拆成5个可迭代、可复用的模块，适配Gemini API调用，示例如下：

system_prompt = """
# 角色定义
你是拓竹科技专属的工单分类打标专家，严格遵循给定的分类规范，对用户工单进行精准分类，输出标准化结果。

# 分类规范（引用上面的V1.0文档核心内容）
1. 一级分类与二级分类定义
2. 分类优先级规则（多意图工单优先按核心诉求分类）
3. 异常工单处理规则（无效工单、广告工单、模糊工单的判定）

# 推理规则
1. 先提取工单核心诉求，再对照分类规范匹配对应标签，禁止凭空臆断
2. 对模糊诉求，优先匹配历史高频同类工单的分类逻辑
3. 必须输出分类结果+置信度（0-100分），置信度低于80分需标注「待人工复核」

# 输出格式（严格JSON格式，禁止额外内容）
{
  "ticket_id": "工单ID",
  "一级分类": "xxx",
  "二级分类": "xxx",
  "置信度": xx,
  "待人工复核": "是/否"
}

# 少样本示例（Few-Shot）
【工单】：我的A1打印机打印出来有条纹，换了喷头还是不行，固件是最新版本
【输出】：{"ticket_id":"xxx","一级分类":"设备故障","二级分类":"打印喷头故障","置信度":98,"待人工复核":"否"}
（至少补充10组覆盖不同分类、异常场景的正反例）
"""

提示词量化评估与迭代闭环
告别“凭感觉改prompt”，建立标准化评估体系：
- 抽取1000条100%人工标注的黄金标准测试集，固定不变，用于所有版本提示词的效果评估
- 核心评估指标：整体准确率、单分类召回率、F1值、异常工单处理准确率、人工复核率
- 每次迭代提示词，都用固定测试集跑一遍，记录指标变化，只保留能提升指标的修改，形成迭代闭环。

验收标准：工单打标整体准确率≥95%，核心分类准确率≥98%，人工复核率降低60%以上。

动作2：把「单次API调用」升级为「高可用、可观测、低成本的工程化服务」

只会调用API的人一抓一大把，但能把API做成生产级高可用服务的人，才是企业需要的工程师。

具体执行步骤：

容错与降级机制搭建
解决Gemini API超时、限流、报错的生产级问题，用Python轻量库即可实现：
- 重试机制：用tenacity实现指数退避重试，针对限流、超时错误自动重试，最多3次
- 熔断降级：用pybreaker实现熔断，当API错误率超过阈值时，自动切换到兜底方案（关键词规则引擎打标），保证服务不中断
- 批量处理：实现工单批量调用，减少API请求次数，提升处理效率
成本优化（最容易让老板看到价值的点）
Gemini API按Token收费，你可以通过3个动作直接给公司降本：
- Prompt压缩：去掉冗余内容，把少样本示例做精简，固定系统提示词做Token优化，单条请求Token量降低30%
- 缓存机制：对高频重复工单（如“怎么重置密码”“固件怎么升级”），建立结果缓存，不用重复调用API
- 长工单处理：对超长工单，先做关键信息提取（只保留用户诉求、设备型号、故障现象），再喂给大模型，减少无效Token消耗
可观测与日志体系搭建
给每一次API调用加上全链路日志，记录：工单ID、输入Token数、输出结果、调用耗时、是否报错、人工复核结果，然后做一个极简监控看板（用Grafana，甚至Excel就能做），监控核心指标：
- 每日打标量、API调用成功率、平均耗时
- 整体准确率、各分类准确率、异常率
- 每日API总消耗、单条工单平均成本

验收标准：API服务可用性从92%提升至99.9%，单条工单打标成本降低40%以上，全年可给公司节省可量化的API费用。

动作3：搭建「人机协同半自动化标注流水线」

把你现在的“大模型打标+人工全量复核”，升级为“大模型预标注+置信度分级+人工选择性复核”的流水线，直接提升团队效率。

具体执行步骤：

置信度分级规则：
- 置信度≥95分：直接通过，无需人工复核
- 置信度80-95分：人工轻量复核，仅核对分类是否正确
- 置信度＜80分：人工全量标注，标注结果回流到少样本库，优化提示词
建立数据回流闭环：把人工复核修正的结果，自动同步到提示词的少样本库，每月迭代一次提示词，形成“打标-复核-优化-更准”的正向循环。

验收标准：团队人工标注工作量降低60%以上，日均工单处理量提升50%。

第二阶段：中期深耕（3-4个月）—— 垂直场景技术突破，形成核心技术壁垒

核心目标：从「调用通用大模型」升级为「拓竹垂直场景大模型专家」，掌握数据治理、LoRA微调、RAG检索增强这三大核心技能，沉淀别人抢不走的技术与数据资产。

动作1：沉淀「拓竹工单垂直领域高质量数据集」（核心中的核心）

大模型时代，高质量垂直数据是你最大的个人壁垒，也是企业最核心的资产，这是网上随便搜教程学不来的。

具体执行步骤：

数据清洗与脱敏
拉取拓竹历史工单数据，做标准化处理：
- 去重、去噪：去掉重复工单、广告工单、无效空白工单
- 脱敏处理：去掉用户手机号、地址、设备SN、隐私信息，保证数据合规
- 格式化：统一工单文本格式，去掉无关的表情、乱码、特殊符号
数据集分级管理
把数据分成3类，对应不同用途：
- 预标注数据集：≥10万条，大模型预标注+人工复核，用于提示词优化、RAG知识库
- 黄金测试集：1000条，100%资深人工标注，固定不变，用于所有模型/提示词的效果评估
- 微调数据集：5000-10000条，高质量人工标注，严格对齐分类规范，用于LoRA微调
资产沉淀
把数据集做成标准化的JSONL格式，在公司内部沉淀为数据资产，同时脱敏后可开源到Hugging Face/ModelScope，成为你个人的技术名片。

验收标准：完成≥10万条脱敏工单数据集，其中高质量微调数据集≥5000条，黄金测试集≥1000条，形成标准化数据管理规范。

动作2：完成「拓竹工单垂直模型LoRA轻量微调」

很多人觉得微调门槛很高，其实现在开源工具已经把门槛降到极低，用你沉淀的工单数据，一张消费级显卡/云端免费算力就能完成，这是你和普通API调用者拉开差距的核心动作。

具体执行步骤：

模型选型：优先选开源、中文适配好、轻量、工业界常用的模型，比如通义千问Qwen2-7B、智谱GLM-4-9B-Chat、Llama 3-8B，这些模型都有完善的微调教程，社区生态成熟。
微调环境与工具：用零门槛微调框架LLaMA Factory，支持一键LoRA微调，不用写复杂代码；算力可以用阿里云/腾讯云的按需付费GPU，或者Google Colab免费算力，成本极低。

数据格式化：把你的微调数据集，转换成标准的Alpaca格式，示例：

{
  "instruction": "你是拓竹科技工单分类专家，请对以下工单进行精准分类，输出一级分类、二级分类和置信度",
  "input": "我的A1打印机打印出来有条纹，换了喷头还是不行，固件是最新版本",
  "output": "{\"一级分类\":\"设备故障\",\"二级分类\":\"打印喷头故障\",\"置信度\":98}"
}

超参数设置与微调：不用瞎调参数，用工业界默认最优值即可：LoRA秩r=8，lora_alpha=16，训练epoch=3-5，学习率2e-4，4bit量化，大幅降低算力要求。
效果对比与落地：微调完成后，用黄金测试集对比「微调后的开源模型」和「Gemini通用模型」的效果，核心看：准确率、推理速度、单条成本、数据合规性。
正常情况下，你微调后的7B模型，垂直工单打标准确率会持平甚至超过Gemini，而单条推理成本只有Gemini的1/10，还能私有化部署，数据不用出公司内网，完美解决跨境数据合规问题，这对拓竹这种有海外业务的公司来说，是巨大的价值。

验收标准：完成开源模型LoRA微调，垂直工单打标准确率≥96%，超过Gemini通用模型，单条推理成本降低70%以上，可在公司内部署使用。

动作3：搭建「工单场景RAG检索增强系统」

解决复杂工单打标不准、大模型幻觉的问题，同时把你的能力从「打标」延伸到「工单解决方案生成」，技术深度再上一个台阶。

具体执行步骤：

知识库构建：把拓竹的设备说明书、历史工单解决方案、维修手册、产品FAQ、固件更新说明，全部整理成标准化文本，做分块、清洗、脱敏。
向量数据库搭建：用轻量开源的Chroma（零门槛）或Milvus（生产级）搭建向量库，用国内开源的BGE-zh-large-v2 Embedding模型，把知识库内容转换成向量存储。
RAG链路搭建：用LangChain/LlamaIndex搭建完整链路，流程为：
用户工单输入→意图识别→向量库检索相似历史工单/解决方案→检索结果+工单一起喂给大模型→输出分类结果+标准化解决方案
这个系统不仅能把复杂工单打标准确率提升20%以上，还能直接给客服团队做回复参考，甚至实现简单工单的自动回复，直接对接业务全流程。

验收标准：搭建完成工单RAG系统，复杂工单打标准确率提升20%以上，可输出匹配的工单解决方案，对接客服系统落地使用。

第三阶段：长期进阶（5-6个月）—— 全链路业务闭环，从执行岗升级为业务负责人

核心目标：把技术能力和业务深度绑定，从「单点技术执行」升级为「工单全流程智能系统负责人」，成为公司内部大模型应用的绝对专家，同时沉淀个人长期竞争力。

动作1：搭建「工单全流程智能Agent」，实现端到端自动化

打标只是工单处理的第一步，完整的工单流程是：用户提交工单→自动打标分类→自动分派→解决方案推荐→进度跟进→用户回访→工单闭环。你可以用Agent框架，把整个流程串起来，实现端到端自动化。

具体执行步骤：

拆解工单处理核心节点，把每个节点做成可调用的工具：打标工具、RAG检索工具、工单分派工具、进度查询工具、自动回访工具。
用LangGraph搭建Agent工作流，定义每个节点的触发条件、执行逻辑、异常处理，比如：
- 工单打标为「账号问题」：自动给用户发送密码重置指引，直接闭环工单
- 工单打标为「设备故障」：自动分派给对应硬件客服，同时推送匹配的解决方案，同步给用户
- 工单超过24小时未处理：自动触发提醒，跟进处理进度
效果量化落地：核心看「全自动闭环工单占比」，目标是30%以上的简单工单无需人工介入，直接自动处理完成，给公司节省大量的客服人力成本，你直接成为这个项目的核心负责人。

动作2：完成「大模型应用全链路性能与安全优化」

这是区分普通开发者和资深工程师的关键，也是工业级落地的核心要求：

推理性能优化：用vLLM、TensorRT-LLM做推理加速，把你微调后的模型推理速度提升5-10倍，支持高并发工单处理，满足生产级要求。
数据安全与合规优化：完成模型私有化部署，数据全程不出公司内网，解决跨境数据合规问题；同时添加prompt注入防护、敏感信息过滤，防止大模型泄露隐私、输出有害内容。
混合调用成本优化：搭建「小模型兜底+大模型兜底」的混合调用策略，简单工单用微调后的小模型，复杂工单用Gemini大模型，在保证效果的前提下，把整体成本再降50%。

动作3：沉淀技术资产，打造个人IP，形成长期竞争力

这些是完全属于你的个人资产，不管以后在不在拓竹，都是你职业发展的硬通货：

内部技术沉淀：输出《拓竹工单智能系统技术白皮书》《大模型工业场景工单应用最佳实践》，做内部技术分享，成为公司大模型应用的技术专家。
外部内容输出：把你做的事情脱敏后，写成高质量技术博客，发布在CSDN、知乎、掘金，比如《我用10万条工单数据，从API调用到LoRA微调的全流程实战》《3D打印行业工单大模型落地避坑指南》，你本身是CSDN博客专家，这种垂直场景的实战内容，远比烂大街的prompt教程更有吸引力，能快速打造个人IP。
开源项目沉淀：把你做的工单打标系统、LoRA微调脚本、RAG框架脱敏后，开源到GitHub，积累星标，这是你技术能力最直观的证明，不管是晋升还是跳槽，都是绝对的加分项。

关键避坑指南（决定你能不能落地成功）

永远先绑定业务价值，再谈技术优化
不要为了做微调而微调，为了做RAG而RAG。所有技术动作，都要先明确：这个能给公司带来什么价值？是降本、增效、提升用户满意度，还是解决合规问题？先给老板算清楚账，再申请资源，事半功倍。
小步快跑，快速迭代，不要追求完美
不要一开始就想做一个全功能的Agent，先把提示词优化做好，再做API工程化，再做数据沉淀，再做微调，一步一个脚印，每个阶段都有可量化的产出，你才有持续的信心和资源。
不要脱离现有工作去学技术
不要觉得工作没价值，就下班去啃Transformer源码、学预训练，学了一堆用不上，反而更焦虑。你手头的拓竹工单场景，是最好的大模型应用试验场，你学的每一个技术，都落地到工单场景里，出效果、出结果，这才是真正属于你的能力。
数据是核心壁垒，一定要重视
大模型应用，80%的效果来自数据，20%来自模型和提示词。你沉淀的高质量工单数据集，是别人抢不走的核心资产，远比你会调多少个模型更重要。