大模型工程师进阶:从打杂到核心
目前大模型开发应用:数据打标通过设计合理的提示词之后再连接对应的gemini接口实现工单打标。目前我认为工作很普通,没有核心竞争力怎么办
目录
先做核心定位澄清(先破焦虑)
你当前的工作100%属于大模型应用开发的核心基础环节,也是90%企业大模型落地的核心场景,绝非“打杂”。
你觉得没有核心竞争力,本质是3个问题:
- 只做了「单点功能实现」,没有形成工业化、可复用、可量化的工程体系,可替代性极强;
- 只完成了「打标」这个环节,没有绑定业务全链路价值,老板看不到你的不可替代性;
- 只调用了通用大模型,没有沉淀垂直场景的技术资产与数据壁垒,没有形成个人技术护城河。
第一阶段:短期突破(1-2个月)—— 把现有工作做到极致,形成执行层不可替代性
核心目标:不换工作内容,只做深度优化,把「单次prompt+API调用」升级为生产级工单打标系统,用可量化的业务结果证明价值,同时夯实大模型应用工程的基础能力。
动作1:把「试错式写提示词」升级为「工业化提示词工程体系」
这是你当下最容易落地、最快出效果的动作,也是大模型应用工程师的核心基本功,绝非网上烂大街的“prompt技巧”。
具体执行步骤:
-
先做标准化:输出《拓竹科技工单打标分类体系V1.0》
没有明确的分类标准,再好的提示词也没用。你需要先对齐业务方(客服、售后、产品),明确:- 一级分类(如设备故障、账号问题、功能建议、物流售后、合规投诉)
- 二级分类(如设备故障下细分:3D打印机喷头/主板/固件故障、摄像头/传感器故障等)
- 每个分类的明确判定边界、正反例、异常场景处理规则(如多意图工单、模糊工单、无效工单的判定标准)
输出一份可落地、全公司对齐的文档,这是你所有工作的基础,也是你业务话语权的起点。
-
模块化提示词模板搭建,告别单句prompt
把提示词拆成5个可迭代、可复用的模块,适配Gemini API调用,示例如下:system_prompt = """ # 角色定义 你是拓竹科技专属的工单分类打标专家,严格遵循给定的分类规范,对用户工单进行精准分类,输出标准化结果。 # 分类规范(引用上面的V1.0文档核心内容) 1. 一级分类与二级分类定义 2. 分类优先级规则(多意图工单优先按核心诉求分类) 3. 异常工单处理规则(无效工单、广告工单、模糊工单的判定) # 推理规则 1. 先提取工单核心诉求,再对照分类规范匹配对应标签,禁止凭空臆断 2. 对模糊诉求,优先匹配历史高频同类工单的分类逻辑 3. 必须输出分类结果+置信度(0-100分),置信度低于80分需标注「待人工复核」 # 输出格式(严格JSON格式,禁止额外内容) { "ticket_id": "工单ID", "一级分类": "xxx", "二级分类": "xxx", "置信度": xx, "待人工复核": "是/否" } # 少样本示例(Few-Shot) 【工单】:我的A1打印机打印出来有条纹,换了喷头还是不行,固件是最新版本 【输出】:{"ticket_id":"xxx","一级分类":"设备故障","二级分类":"打印喷头故障","置信度":98,"待人工复核":"否"} (至少补充10组覆盖不同分类、异常场景的正反例) """ -
提示词量化评估与迭代闭环
告别“凭感觉改prompt”,建立标准化评估体系:- 抽取1000条100%人工标注的黄金标准测试集,固定不变,用于所有版本提示词的效果评估
- 核心评估指标:整体准确率、单分类召回率、F1值、异常工单处理准确率、人工复核率
- 每次迭代提示词,都用固定测试集跑一遍,记录指标变化,只保留能提升指标的修改,形成迭代闭环。
验收标准:工单打标整体准确率≥95%,核心分类准确率≥98%,人工复核率降低60%以上。
动作2:把「单次API调用」升级为「高可用、可观测、低成本的工程化服务」
只会调用API的人一抓一大把,但能把API做成生产级高可用服务的人,才是企业需要的工程师。
具体执行步骤:
-
容错与降级机制搭建
解决Gemini API超时、限流、报错的生产级问题,用Python轻量库即可实现:- 重试机制:用
tenacity实现指数退避重试,针对限流、超时错误自动重试,最多3次 - 熔断降级:用
pybreaker实现熔断,当API错误率超过阈值时,自动切换到兜底方案(关键词规则引擎打标),保证服务不中断 - 批量处理:实现工单批量调用,减少API请求次数,提升处理效率
- 重试机制:用
-
成本优化(最容易让老板看到价值的点)
Gemini API按Token收费,你可以通过3个动作直接给公司降本:- Prompt压缩:去掉冗余内容,把少样本示例做精简,固定系统提示词做Token优化,单条请求Token量降低30%
- 缓存机制:对高频重复工单(如“怎么重置密码”“固件怎么升级”),建立结果缓存,不用重复调用API
- 长工单处理:对超长工单,先做关键信息提取(只保留用户诉求、设备型号、故障现象),再喂给大模型,减少无效Token消耗
-
可观测与日志体系搭建
给每一次API调用加上全链路日志,记录:工单ID、输入Token数、输出结果、调用耗时、是否报错、人工复核结果,然后做一个极简监控看板(用Grafana,甚至Excel就能做),监控核心指标:- 每日打标量、API调用成功率、平均耗时
- 整体准确率、各分类准确率、异常率
- 每日API总消耗、单条工单平均成本
验收标准:API服务可用性从92%提升至99.9%,单条工单打标成本降低40%以上,全年可给公司节省可量化的API费用。
动作3:搭建「人机协同半自动化标注流水线」
把你现在的“大模型打标+人工全量复核”,升级为“大模型预标注+置信度分级+人工选择性复核”的流水线,直接提升团队效率。
具体执行步骤:
- 置信度分级规则:
- 置信度≥95分:直接通过,无需人工复核
- 置信度80-95分:人工轻量复核,仅核对分类是否正确
- 置信度<80分:人工全量标注,标注结果回流到少样本库,优化提示词
- 建立数据回流闭环:把人工复核修正的结果,自动同步到提示词的少样本库,每月迭代一次提示词,形成“打标-复核-优化-更准”的正向循环。
验收标准:团队人工标注工作量降低60%以上,日均工单处理量提升50%。
第二阶段:中期深耕(3-4个月)—— 垂直场景技术突破,形成核心技术壁垒
核心目标:从「调用通用大模型」升级为「拓竹垂直场景大模型专家」,掌握数据治理、LoRA微调、RAG检索增强这三大核心技能,沉淀别人抢不走的技术与数据资产。
动作1:沉淀「拓竹工单垂直领域高质量数据集」(核心中的核心)
大模型时代,高质量垂直数据是你最大的个人壁垒,也是企业最核心的资产,这是网上随便搜教程学不来的。
具体执行步骤:
- 数据清洗与脱敏
拉取拓竹历史工单数据,做标准化处理:- 去重、去噪:去掉重复工单、广告工单、无效空白工单
- 脱敏处理:去掉用户手机号、地址、设备SN、隐私信息,保证数据合规
- 格式化:统一工单文本格式,去掉无关的表情、乱码、特殊符号
- 数据集分级管理
把数据分成3类,对应不同用途:- 预标注数据集:≥10万条,大模型预标注+人工复核,用于提示词优化、RAG知识库
- 黄金测试集:1000条,100%资深人工标注,固定不变,用于所有模型/提示词的效果评估
- 微调数据集:5000-10000条,高质量人工标注,严格对齐分类规范,用于LoRA微调
- 资产沉淀
把数据集做成标准化的JSONL格式,在公司内部沉淀为数据资产,同时脱敏后可开源到Hugging Face/ModelScope,成为你个人的技术名片。
验收标准:完成≥10万条脱敏工单数据集,其中高质量微调数据集≥5000条,黄金测试集≥1000条,形成标准化数据管理规范。
动作2:完成「拓竹工单垂直模型LoRA轻量微调」
很多人觉得微调门槛很高,其实现在开源工具已经把门槛降到极低,用你沉淀的工单数据,一张消费级显卡/云端免费算力就能完成,这是你和普通API调用者拉开差距的核心动作。
具体执行步骤:
- 模型选型:优先选开源、中文适配好、轻量、工业界常用的模型,比如通义千问Qwen2-7B、智谱GLM-4-9B-Chat、Llama 3-8B,这些模型都有完善的微调教程,社区生态成熟。
- 微调环境与工具:用零门槛微调框架LLaMA Factory,支持一键LoRA微调,不用写复杂代码;算力可以用阿里云/腾讯云的按需付费GPU,或者Google Colab免费算力,成本极低。
- 数据格式化:把你的微调数据集,转换成标准的Alpaca格式,示例:
{ "instruction": "你是拓竹科技工单分类专家,请对以下工单进行精准分类,输出一级分类、二级分类和置信度", "input": "我的A1打印机打印出来有条纹,换了喷头还是不行,固件是最新版本", "output": "{\"一级分类\":\"设备故障\",\"二级分类\":\"打印喷头故障\",\"置信度\":98}" } - 超参数设置与微调:不用瞎调参数,用工业界默认最优值即可:LoRA秩r=8,lora_alpha=16,训练epoch=3-5,学习率2e-4,4bit量化,大幅降低算力要求。
- 效果对比与落地:微调完成后,用黄金测试集对比「微调后的开源模型」和「Gemini通用模型」的效果,核心看:准确率、推理速度、单条成本、数据合规性。
正常情况下,你微调后的7B模型,垂直工单打标准确率会持平甚至超过Gemini,而单条推理成本只有Gemini的1/10,还能私有化部署,数据不用出公司内网,完美解决跨境数据合规问题,这对拓竹这种有海外业务的公司来说,是巨大的价值。
验收标准:完成开源模型LoRA微调,垂直工单打标准确率≥96%,超过Gemini通用模型,单条推理成本降低70%以上,可在公司内部署使用。
动作3:搭建「工单场景RAG检索增强系统」
解决复杂工单打标不准、大模型幻觉的问题,同时把你的能力从「打标」延伸到「工单解决方案生成」,技术深度再上一个台阶。
具体执行步骤:
- 知识库构建:把拓竹的设备说明书、历史工单解决方案、维修手册、产品FAQ、固件更新说明,全部整理成标准化文本,做分块、清洗、脱敏。
- 向量数据库搭建:用轻量开源的Chroma(零门槛)或Milvus(生产级)搭建向量库,用国内开源的BGE-zh-large-v2 Embedding模型,把知识库内容转换成向量存储。
- RAG链路搭建:用LangChain/LlamaIndex搭建完整链路,流程为:
用户工单输入→意图识别→向量库检索相似历史工单/解决方案→检索结果+工单一起喂给大模型→输出分类结果+标准化解决方案
这个系统不仅能把复杂工单打标准确率提升20%以上,还能直接给客服团队做回复参考,甚至实现简单工单的自动回复,直接对接业务全流程。
验收标准:搭建完成工单RAG系统,复杂工单打标准确率提升20%以上,可输出匹配的工单解决方案,对接客服系统落地使用。
第三阶段:长期进阶(5-6个月)—— 全链路业务闭环,从执行岗升级为业务负责人
核心目标:把技术能力和业务深度绑定,从「单点技术执行」升级为「工单全流程智能系统负责人」,成为公司内部大模型应用的绝对专家,同时沉淀个人长期竞争力。
动作1:搭建「工单全流程智能Agent」,实现端到端自动化
打标只是工单处理的第一步,完整的工单流程是:用户提交工单→自动打标分类→自动分派→解决方案推荐→进度跟进→用户回访→工单闭环。你可以用Agent框架,把整个流程串起来,实现端到端自动化。
具体执行步骤:
- 拆解工单处理核心节点,把每个节点做成可调用的工具:打标工具、RAG检索工具、工单分派工具、进度查询工具、自动回访工具。
- 用LangGraph搭建Agent工作流,定义每个节点的触发条件、执行逻辑、异常处理,比如:
- 工单打标为「账号问题」:自动给用户发送密码重置指引,直接闭环工单
- 工单打标为「设备故障」:自动分派给对应硬件客服,同时推送匹配的解决方案,同步给用户
- 工单超过24小时未处理:自动触发提醒,跟进处理进度
- 效果量化落地:核心看「全自动闭环工单占比」,目标是30%以上的简单工单无需人工介入,直接自动处理完成,给公司节省大量的客服人力成本,你直接成为这个项目的核心负责人。
动作2:完成「大模型应用全链路性能与安全优化」
这是区分普通开发者和资深工程师的关键,也是工业级落地的核心要求:
- 推理性能优化:用vLLM、TensorRT-LLM做推理加速,把你微调后的模型推理速度提升5-10倍,支持高并发工单处理,满足生产级要求。
- 数据安全与合规优化:完成模型私有化部署,数据全程不出公司内网,解决跨境数据合规问题;同时添加prompt注入防护、敏感信息过滤,防止大模型泄露隐私、输出有害内容。
- 混合调用成本优化:搭建「小模型兜底+大模型兜底」的混合调用策略,简单工单用微调后的小模型,复杂工单用Gemini大模型,在保证效果的前提下,把整体成本再降50%。
动作3:沉淀技术资产,打造个人IP,形成长期竞争力
这些是完全属于你的个人资产,不管以后在不在拓竹,都是你职业发展的硬通货:
- 内部技术沉淀:输出《拓竹工单智能系统技术白皮书》《大模型工业场景工单应用最佳实践》,做内部技术分享,成为公司大模型应用的技术专家。
- 外部内容输出:把你做的事情脱敏后,写成高质量技术博客,发布在CSDN、知乎、掘金,比如《我用10万条工单数据,从API调用到LoRA微调的全流程实战》《3D打印行业工单大模型落地避坑指南》,你本身是CSDN博客专家,这种垂直场景的实战内容,远比烂大街的prompt教程更有吸引力,能快速打造个人IP。
- 开源项目沉淀:把你做的工单打标系统、LoRA微调脚本、RAG框架脱敏后,开源到GitHub,积累星标,这是你技术能力最直观的证明,不管是晋升还是跳槽,都是绝对的加分项。
关键避坑指南(决定你能不能落地成功)
- 永远先绑定业务价值,再谈技术优化
不要为了做微调而微调,为了做RAG而RAG。所有技术动作,都要先明确:这个能给公司带来什么价值?是降本、增效、提升用户满意度,还是解决合规问题?先给老板算清楚账,再申请资源,事半功倍。 - 小步快跑,快速迭代,不要追求完美
不要一开始就想做一个全功能的Agent,先把提示词优化做好,再做API工程化,再做数据沉淀,再做微调,一步一个脚印,每个阶段都有可量化的产出,你才有持续的信心和资源。 - 不要脱离现有工作去学技术
不要觉得工作没价值,就下班去啃Transformer源码、学预训练,学了一堆用不上,反而更焦虑。你手头的拓竹工单场景,是最好的大模型应用试验场,你学的每一个技术,都落地到工单场景里,出效果、出结果,这才是真正属于你的能力。 - 数据是核心壁垒,一定要重视
大模型应用,80%的效果来自数据,20%来自模型和提示词。你沉淀的高质量工单数据集,是别人抢不走的核心资产,远比你会调多少个模型更重要。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)