从SQL Boy到AI工程师：数据开发转型记

AI机器学习算法

358人浏览 · 2026-04-07 13:57:04

AI机器学习算法 · 2026-04-07 13:57:04 发布

1️⃣需求解析&辅助研发

这个功能其实很有意思，我们迭代了两期。

第一期，其实这个功能一开始设计的比较天马行空，就是直接给一个需求进来，然后直接给你开发好。但是研发了半个月叫停了，发现模型根本理解不了整个需求，我们尝试过使用claude，准确率确实好一点，但是对于上线直接用，还是不行。所以最后我们退而求其次，还是做辅助吧，就是你一个需求来了，先帮你设计个大概，或者你自己描述清楚点，一步步做引导式的进行开发，就像现在的cursor，不过这里做了rag检索，就是用把2️⃣里面的表和描述都放进去了。你每描述一句，就帮你把对应的表，相应的sql写出来，但是用不用还是你自己定，不保证正确性，只是纯辅助。发现这个功能数据同学用起来还挺爽，因为你不会干掉他们，但是能减轻他们的工作量。

第二期，跟数据一起做了很多的对焦后，发现他们很多需求其实有些相似和重复，甚至很多代码跟线上的某些片段式类似的。所以我们做了一个事情就是，把他们线上的代码都解析一下，这个解析真的花了很大的工作，就这一句话我们花了一个同学两周的时间。最后保证了很高的准确率的。就是每个代码片段，从局部到整体，都让大模型做描述，最后得到很多描述和代码pair。然后我们把这个也落库，当他们在写需求的时候，我们就纯检索，然大模型参考写。这个真的是大大提高了代码的准确性。他们用起来贼爽。

2️⃣表查询&答疑

这个功能应该是所有企业都做了的，对于一个大的公司，一个大部门常用表都得上万张，老方法都是直接找到对应部门问tl，然后层层传导找到具体的人，看有没有相应的数据和表。而找到人大概率就是甩给你一个文档，你先通读一遍。稍微先进点的都有对应的搜索系统，但是纯模糊匹配，再自己挨个看，再找对应人答疑看文档。所以大模型第一个提效的就是这个活，把所有表落库，且有对应的说明，对应的字段都有解释。我们给该场景做了很多智能化能力，首先是落库，落库前大模型会仔细check描述和解释是否符合标准，不符合标准从来。然后是答疑faq，有标准的格式。然后是表和faq落库建立索引。最后是建立一个大模型的数据表查询和答疑库，进行rag答疑。

3️⃣报表查数

首先这个一开始想的是给运营和老板做的，因为他们不会写代码，但是就是会有各种奇奇怪怪的查数需求，之前都是提需求给数据研发，所以想说能不能用大模型做这事，这个功能我觉得做的不是很好，虽然老板和业务买单了，因为这个功能要求非常精准的结果，我们做到最后单表查询是很准的，多表查询不行。为什么单表查询老板和运营就买单了呢，因为我们的场景有上千个字段，老板只是会统计一些组合数据，看一下，指导自己的决策。但是单表就注定他不是很灵活，所以我是觉得做的失败的。

4️⃣运维&治理

很多人不理解数据开发为啥要治理，其实你自己想想，你很有可能开发了某个功能，每天例行在跑数据，但是突然哪天这个业务停了，这个数据没用了，但是你很可能并没有把数据停下，就会造成浪费，在真实的工作中大部分人不会自己去审核自己的代码是否还有用，这种费力不讨好的活，基本上不会有人干。所以之前有很多检测机制，最简单的就是检测这个表有没有读取，但是这个方法也有很多应对的策略。所以为了能够更好的治理，就让大模型解读代码，帮你把上下游梳理出来，然后看哪些表根本没有业务在使用。迫使你去干掉。这个活其实很有意思，但是其实准确率不高，不过还是在持续迭代中。

2026年，大模型已经无处不在，但"幻觉"（hallucination）仍是企业落地的最大杀手：金融风控、医疗问诊、客服机器人动辄编造事实，直接导致合规风险和信任崩盘。

知识图谱（Knowledge Graph） 的核心价值正是结构化知识：把碎片化数据变成"实体-关系-属性"的三元组网络，让大模型"先查图谱再回答"。

行业价值：支持复杂多跳推理、知识溯源、实时更新，广泛用于推荐系统、智能搜索、企业大脑。
大模型痛点：纯向量RAG召回率低、无法处理逻辑关系；知识图谱+大模型（GraphRAG）可将准确率提升40%以上。
图谱赋能意义：把大模型从"概率生成器"变成"可信知识引擎"，真正实现企业级私有化落地。

核心知识点：知识图谱不是"又一个数据库"，而是大模型的长期记忆和推理大脑。

为方便大家学习这里给大家整理了一份学习资料包需要的同学根据下图自取即可

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

收藏！AI时代程序员薪资分化严重？3个月转型AI工程，求职成功率提升60%！

AtomGit开源社区

从4篇到40篇：我用AI自动化管道把Wordpress博客产量翻了10倍，顺便治好了颈椎病

AtomGit开源社区

Containerd 容器技术详解

本文完整覆盖原文安装、配置、镜像、容器、任务、插件、命名空间OCI/CRI 生态关系Runtime v2 + Shim 高可用原理生产配置与安全基线常见问题排障ctr/crictl/nerdctl 定位区别Containerd 是云原生底层基石，掌握它可彻底理解容器运行机制，为 K8s 运维、性能调优、安全加固打下坚实基础。