小白也能上手:本地无需SQL和代码,完成千万级电商大促全链路分析-DTBot
在很多团队的认知里,千万级数据清洗与统计分析,往往意味着要搭集群、建数据库、配组件,还要掌握不少技术,门槛高、周期长,试错成本也不低。
但今天我要介绍的是另一种AI工作流方式:
在本地电脑,完成千万级数据清洗、分析和统计还有可视化报表,数据绝对安全,操作简单,小白上手,无需搭建数据库,无需编程技术,只要把业务需求描述清楚就行。
如下配置好的工作流图:

接下来,我们就用一个典型业务场景,来展开这个过程: 电商大促全链路分析 。
案例需求分析
在双11大促结束后,运营团队通常会拿到几张来自不同系统的原始导出表,希望快速看清楚整体销售情况。但这些数据往往格式不统一、字段不规范,不能直接拿来统计,所以第一步不是做报表,而是先把数据清洗干净,再做关联分析。
1、业务数据涉及哪些表
这次案例围绕 电商大促全链路分析 展开,一共涉及4张核心业务表。
- 订单主表
,主要记录订单号、客户ID、商品ID、下单时间、订单金额、收货地址、订单状态,用来反映整体下单情况。
- 支付流水表
,主要记录支付流水号、订单号、支付时间、支付渠道、支付金额、支付状态,用来反映支付转化情况。
- 商品信息表
,主要记录商品ID、商品名称、商品类目、品牌、成本价、上架日期,用来补充商品维度信息。
- 客户维表
,主要记录客户ID、客户名称、客户等级、省份、注册日期、是否会员,用来补充客户分层和地域维度。
通过这4张表,基本就能把电商大促场景下的订单、支付、商品、客户这条业务链路串起来。表数据量在千万级,如下图:

2、这次主要做了哪些清洗
在这个案例里,清洗主要集中在 订单主表 、 支付流水表 和 商品信息表 3张表上。
订单主表清洗
这一步的重点,是先把订单数据里的时间、金额、状态和地址字段规范下来,保证后续统计口径一致。如下具体清洗步骤:
-
统一 下单时间 格式
-
清理 订单金额 中的货币符号和千分位
-
只保留 已完成 和 已发货 的订单
-
去掉 收货地址 前后空格
支付流水表清洗
主要处理4项内容:
-
统一 支付时间 格式
-
清理 支付金额 字段
-
按 订单号 去重,只保留支付金额最大的一条
-
只保留 支付成功 的数据
这样做的目的,是确保后续统计基于真实、有效的支付结果,避免失败支付和重复支付干扰分析结果。
商品信息表清洗
这一步主要是规范商品维度信息,避免后面按类目、商品做统计时,因为命名不一致或脏数据影响结果。如下具体清洗步骤:
-
清理 成本价 字段
-
统一 商品类目 名称
-
去掉 商品名称 中的特殊字符
3、统计与报表输出
完成清洗后,这个案例会先生成两张中间表。
先将订单表和支付表关联,生成 订单支付关联表 ;再继续关联商品表,生成 订单明细宽表 ,用于承接后续统计分析。
在这套中间结果基础上,再结合客户维表,最终输出4类核心报表:
-
类目销售统计表
-
省份销售统计表
-
支付渠道统计表
-
商品销售Top50表
通过这几张中间表和结果表,就可以把电商大促场景下的订单、支付、商品、客户数据真正串起来,形成完整的分析结果。
生成结果统计的文件,如下图:

还生成的HTML报表视图,这里查看一个类目销售表,如下:


提示词整理
在工作流配置之前,需要先把这次业务处理逻辑整理成一份提示词。
这一步的作用,就是先明确 清洗哪些表 、 怎么关联 、 输出哪些报表 。整理好之后,这份提示词就可以作为工作流配置输入,指导后续执行。
这里也需要说明一点: 提示词不一定非要写成固定模板 。只要表达得 清晰 、 明确 、 简洁 ,让人一眼能看懂要做什么、按什么顺序做、最后输出什么结果,就可以了。
本次案例整理出的提示词如下:
第一步 - 清洗订单主表:- "下单时间"统一为 yyyy-MM-dd HH:mm:ss 格式- "订单金额"去除¥、$符号和千分位逗号,转换为纯数字- 只保留"订单状态"为"已完成"和"已发货"的行- "收货地址"去除前后空格第二步 - 清洗支付流水表:- "支付时间"统一为 yyyy-MM-dd HH:mm:ss 格式- "支付金额"去除¥符号和千分位逗号- 按"订单号"去重,同一订单多次支付的只保留支付金额最大的一条- 只保留"支付状态"为"支付成功"的行第三步 - 清洗商品信息表:- "成本价"去除¥符号,转为纯数字- "商品类目"去除前后空格,"电子 产品"统一为"电子产品"- "商品名称"去除特殊字符第四步 - 生成订单支付关联表(中间表1):- 清洗后的订单主表 与 支付流水表 按"订单号"关联- 保留:订单号、客户ID、商品ID、下单时间、订单金额、支付渠道、支付金额第五步 - 生成订单明细宽表(中间表2):- 中间表1 关联 商品信息表(按"商品ID"匹配)- 保留所有字段,新增"毛利"列 = 支付金额 - 成本价第六步 - 生成类目销售统计表(结果表1):- 基于"中间表2" 关联 "客户维表"(按"客户ID"匹配)- 按"商品类目"分组,统计:销售总额、订单数、客单价、毛利总额、会员购买占比- 输出"类目销售统计表"第七步 - 生成省份销售统计表(结果表2):- 基于"中间表2" 关联 "客户维表"(按"客户ID"匹配)- 按"省份"分组,统计:销售总额、订单数- 输出"省份销售统计表"第八步 - 生成支付渠道统计表(结果表3):- 基于"中间表2"(已包含支付渠道字段)- 按"支付渠道"分组,统计:支付总额、订单数- 输出"支付渠道统计表"第九步 - 生成商品销售Top50表(结果表4):- 基于"中间表2" 关联 "商品信息表"(按"商品ID"匹配)- 按"商品"分组,统计:销量、销售额、毛利,按销售额降序取Top50- 输出"商品销售Top50表"(含商品名称、类目、销量、销售额、毛利)
落地实现:工作流配置
工作流是由多个智能体节点组成的,这个案例我们涉及到下面几个智能体:
- 文件助手
: 获取磁盘的文件或目录。
- 内容清洗器
: 专门用来做数据清洗的,只要输入清洗描述就可以对文件数据进行任意整理。
- 数据入库
:将文件数据转成本地数据库,用于后面作SQL统计。
- 表统计
: 对本地数据库表进行SQL统计,不需要写sql,只需要统计的描述就可以了。
- 报表导出
: 对数据库表进行导出,支持导出csv,xlsx,HTML(可视化显示) 。
根据这几个智能体还有上面描述的提示词,我们就可以完成工作流的配置了。
清洗数据表
打开了DT-Bot工作流, 配置一个 “文件助手”智能体节点,描述原始数据文件位置,文件助手配置如图:
解决方案获取可以看文章末尾名片。

然后文件助手就会根据内容描述输出文件,然后我们接下一个智能体“内容清洗器”,如图:

清洗之后,我们需要将表格文件的数据放到数据库里面,后面好进行SQL统计,所有要接入一个“数据入库”,不需要输入任何提示词,如下图:

第一步就完成了,同理,我们的第二步,第三步 都是这个套路配置。
表统计
接下来我们需要进行表统计,直接用“表统计”智能体就好了, 下面是我配置完成的图:

导出报表
表统计后,只生成了结果表到数据库里面,还需要从数据库里面下载出来,这是要用“报表导出”智能体,可以指定哪些表,下载类型,如下图:

配置完成后,我们发布工作流执行就可以了。下图是统计结果文件:


结尾语
通过这个电商大促全链路分析案例,可以看到,千万级数据清洗与统计分析并不一定意味着复杂的技术门槛。只要先把业务逻辑梳理清楚,把提示词整理清楚,再结合工作流逐步执行,就能够把原始业务数据转成可分析、可统计、可输出的结果报表。
对于这类场景来说,真正重要的不是技术写得有多复杂,而是能不能把需求说清楚、把流程理顺、把结果跑出来。电商大促只是一个开始,后面还可以继续扩展到更多行业、更多业务场景,用同样的方式完成数据清洗与分析统计。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)