在很多团队的认知里,千万级数据清洗与统计分析,往往意味着要搭集群、建数据库、配组件,还要掌握不少技术,门槛高、周期长,试错成本也不低。

但今天我要介绍的是另一种AI工作流方式:

在本地电脑,完成千万级数据清洗、分析和统计还有可视化报表,数据绝对安全,操作简单,小白上手,无需搭建数据库,无需编程技术,只要把业务需求描述清楚就行。

如下配置好的工作流图:

image

接下来,我们就用一个典型业务场景,来展开这个过程: 电商大促全链路分析 。

案例需求分析

在双11大促结束后,运营团队通常会拿到几张来自不同系统的原始导出表,希望快速看清楚整体销售情况。但这些数据往往格式不统一、字段不规范,不能直接拿来统计,所以第一步不是做报表,而是先把数据清洗干净,再做关联分析。

1、业务数据涉及哪些表

这次案例围绕 电商大促全链路分析 展开,一共涉及4张核心业务表。

  • 订单主表

     ,主要记录订单号、客户ID、商品ID、下单时间、订单金额、收货地址、订单状态,用来反映整体下单情况。

  • 支付流水表

     ,主要记录支付流水号、订单号、支付时间、支付渠道、支付金额、支付状态,用来反映支付转化情况。

  • 商品信息表

     ,主要记录商品ID、商品名称、商品类目、品牌、成本价、上架日期,用来补充商品维度信息。

  • 客户维表

     ,主要记录客户ID、客户名称、客户等级、省份、注册日期、是否会员,用来补充客户分层和地域维度。

通过这4张表,基本就能把电商大促场景下的订单、支付、商品、客户这条业务链路串起来。表数据量在千万级,如下图:

image

2、这次主要做了哪些清洗

在这个案例里,清洗主要集中在 订单主表 、 支付流水表 和 商品信息表 3张表上。

订单主表清洗

这一步的重点,是先把订单数据里的时间、金额、状态和地址字段规范下来,保证后续统计口径一致。如下具体清洗步骤:

  • 统一 下单时间 格式

  • 清理 订单金额 中的货币符号和千分位

  • 只保留 已完成 和 已发货 的订单

  • 去掉 收货地址 前后空格

支付流水表清洗

主要处理4项内容:

  • 统一 支付时间 格式

  • 清理 支付金额 字段

  • 按 订单号 去重,只保留支付金额最大的一条

  • 只保留 支付成功 的数据

这样做的目的,是确保后续统计基于真实、有效的支付结果,避免失败支付和重复支付干扰分析结果。

商品信息表清洗

这一步主要是规范商品维度信息,避免后面按类目、商品做统计时,因为命名不一致或脏数据影响结果。如下具体清洗步骤:

  • 清理 成本价 字段

  • 统一 商品类目 名称

  • 去掉 商品名称 中的特殊字符

3、统计与报表输出

完成清洗后,这个案例会先生成两张中间表。
先将订单表和支付表关联,生成 订单支付关联表 ;再继续关联商品表,生成 订单明细宽表 ,用于承接后续统计分析。

在这套中间结果基础上,再结合客户维表,最终输出4类核心报表:

  • 类目销售统计表

  • 省份销售统计表

  • 支付渠道统计表

  • 商品销售Top50表

通过这几张中间表和结果表,就可以把电商大促场景下的订单、支付、商品、客户数据真正串起来,形成完整的分析结果。

生成结果统计的文件,如下图:

image

还生成的HTML报表视图,这里查看一个类目销售表,如下:

image

image

提示词整理

在工作流配置之前,需要先把这次业务处理逻辑整理成一份提示词。

这一步的作用,就是先明确 清洗哪些表 、 怎么关联 、 输出哪些报表 。整理好之后,这份提示词就可以作为工作流配置输入,指导后续执行。

这里也需要说明一点: 提示词不一定非要写成固定模板 。只要表达得 清晰 、 明确 、 简洁 ,让人一眼能看懂要做什么、按什么顺序做、最后输出什么结果,就可以了。

本次案例整理出的提示词如下:

第一步 - 清洗订单主表:  - "下单时间"统一为 yyyy-MM-dd HH:mm:ss 格式  - "订单金额"去除¥、$符号和千分位逗号,转换为纯数字  - 只保留"订单状态"为"已完成"和"已发货"的行  - "收货地址"去除前后空格
第二步 - 清洗支付流水表:  - "支付时间"统一为 yyyy-MM-dd HH:mm:ss 格式  - "支付金额"去除¥符号和千分位逗号  - 按"订单号"去重,同一订单多次支付的只保留支付金额最大的一条  - 只保留"支付状态"为"支付成功"的行
第三步 - 清洗商品信息表:  - "成本价"去除¥符号,转为纯数字  - "商品类目"去除前后空格,"电子 产品"统一为"电子产品"  - "商品名称"去除特殊字符
第四步 - 生成订单支付关联表(中间表1):  - 清洗后的订单主表 与 支付流水表 按"订单号"关联  - 保留:订单号、客户ID、商品ID、下单时间、订单金额、支付渠道、支付金额
第五步 - 生成订单明细宽表(中间表2):  - 中间表1 关联 商品信息表(按"商品ID"匹配)  - 保留所有字段,新增"毛利"列 = 支付金额 - 成本价
第六步 - 生成类目销售统计表(结果表1):  - 基于"中间表2" 关联 "客户维表"(按"客户ID"匹配)  - 按"商品类目"分组,统计:销售总额、订单数、客单价、毛利总额、会员购买占比  - 输出"类目销售统计表"
第七步 - 生成省份销售统计表(结果表2):  - 基于"中间表2" 关联 "客户维表"(按"客户ID"匹配)  - 按"省份"分组,统计:销售总额、订单数  - 输出"省份销售统计表"
第八步 - 生成支付渠道统计表(结果表3):  - 基于"中间表2"(已包含支付渠道字段)  - 按"支付渠道"分组,统计:支付总额、订单数  - 输出"支付渠道统计表"
第九步 - 生成商品销售Top50表(结果表4):  - 基于"中间表2" 关联 "商品信息表"(按"商品ID"匹配)  - 按"商品"分组,统计:销量、销售额、毛利,按销售额降序取Top50  - 输出"商品销售Top50表"(含商品名称、类目、销量、销售额、毛利)

落地实现:工作流配置

工作流是由多个智能体节点组成的,这个案例我们涉及到下面几个智能体:

  • 文件助手

    : 获取磁盘的文件或目录。

  • 内容清洗器

    : 专门用来做数据清洗的,只要输入清洗描述就可以对文件数据进行任意整理。

  • 数据入库

    :将文件数据转成本地数据库,用于后面作SQL统计。

  • 表统计

    : 对本地数据库表进行SQL统计,不需要写sql,只需要统计的描述就可以了。

  • 报表导出

    : 对数据库表进行导出,支持导出csv,xlsx,HTML(可视化显示) 。

根据这几个智能体还有上面描述的提示词,我们就可以完成工作流的配置了。

清洗数据表

打开了DT-Bot工作流, 配置一个 “文件助手”智能体节点,描述原始数据文件位置,文件助手配置如图:

解决方案获取可以看文章末尾名片。

image

然后文件助手就会根据内容描述输出文件,然后我们接下一个智能体“内容清洗器”,如图:

image

清洗之后,我们需要将表格文件的数据放到数据库里面,后面好进行SQL统计,所有要接入一个“数据入库”,不需要输入任何提示词,如下图:

image

第一步就完成了,同理,我们的第二步,第三步 都是这个套路配置。

表统计

接下来我们需要进行表统计,直接用“表统计”智能体就好了, 下面是我配置完成的图:

image

导出报表

表统计后,只生成了结果表到数据库里面,还需要从数据库里面下载出来,这是要用“报表导出”智能体,可以指定哪些表,下载类型,如下图:

image

配置完成后,我们发布工作流执行就可以了。下图是统计结果文件:

image

image

结尾语

通过这个电商大促全链路分析案例,可以看到,千万级数据清洗与统计分析并不一定意味着复杂的技术门槛。只要先把业务逻辑梳理清楚,把提示词整理清楚,再结合工作流逐步执行,就能够把原始业务数据转成可分析、可统计、可输出的结果报表。

对于这类场景来说,真正重要的不是技术写得有多复杂,而是能不能把需求说清楚、把流程理顺、把结果跑出来。电商大促只是一个开始,后面还可以继续扩展到更多行业、更多业务场景,用同样的方式完成数据清洗与分析统计。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐