水果进销存数据梳理:从原始数据到结构化数据集的6步流程
·

🤍 前端开发工程师、技术日更博主、已过CET6
🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1
🕠 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》、《前端求职突破计划》
🍚 蓝桥云课签约作者、上架课程《Vue.js 和 Egg.js 开发企业级健康管理项目》、《带你从入门到实战全面掌握 uni-app》
文章目录
水果进销存数据结构化 6步流程
第1步:原始数据收集与合并(拉齐数据源)
把所有零散表汇总成三大基础表:
- 销售流水表:订单号、商品、数量、单价、金额、时间、门店
- 采购入库表:采购日期、供应商、品名、规格、进价、数量
- 库存盘点表:盘点日期、品名、库存数量、损耗、报损
常见原始问题:
- 多Excel、多Sheet、格式不统一
- 商品名不规范(“西瓜”“麒麟瓜”“8424”混写)
- 缺字段、缺时间、缺单位
目标:所有数据合并到同一结构,不丢记录。
第2步:统一商品档案(最关键!水果行业痛点)
水果最乱的就是品名不统一,必须先做标准化。
操作:
- 建立商品主数据字典
- 一级分类:水果 / 干果 / 礼盒
- 二级分类:瓜类 / 柑橘 / 浆果 / 核果
- 标准品名:西瓜、阳光玫瑰、沃柑…
- 模糊匹配+人工修正原始品名
例:“麒麟瓜”“宁夏瓜”→ 统一为“西瓜” - 补充属性:
单位(斤/箱/个)、季节属性、易损耗程度、规格
输出:唯一商品编码 + 标准名称 + 分类体系
第3步:清洗脏数据 & 异常值剔除
处理业务常见脏数据:
- 缺失值
- 缺时间:用订单创建时间补
- 缺销量/进价:删除或用同品均值填充
- 异常值
- 销量为负(退货):单独标记,不参与训练
- 价格异常(0元、赠送、测试单):剔除或标记
- 重复单、取消单、测试单:直接删除
- 单位不统一:全部转成斤/公斤统一计算
第4步:构建时间维度(时序预测必备)
水果销量极强时间规律,必须扩展时间特征。
从日期字段衍生:
- 年、月、日、星期几
- 是否周末、是否节假日
- 是否节气(清明、端午、中秋)
- 是否雨天/高温(外部天气数据接入更佳)
- 季节特征:应季/反季
- 大促标签:店庆、节日活动、打折
目标:让模型能学到“周末销量高、雨天销量低”等规律。
第5步:进销存核心指标计算(生成业务特征)

把原始记录变成可建模特征:
必算字段
- 日销量:按商品+日期聚合销量
- 日销售额、毛利、毛利率
- 日均采购量、采购周期
- 期初库存、入库量、销售量、期末库存
- 损耗率、报损量、库存周转天数
- 价格特征:售价、进价、价差、折扣力度
最终结构(经典宽表)
日期 + 商品ID + 分类 + 销量 + 价格 + 库存 + 节假日 + 天气 + 活动
这就是后续丢给 AutoGluon 训练的标准结构化数据。
第6步:数据集拆分与标准化(建模前最后一步)
- 按时间切分训练集/测试集
时序数据不能随机切分
例如:用1-10月训练,11-12月验证 - 剔除低频次SKU
长期滞销、偶尔卖一次的商品单独处理 - 特征归一化/编码
- 类别特征:商品、星期、天气
- 数值特征:销量、价格、库存
- 最终检查
无空值、无非正常极值、时间连续、结构规整
最终输出:一张标准结构化表
| 日期 | 商品ID | 名称 | 分类 | 销量(斤) | 售价 | 进价 | 库存 | 星期 | 节假日 | 天气 | 活动 |
|---|---|---|---|---|---|---|---|---|---|---|---|
| 2026-03-01 | 1001 | 西瓜 | 瓜类 | 120 | 3.5 | 1.8 | 50 | 5 | 0 | 晴 | 无 |
这就是从杂乱Excel → 可AI预测的高质量数据。
超简记忆口诀
- 收数据(进销存三张表)
- 统品名(水果最容易乱)
- 洗脏数(去异常、去重复)
- 加时间(星期、节日、天气)
- 算指标(销量、库存、毛利)
- 分数据集(时序切分)
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)