在这里插入图片描述

🤍 前端开发工程师、技术日更博主、已过CET6
🍨 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1
🕠 牛客高级专题作者、打造专栏《前端面试必备》《2024面试高频手撕题》《前端求职突破计划》
🍚 蓝桥云课签约作者、上架课程《Vue.js 和 Egg.js 开发企业级健康管理项目》《带你从入门到实战全面掌握 uni-app》


在这里插入图片描述

水果进销存数据结构化 6步流程

第1步:原始数据收集与合并(拉齐数据源)

把所有零散表汇总成三大基础表

  1. 销售流水表:订单号、商品、数量、单价、金额、时间、门店
  2. 采购入库表:采购日期、供应商、品名、规格、进价、数量
  3. 库存盘点表:盘点日期、品名、库存数量、损耗、报损

常见原始问题:

  • 多Excel、多Sheet、格式不统一
  • 商品名不规范(“西瓜”“麒麟瓜”“8424”混写)
  • 缺字段、缺时间、缺单位

目标:所有数据合并到同一结构,不丢记录。


第2步:统一商品档案(最关键!水果行业痛点)

水果最乱的就是品名不统一,必须先做标准化。

操作:

  1. 建立商品主数据字典
    • 一级分类:水果 / 干果 / 礼盒
    • 二级分类:瓜类 / 柑橘 / 浆果 / 核果
    • 标准品名:西瓜、阳光玫瑰、沃柑…
  2. 模糊匹配+人工修正原始品名
    例:“麒麟瓜”“宁夏瓜”→ 统一为“西瓜”
  3. 补充属性:
    单位(斤/箱/个)、季节属性、易损耗程度、规格

输出:唯一商品编码 + 标准名称 + 分类体系


第3步:清洗脏数据 & 异常值剔除

处理业务常见脏数据:

  1. 缺失值
    • 缺时间:用订单创建时间补
    • 缺销量/进价:删除或用同品均值填充
  2. 异常值
    • 销量为负(退货):单独标记,不参与训练
    • 价格异常(0元、赠送、测试单):剔除或标记
  3. 重复单、取消单、测试单:直接删除
  4. 单位不统一:全部转成斤/公斤统一计算

第4步:构建时间维度(时序预测必备)

水果销量极强时间规律,必须扩展时间特征。

从日期字段衍生:

  • 年、月、日、星期几
  • 是否周末、是否节假日
  • 是否节气(清明、端午、中秋)
  • 是否雨天/高温(外部天气数据接入更佳)
  • 季节特征:应季/反季
  • 大促标签:店庆、节日活动、打折

目标:让模型能学到“周末销量高、雨天销量低”等规律。


第5步:进销存核心指标计算(生成业务特征)

在这里插入图片描述

把原始记录变成可建模特征

必算字段

  1. 日销量:按商品+日期聚合销量
  2. 日销售额、毛利、毛利率
  3. 日均采购量、采购周期
  4. 期初库存、入库量、销售量、期末库存
  5. 损耗率、报损量、库存周转天数
  6. 价格特征:售价、进价、价差、折扣力度

最终结构(经典宽表)

日期 + 商品ID + 分类 + 销量 + 价格 + 库存 + 节假日 + 天气 + 活动

这就是后续丢给 AutoGluon 训练的标准结构化数据。


第6步:数据集拆分与标准化(建模前最后一步)

  1. 按时间切分训练集/测试集
    时序数据不能随机切分
    例如:用1-10月训练,11-12月验证
  2. 剔除低频次SKU
    长期滞销、偶尔卖一次的商品单独处理
  3. 特征归一化/编码
    • 类别特征:商品、星期、天气
    • 数值特征:销量、价格、库存
  4. 最终检查
    无空值、无非正常极值、时间连续、结构规整

最终输出:一张标准结构化表

日期 商品ID 名称 分类 销量(斤) 售价 进价 库存 星期 节假日 天气 活动
2026-03-01 1001 西瓜 瓜类 120 3.5 1.8 50 5 0

这就是从杂乱Excel → 可AI预测的高质量数据


超简记忆口诀

  1. 收数据(进销存三张表)
  2. 统品名(水果最容易乱)
  3. 洗脏数(去异常、去重复)
  4. 加时间(星期、节日、天气)
  5. 算指标(销量、库存、毛利)
  6. 分数据集(时序切分)
Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐