基于XGBoost的汽车销量分析与预测研究

Easton111

144人浏览 · 2026-06-10 20:13:14

Easton111 · 2026-06-10 20:13:14 发布

一、研究内容及目标概述
（一）研究的主要内容：
1.多源数据收集与预处理：明确多维度数据来源，通过Python爬虫获取汽车之家、懂车帝等垂直平台的车型参数、月度/周度销量及售价数据；并采用Pandas库开展数据清洗，运用均值填充法或插值法处理缺失值，通过Z-score标准化实现数据归一化，构建高质量数据集。
2. 汽车销量影响因素分析：基于预处理后的数据，运用Pearson相关性分析筛选与销量关联度较高的初始特征；结合XGBoost和随机森林的特征重要性评估结果，剔除冗余特征，构建涵盖品牌、价格、车型属性、消费者行为等维度的影响因素体系，明确各因素与销量的关联机制。
3.机器学习预测模型构建与优化：选取ARIMA、XGBoost、随机森林三种典型算法，分别基于Scikit-learn、Statsmodels等工具搭建基础预测模型；针对单一模型局限，探索XGBoost与其他算法的组合策略，通过网格搜索法优化XGBoost的学习率、树深度、迭代次数等超参数，结合特征工程提升模型性能。
4.模型验证与对比分析：采用7:3比例划分训练集与测试集，结合滚动窗口交叉验证避免数据泄露；选取均方误差（MSE）、平均绝对误差（MAE）、决定系数（R²）、平均绝对百分比误差（MAPE）作为核心评估指标，对比不同模型的预测精度、稳定性及泛化能力，确定最优预测模型并分析其优势。
（二）达到的目标：
1.数据集构建目标：完成2020-2024年多维度汽车销量数据集构建，涵盖多个主流品牌、多款代表性车型的销售数据及对应影响因素数据，关键指标缺失情况得到有效控制，异常值处理效果良好，标准化后数据分布均匀，完全满足建模要求。
2.模型性能目标：构建多种预测模型，包括ARIMA、XGBoost、随机森林及组合模型，最优模型在测试集上预测精度高、拟合效果好，误差控制在较低水平，泛化能力强，性能显著优于基础模型。
3.影响因素分析目标：精准识别多项影响汽车销量的关键因素，明确政策补贴、汽车属性、汽车品牌、车型售价等核心因素的影响方向及程度，特征重要性排序与市场实际及现有研究结论具有较高一致性。
4.成果产出目标：形成1份完整的模型构建与预测分析报告，包含数据处理流程、模型细节、评估结果及可视化图表；完成毕业论文初稿撰写，研究过程可复现，预测建议具备实际应用价值。
二、研究任务及实施计划
（一）研究任务：
1.前期准备任务：系统梳理汽车销量预测、XGBoost算法及模型评估相关国内外文献，完成不少于30篇核心文献的综述；设计多源数据收集方案，明确各数据来源的获取方式、更新频率及权限要求，编制数据收集清单。
2.数据处理任务：执行数据爬取与官方数据对接，完成原始数据汇总；开展数据清洗、缺失值修复、异常值处理及标准化操作，生成最终数据集并撰写数据预处理报告；通过探索性数据分析挖掘数据分布特征、趋势及相关性，形成可视化分析图表。
3.模型研发任务：完成特征工程全流程，包括特征筛选、构建及降维，输出特征重要性评估报告；搭建基础模型并完成参数初始化，通过交叉验证迭代优化超参数，记录各轮次模型性能数据；设计组合模型融合策略并实现建模，完成模型性能初步测试。
4.评估与分析任务：建立多维度模型评估体系，开展各模型横向对比实验，形成性能对比报告；基于最优模型开展销量预测，结合SHAP值分析关键因素影响机制；整理研究数据、代码及实验记录，确保研究可复现。
5.成果总结任务：撰写毕业论文初稿，包含文献综述、数据处理、模型构建、实验分析等核心章节；制作研究过程中的代码注释文档、数据集说明文档及模型使用手册；根据指导意见修改论文，完善实验细节及分析结论。
（二）实施进度计划：
指导教师下达任务时填写指导教师检查学生完成情况后填写
时间进度与阶段任务检查时间任务完成情况存在的问题及下一步要求
2025年7月-2025年8月文献调研与方案设计
2025年9月数据收集与预处理
2025年10月特征工程与基础模型构建
2025年11月-2025年12月优化建模与模型评估以及结果分析
2026年1月-2026年2月论文修改与成果完善
2026年3月答辩准备与成果提交