数据挖掘、数据分析学习路线作品集
一.数据分析思维:初学Michael Milton著的"深入浅出数据分析",章回小说形式讲解数分基本步骤,重点与统计相关知识点假设检验、贝叶斯统计、主观概率。然后精读克罗尔的"精益数据分析",了解商业分析领域专业知识,从六大商业模式电子商务、SaaS、双边市场等出发分别详解影响指标、阶段划分。

二.Excel :重点函数部分,条件求和sumifs、判断if、查找匹配vlookup、日期date、以及match和index函数联用,公式求解同环比,函数学完后外切片器数据透视表、批量处理、报表指标搭建。第一张报表跟着b站UP主慢慢敲

其中重点match和index联用,更改任意日期,指标也会变动。
第二张报表是UP主练习题,自主实现,重点是数据验证部分内容

然后自己找数据项目资源,完全自己实现报表,我找的是外网的一个网购订单快递数据,学到新函数countifs、subtotal等,重点实现match和index联用,指标计算,数据验证。

三. SQL: 重点学习。基础语法跟着b站UP学习,重点聚合函数GROUP BY窗口函数OVER(),然后刷力扣和牛客网的题,边刷题边看福达著的SQL必知必会。先刷力扣50题较难,完全自己想,不看答案,不在意正确率。然后学高赞代码思维,如求比率就用avg(if),滑动窗口,正则表达


然后刷牛客网的大厂真题和热题,相比于力扣会顺手很多,简单题可以理清思路跳过。难题不看讨论解析慢慢来,我敲过最长的SQL花了半小时

四.BI可视化:学习Tabbleau,重点度量、维度拖拽生成可视化图表,搭建可视化看板,链接如下。
work | Tableau Public
https://public.tableau.com/app/profile/zhiyi.long/viz/work_17752149340450/sheet22?publish=yes
五.Python:基础看蛇书,手敲学习书中三个项目。然后做时间序列预测项目,一个湖冰结冰日分类,一个光伏功率回归预测。学习整个项目流程,从数据预处理到输出结果指标计算统计
5.1 湖冰结冰日分类:使用的LSTM模型,源数据1978年-2023年分钟级数据,转换到天级分辨率数据,结冰日当天进行标签将无监督学习转化为监督学习二分类问题,对输入特征进行shap值后验分析,详细链接:https://github.com/longzhiyi-a/Lake-Ice-Freezing-Date-Forecast.git
5.2 光伏功率回归预测:使用的Transformer变体-Crossformer模型,光伏功率具有很强的周期性,使用Crossformer捕捉一段时间内光伏的变化模型,引入分解将功率列分解为周期项、季节项、残差项,并对Crossformer模型输出层进行改进,使用统计DM检验验证改进模型显著优于LSTM、Transformer、Informer、Reformer
六.机器学习:主学李航著的"统计学习方法论",重点决策树模型、策略、三个算法(ID3算法,C4.5算法,CART算法),支持向量机(最大间隔算法、软间隔算法、SMO算法),提升方法(AdaBoost,提升树,GBDT,XGBoost,LightGBM,RF),K-means聚类。从模型原理,参数寻找策略,以及算法推导一步步学习。部分笔记:

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)