世界杯数据处理和分析-Python程序设计语言
1、所实现的项目内容(文字简要描述,以要点的形式表述);
本次实验,实现了对历年世界杯的各项数据进行处理。
- 历年的观众的人数散点图分析
- 历年进球总数的散点图分析
3. 获得冠军的国家的冠军次数统计
4. 夺冠大洲的分布图分析
5. 作为东道主的夺冠概率分析
6. 比赛总进球数的排名分析
2、实验过程
1. 导入第三方包:导入numpy、pandas、matplotlib、seaborn包。
2.导入数据表(世界杯成绩汇总表),并设置全局的绘图参数。
3.绘制历年的观众的人数的散点图和进球总数的散点图:
设置刻度参数,设置边框和坐标轴标签:
设置刻度并储存表格,将观众人数散点图打印在屏幕上:
进球总数的散点图:
4. 获得冠军的国家的冠军次数统计:
调色,设置画布大小和边框,并进行绘图
设置x,y轴的标签,防止中文乱码。并提取条形的值
5. 绘制夺冠大洲的分布图:
设置标签文本,value_count用于数据表的计数
设置饼图的比例,格式为数组或占比的序列,决定扇形的面积
设置图形参数并打印
6.绘制作为东道主的夺冠概率分析:
将winner和hostcountry作比较,赋值ture和false
标签文本,value_count用于数据表的计数
设置饼图的比例,决定扇形面积
7. 比赛总进球数的排名统计:
导入数据:比赛信息表
类型转化,astype()函数可用于转化dateframe某一列的数据类型
格式化比赛结果
比赛进球数分析:
排序函数,将total_goals排序
绘制柱状图,调用vs数据并显示在y轴上
体育场比赛时间等信息,并打印在屏幕上:
三、结论
1.实验结果
(1)历年的观众的人数散点图
可以看出世界杯观众人数有逐年上升的趋势,存在较小的波动。
(2)历年进球总数的散点图
可以看出进球总数整体呈现上升的趋势,中间有几年出现了较大的波动。
(3) 获得冠军的国家的冠军次数统计
可以看出,巴西获得冠军的次数最多。而英格兰和西班牙获得冠军的次数最少。
(4)夺冠大洲的分布图
欧洲夺冠的国家多于美洲夺冠的国家,欧洲有12个国家曾夺冠,美洲有9个国家曾夺冠
(5)作为东道主的夺冠概率分析
可以看出,作为东道主的国家,夺冠的概率为百分之29
(6)比赛总进球数的排名
2.分析与讨论:
本次实验使用了Python语言和数据分析的方法,实现了对历年世界杯的各项数据进行处理。主要使用了Matplotlib的子类pyplot进行绘图,进行数据的可视化;使用Numpy用于科学计算;并用pandas用于处理数据框;使用了astype()函数转换数据类型,使用了排序函数进行排序;
通过这次实验,我对数据的分析,预处理和可视化有了更深入的认识,
对Python语言有了更深刻的理解。
实现一个较为完善的、逻辑上较为完整的程序。主题不限,可以是一个数据分析项目,可以是一个网络爬虫项目,可以是一个游戏,也可以是一个Web系统等。
实验报告写作要点:
首选列出你具体实现了哪些功能,然后依次写出整个实验的的基本步骤,辅以相应文字说明,并提交相应的源代码.py文件及实验报告文档。将创建的程序运行结果截图,分析讨论实验过程中的心得与体会。
更多推荐
所有评论(0)