面经｜缺失值填补的7种方法（使用场景+Python代码）

二哥不像程序员

27830人浏览 · 2022-05-06 17:42:39

二哥不像程序员 · 2022-05-06 17:42:39 发布

新专栏《数据挖掘（分析）面经》

第一篇：缺失值处理方法

对于从事数据相关工作的小伙伴，面试的时候经常会被问到如何进行缺失值/异常值的处理，本文来梳理一下填补缺失值的7种方法。

示例数据
本文所使用的示例数据创建如下：

import pandas as pd
import numpy as np

data = pd.DataFrame({
    'name': ['Bob', 'Mary', 'Peter', np.nan, 'Lucy'],
    'score': [99, 100, np.nan, 91, 95],
    'class': ['class1', 'class2', 'class1', 'class2', np.nan],
    'sex': ['male', 'fmale', 'male', 'male', 'fmale'],
    'age': [23, 25, 20, 19, 24]
})

在这里插入图片描述

一、均值填充

适用数据类型：数值类型
适用场景：数据整体极值差异不大时
举例：对成年男性身高的缺失值进行填充
代码示例：对data数据中的score进行均值填充

data['score'].fillna(data['score'].mean())

# 结果如下
0     99.00
1    100.00
2     96.25
3     91.00
4     95.00

二、中位数填充

适用数据类型：数值类型
适用场景：数据整体极值差异较大时
举例：对人均收入进行填充（数据中含有高收入人群：如马总）
代码示例：对data数据中的score进行中位数填充

data['score'].fillna(data['score'].median())

三、众数填充

适用数据类型：字符类型｜没有大小关系的数值类型数据
适用场景：大多数情况下
举例：对城市信息的缺失进行填充/对工人车间编号进行填充
代码示例：对data数据中的class进行众数填充（注意：众数填充时要通过索引0进行取值，一组数据的众数可能有多个，索引为0的数据一定会存在）

data['class'].fillna(data['class'].mode()[0])

# 结果如下
0    class1
1    class2
2    class1
3    class2
4    class1

四、前后数据填充

适用数据类型：数值类型｜字符类型
适用场景：数据行与行之间具有前后关系时
举例：学年成绩排行中的某同学某科目成绩丢失
代码示例：对data数据中的score进行前后数据填充

# 前文填充
data['score'].fillna(method='pad')
# 后文填充
data['score'].fillna(method='bfill')

五、自定义数据填充

适用数据类型：数值类型｜字符类型
适用场景：业务规定外的数据
举例：某调查问卷对婚后幸福程度进行调查，到那时很多人是未婚，可以自定义内容表示未婚人群
代码示例：对data数据中的name进行自定义数据填充

data['name'].fillna('no_name')

# 结果如下
0        Bob
1       Mary
2      Peter
3    no_name
4       Lucy

六、Pandas插值填充

适用数据类型：数值类型
适用场景：数据列的含义较为复杂，需要更精确的填充方法时
举例：对所有带有nan的数值列dataframe进行填充
说明：pandas中进行空值填充的方法为interpolate()，该方法的本质是使用各种数学（统计学）中的插值方法进行填充，其中包含最近邻插值法、阶梯插值、线性插值、B样条曲线插值等多种方法。
参数说明：interpolate()参数介绍
代码示例：

data['score'].interpolate()

七、机器学习算法填充

适用数据类型：数值类型｜字符类型
适用场景：具有多种数据维度的场景
说明：可以选择不同的回归｜分类模型对数据进行填充
注意：下面的例子中不考虑具体场景，只是用于举例
数值类型数据填充代码示例（线性回归）：

from sklearn.linear_model import LinearRegression

# 获取数据
data_train = data.iloc[[0, 1, 3]]

data_train_x = data_train[['age']]
data_train_y = data_train['score']
# 使用线性回归进行拟合
clf = LinearRegression()
clf.fit(data_train_x, data_train_y)
# 使用预测结果进行填充
data['score'].iloc[2] = clf.predict(pd.DataFrame(data[['age']].iloc[2]))

在这里插入图片描述

字符类型数据填充代码示例（决策树）：

from sklearn.tree import DecisionTreeClassifier

# 获取数据
data_train = data.iloc[[0, 1, 3]]

data_train_x = data_train[['age']]
data_train_y = data_train['class']
# 使用决策树进行拟合
clf = DecisionTreeClassifier()
clf.fit(data_train_x, data_train_y)
# 使用分类结果进行填充
data['class'].iloc[4] = clf.predict(pd.DataFrame(data[['age']].iloc[4]))[0]

在这里插入图片描述

GitCode 开源社区

旨在为数千万中国开发者提供一个无缝且高效的云端环境，以支持学习、使用和贡献开源项目。

更多推荐

[转载]在Windows环境下安装GNU Radio

转自：在Windows环境下安装GNURadio_恐弱智_新浪博客GNU Radio是用Python开发的，大部分开源的工程能够在Linux环境下运行良好，而Windows下却运行的很勉强，而且安装配置都很复杂。GNU Radio算是个例外了，不光提供了Windows的二进制安装，还有比较详细的说明。我是Python小白，所以折腾了好久才弄好，特意记录下来，免得以后再装还折腾。GNU Radio的

GitCode 开源社区

centOS 8 使用dnf安装Docker

DNF是什么？CentOS 8使用YUM软件包管理器版本v4.0.4。现在，该版本使用DNF(已删除YUM)。DNF是软件包管理器。它会在Linux发行版上安装，执行更新并删除软件包。使用DNF安装Docker跳过具有损坏依赖性的程序包一个有效的解决方案是使您的CentOS 8系统使用以下--nobest命令安装最符合条件的版本：sudo dnf install docker...

GitCode 开源社区

定时同步数据库表(mysql+linux+crontab)

sync.sh里面的参数需要改变，ip/username/password/database/tablesync.sh#!/bin/sh# Please change the IP and password of the data source db.# Then change the table name.filename=/home/nington/db/$(date +%Y-%m