【人工智能训练师3级】考试准备(2026)五、实操题-简答部分2.1.1-2.1.5数据清洗规范
·
2.1.1
一、数据清洗规范
1. 缺失值处理规范
- 对数据集中所有字段进行缺失值检测,使用
isnull().sum()统计每列缺失值数量。 - 采用行删除法处理缺失值,删除包含缺失值的样本,保证建模数据完整有效。
- 记录处理前后数据行数,确保清洗过程可追溯。
2. 数据类型转换规范
- 对
horsepower列进行数据类型校验,使用pd.to_numeric()将其转换为数值类型。 - 设置
errors='coerce'将无法转换的异常字符强制转为缺失值,再通过dropna()删除异常行。 - 转换完成后验证数据类型,确保所有建模字段为合法数值类型。
3. 数据标准化规范
- 对
displacement、horsepower、weight、acceleration等数值型特征进行标准化。 - 使用
StandardScaler()将数据缩放至统一量纲,消除特征尺度差异对模型的影响。 - 标准化仅作用于输入特征,不修改目标变量
mpg。
4. 重复值与异常值规范
- 检查并删除完全重复的记录,保证数据唯一性。
- 保留业务合理范围内的数值,不随意删除建模有效异常样本。
二、数据标注规范
1. 标注目标
以汽车燃油效率(mpg)为预测目标,将mpg设为模型目标变量(因变量/标签)。
2. 特征选择规范
严格选择以下字段作为模型输入特征(自变量):
- cylinders(气缸数)
- displacement(排量)
- horsepower(马力)
- weight(重量)
- acceleration(加速度)
- model year(车型年份)
- origin(产地)
3. 数据格式规范
- 所有特征与目标变量保持数值类型,无缺失、无异常字符。
- 列名保持原始含义,不随意修改字段名称与业务意义。
- 特征与目标变量一一对应,样本对齐无误。
4. 标注质量要求
- 标注过程不篡改原始数据,不改变业务含义。
- 最终数据满足建模要求:完整、干净、标准化、特征明确。
三、数据预处理整体流程规范
- 加载与查看数据:读取数据集,展示前5行与数据类型。
- 缺失值清洗:检测→删除→保证数据完整。
- 数据类型转换:修正
horsepower类型,处理异常值。 - 数值标准化:统一量纲,规范特征分布。
- 特征筛选:按要求保留指定建模特征。
- 目标变量标注:确定
mpg为因变量。 - 数据集划分:按8:2比例划分训练集与测试集。
- 数据保存:输出清洗后文件,命名规范为
2.1.1_cleaned_data.csv。
四、文件输出规范
- 代码文件:
2.1.1.ipynb - 清洗后数据:
2.1.1_cleaned_data.csv - 答题文档:
2.1.1.docx - 运行结果网页:
2.1.1.html - 文件夹命名:
准考证号+身份证后6位
2.1.2
一、数据清洗规范
1. 缺失值处理规范
- 对数据集中所有字段进行缺失值检测,使用
isnull().sum()统计每列缺失数量。 - 采用行删除法处理缺失值,删除包含任意缺失值的样本,保证建模数据完整有效。
- 记录处理前后数据行数,形成处理日志。
2. 重复值处理规范
- 使用
duplicated()检测完全重复的记录,定位重复样本。 - 采用
drop_duplicates()删除全部重复行,仅保留唯一记录。 - 统计并记录删除的重复行数,确保数据无冗余。
3. 数据类型与异常值规范
- 检查各字段数据类型,确保分类变量、数值变量类型正确。
- 对明显超出合理范围的异常值进行校验与清理,保证数据有效性。
4. 标准化处理规范
- 对模型所需数值型自变量进行标准化处理,使用
StandardScaler转换。 - 使数据统一量纲,消除数值尺度差异对模型训练的影响。
- 标准化仅作用于数值特征,不修改分类标签与目标变量。
二、数据标注规范
1. 标注目标
以低碳生活行为为核心预测目标,将**“低碳行为积极性”**设为模型目标变量(因变量/标签)。
2. 特征选择与标注范围
严格选择以下字段作为模型输入特征,不得随意增删:
- 性别
- 年级
- 生源地
- 月生活费
- 绿色低碳生活方式实施情况
- 低碳与生活密切程度认知
- 低碳生活主流趋势判断
- 低碳生活提升生活质量认知
3. 数据格式标注规范
- 分类变量保持原有类别标签,确保类别清晰、无乱码、无缺失。
- 数值变量保持连续数值格式,不做类别映射修改。
- 目标变量“低碳行为积极性”保持原始评分/取值,确保标注一致。
4. 标注质量要求
- 标注过程不改变原始业务含义,不篡改数据内容。
- 保证特征与目标变量一一对应,样本对齐。
- 最终标注数据必须完整、干净、可直接用于模型训练。
三、数据预处理整体流程规范
- 加载数据:读取数据集,查看基本结构与前5行。
- 缺失值清洗:检测→删除→记录行数。
- 重复值清洗:检测→删除→记录删除行数。
- 数值标准化:统一量纲,规范数值分布。
- 特征筛选:按要求保留指定特征。
- 目标变量标注:确定并保留“低碳行为积极性”为因变量。
- 数据集划分:按8:2比例划分训练集与测试集。
- 数据保存:输出清洗标注后的数据文件,命名规范。
数据清洗 & 特征工程规范 2.1.3
一、数据清洗规范
1. 异常值处理规范
- 使用箱线图可视化识别数值型变量异常分布。
- 采用IQR 分位数法剔除异常值:
- Q1 = 下四分位数
- Q3 = 上四分位数
- IQR = Q3 - Q1
- 异常范围:< Q1-1.5IQR 或 > Q3+1.5IQR
- 确保数据分布合理,提升模型稳定性。
2. 重复值处理规范
- 使用
duplicated()检测完全重复记录。 - 删除全部重复行,保留唯一样本,避免数据冗余。
- 输出删除行数,确保清洗过程可追溯。
3. 数据归一化规范
- 使用
MinMaxScaler将数值特征缩放到 [0,1] 区间。 - 消除量纲差异,保证模型训练公平、快速收敛。
二、特征工程规范
1. 新特征构建
- 创建收入债务比 IncomeToDebtRatio = MonthlyIncome / DebtRatio。
- 该特征能反映用户偿债能力,显著提升信用风险预测效果。
2. 目标变量标注
- 目标变量:SeriousDlqin2yrs(逾期违约标签)。
- 作为模型预测的因变量 y。
3. 特征选择
- 保留所有自变量 + 新特征 IncomeToDebtRatio。
- 确保特征与信用风险业务高度相关。
三、数据流程规范
- 加载 finance 数据集并查看前5行。
- 绘制箱线图识别异常值 → IQR 法剔除异常值。
- 删除重复值并记录数量。
- 数值特征归一化。
- 构建收入债务比新特征。
- 划分训练集/测试集(8:2)。
- 保存最终数据为 2.1.3_cleaned_data.csv。
–
2.1.4 数据清洗和数据标注规范
一、数据清洗规范
1. 数据加载与基础检查规范
- 使用
GBK编码加载医疗数据集,避免中文乱码。 - 通过
dtypes、info()、isnull().sum()检查数据类型、表结构及缺失值分布。 - 确保数据集完整可读,为后续处理奠定基础。
2. 日期格式清洗规范
- 使用
pd.to_datetime()将就诊日期、诊断日期统一转换为标准yyyy-mm-dd日期格式。 - 保证日期字段可用于时间差计算,确保数据格式规范统一。
3. 字段名称规范化
- 将列名 病人ID 修改为 患者ID,使字段命名更贴合医疗业务场景,语义清晰。
4. 新增特征清洗规范
- 计算 诊断延迟:
诊断日期 - 就诊日期,单位为天。 - 计算 病程:
固定日期(2024-09-01)- 诊断日期,单位为天。 - 过滤不合理数据:删除诊断延迟为负数、年龄≤0 或年龄≥120的异常记录。
5. 重复值清洗规范
- 使用
duplicated()检测完全重复的数据行。 - 通过
drop_duplicates()删除全部重复行,并记录删除行数,保证数据唯一性。
6. 数据归一化规范
- 选取 年龄、体重、身高 三个数值型字段。
- 使用
MinMaxScaler进行归一化处理,将数据缩放到[0,1]区间。 - 消除量纲差异,使数据适合机器学习模型训练。
二、数据标注规范
1. 标注目标
以医疗数据分析为目标,确保所有字段含义清晰、格式规范、数值合法。
2. 特征标注范围
- 基础信息:患者ID、年龄、体重、身高、性别等。
- 日期信息:就诊日期、诊断日期。
- 业务特征:疾病类型、疾病严重程度、治疗结果。
- 衍生特征:诊断延迟、病程。
3. 目标变量标注
根据业务需求,可将治疗结果、疾病严重程度作为模型预测的目标变量,确保标签准确、无缺失。
4. 标注质量要求
- 数据无缺失、无重复、无异常值。
- 日期格式统一,字段命名规范。
- 数值特征完成归一化,类别特征保持清晰可读。
- 最终数据可直接用于医疗模型训练。
三、数据可视化规范
- 治疗结果分布:按疾病类型分组,绘制堆叠柱状图,展示各类疾病治疗效果。
- 年龄与疾病严重程度:绘制散点图,分析两者相关性。
- 统一使用黑体字体显示中文图表,保证输出清晰规范。
四、数据输出规范
- 处理完成后保存为
2.1.4_cleaned_data.csv。 - 保存时不保留索引,格式干净,可直接用于建模与分析。
2.1.5
一、数据清洗规范
1. 数据加载与检查
- 加载健康数据集,通过
info()查看结构,通过isnull().sum()检查缺失值。 - 确保数据集完整可读。
2. 缺失值处理
- 使用
dropna()删除包含缺失值的行,保证数据完整性。 - 关键列(健身频率)单独做缺失值处理,确保分析有效。
3. 数据类型转换
- 将
Your age使用pd.to_numeric()转为数值型。 - 过滤年龄<0的异常值,最终转为
int类型。
4. 重复值处理
- 使用
duplicated()检测重复行。 - 使用
drop_duplicates()删除重复数据并记录删除行数。
5. 数据标准化/归一化
- 使用
LabelEncoder()对健身水平分类特征进行编码,将文本转为数字。
6. 数据可视化
- 统计健身频率分布并绘制饼图,直观展示用户健身习惯分布。
二、数据标注规范
1. 特征标注
- 保留所有用户健康相关特征:年龄、健身水平、健身频率等。
- 分类特征做标签编码,数值特征保证类型合法。
2. 数据划分
- 按8:2比例划分训练集与测试集。
- 保证数据分布一致,便于模型训练。
3. 数据输出
- 清洗完成后保存为
2.1.5_cleaned_data.csv。 - 无索引、无异常、无缺失,可直接用于建模。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐

所有评论(0)