【人工智能训练师3级】考试准备（2026）五、实操题-简答部分2.1.1-2.1.5数据清洗规范

萤萤七悬

720人浏览 · 2026-04-08 17:14:16

萤萤七悬 · 2026-04-08 17:14:16 发布

2.1.1

一、数据清洗规范

1. 缺失值处理规范

对数据集中所有字段进行缺失值检测，使用isnull().sum()统计每列缺失值数量。
采用行删除法处理缺失值，删除包含缺失值的样本，保证建模数据完整有效。
记录处理前后数据行数，确保清洗过程可追溯。

2. 数据类型转换规范

对horsepower列进行数据类型校验，使用pd.to_numeric()将其转换为数值类型。
设置errors='coerce'将无法转换的异常字符强制转为缺失值，再通过dropna()删除异常行。
转换完成后验证数据类型，确保所有建模字段为合法数值类型。

3. 数据标准化规范

对displacement、horsepower、weight、acceleration等数值型特征进行标准化。
使用StandardScaler()将数据缩放至统一量纲，消除特征尺度差异对模型的影响。
标准化仅作用于输入特征，不修改目标变量mpg。

4. 重复值与异常值规范

检查并删除完全重复的记录，保证数据唯一性。
保留业务合理范围内的数值，不随意删除建模有效异常样本。

二、数据标注规范

1. 标注目标

以汽车燃油效率（mpg）为预测目标，将mpg设为模型目标变量（因变量/标签）。

2. 特征选择规范

严格选择以下字段作为模型输入特征（自变量）：

cylinders（气缸数）
displacement（排量）
horsepower（马力）
weight（重量）
acceleration（加速度）
model year（车型年份）
origin（产地）

3. 数据格式规范

所有特征与目标变量保持数值类型，无缺失、无异常字符。
列名保持原始含义，不随意修改字段名称与业务意义。
特征与目标变量一一对应，样本对齐无误。

4. 标注质量要求

标注过程不篡改原始数据，不改变业务含义。
最终数据满足建模要求：完整、干净、标准化、特征明确。

三、数据预处理整体流程规范

加载与查看数据：读取数据集，展示前5行与数据类型。
缺失值清洗：检测→删除→保证数据完整。
数据类型转换：修正horsepower类型，处理异常值。
数值标准化：统一量纲，规范特征分布。
特征筛选：按要求保留指定建模特征。
目标变量标注：确定mpg为因变量。
数据集划分：按8:2比例划分训练集与测试集。
数据保存：输出清洗后文件，命名规范为2.1.1_cleaned_data.csv。

四、文件输出规范

代码文件：2.1.1.ipynb
清洗后数据：2.1.1_cleaned_data.csv
答题文档：2.1.1.docx
运行结果网页：2.1.1.html
文件夹命名：准考证号+身份证后6位

2.1.2

一、数据清洗规范

1. 缺失值处理规范

对数据集中所有字段进行缺失值检测，使用isnull().sum()统计每列缺失数量。
采用行删除法处理缺失值，删除包含任意缺失值的样本，保证建模数据完整有效。
记录处理前后数据行数，形成处理日志。

2. 重复值处理规范

使用duplicated()检测完全重复的记录，定位重复样本。
采用drop_duplicates()删除全部重复行，仅保留唯一记录。
统计并记录删除的重复行数，确保数据无冗余。

3. 数据类型与异常值规范

检查各字段数据类型，确保分类变量、数值变量类型正确。
对明显超出合理范围的异常值进行校验与清理，保证数据有效性。

4. 标准化处理规范

对模型所需数值型自变量进行标准化处理，使用StandardScaler转换。
使数据统一量纲，消除数值尺度差异对模型训练的影响。
标准化仅作用于数值特征，不修改分类标签与目标变量。

二、数据标注规范

1. 标注目标

以低碳生活行为为核心预测目标，将**“低碳行为积极性”**设为模型目标变量（因变量/标签）。

2. 特征选择与标注范围

严格选择以下字段作为模型输入特征，不得随意增删：

性别
年级
生源地
月生活费
绿色低碳生活方式实施情况
低碳与生活密切程度认知
低碳生活主流趋势判断
低碳生活提升生活质量认知

3. 数据格式标注规范

分类变量保持原有类别标签，确保类别清晰、无乱码、无缺失。
数值变量保持连续数值格式，不做类别映射修改。
目标变量“低碳行为积极性”保持原始评分/取值，确保标注一致。

4. 标注质量要求

标注过程不改变原始业务含义，不篡改数据内容。
保证特征与目标变量一一对应，样本对齐。
最终标注数据必须完整、干净、可直接用于模型训练。

三、数据预处理整体流程规范

加载数据：读取数据集，查看基本结构与前5行。
缺失值清洗：检测→删除→记录行数。
重复值清洗：检测→删除→记录删除行数。
数值标准化：统一量纲，规范数值分布。
特征筛选：按要求保留指定特征。
目标变量标注：确定并保留“低碳行为积极性”为因变量。
数据集划分：按8:2比例划分训练集与测试集。
数据保存：输出清洗标注后的数据文件，命名规范。

数据清洗 & 特征工程规范 2.1.3

一、数据清洗规范

1. 异常值处理规范

使用箱线图可视化识别数值型变量异常分布。
采用IQR 分位数法剔除异常值：
- Q1 = 下四分位数
- Q3 = 上四分位数
- IQR = Q3 - Q1
- 异常范围：< Q1-1.5IQR 或 > Q3+1.5IQR
确保数据分布合理，提升模型稳定性。

2. 重复值处理规范

使用 duplicated() 检测完全重复记录。
删除全部重复行，保留唯一样本，避免数据冗余。
输出删除行数，确保清洗过程可追溯。

3. 数据归一化规范

使用 MinMaxScaler 将数值特征缩放到 [0,1] 区间。
消除量纲差异，保证模型训练公平、快速收敛。

二、特征工程规范

1. 新特征构建

创建收入债务比 IncomeToDebtRatio = MonthlyIncome / DebtRatio。
该特征能反映用户偿债能力，显著提升信用风险预测效果。

2. 目标变量标注

目标变量：SeriousDlqin2yrs（逾期违约标签）。
作为模型预测的因变量 y。

3. 特征选择

保留所有自变量 + 新特征 IncomeToDebtRatio。
确保特征与信用风险业务高度相关。

三、数据流程规范

加载 finance 数据集并查看前5行。
绘制箱线图识别异常值 → IQR 法剔除异常值。
删除重复值并记录数量。
数值特征归一化。
构建收入债务比新特征。
划分训练集/测试集（8:2）。
保存最终数据为 2.1.3_cleaned_data.csv。

–

2.1.4 数据清洗和数据标注规范

一、数据清洗规范

1. 数据加载与基础检查规范

使用 GBK 编码加载医疗数据集，避免中文乱码。
通过 dtypes、info()、isnull().sum() 检查数据类型、表结构及缺失值分布。
确保数据集完整可读，为后续处理奠定基础。

2. 日期格式清洗规范

使用 pd.to_datetime() 将就诊日期、诊断日期统一转换为标准 yyyy-mm-dd 日期格式。
保证日期字段可用于时间差计算，确保数据格式规范统一。

3. 字段名称规范化

将列名 病人ID 修改为 患者ID，使字段命名更贴合医疗业务场景，语义清晰。

4. 新增特征清洗规范

计算 诊断延迟：诊断日期 - 就诊日期，单位为天。
计算病程：固定日期（2024-09-01）- 诊断日期，单位为天。
过滤不合理数据：删除诊断延迟为负数、年龄≤0 或年龄≥120的异常记录。

5. 重复值清洗规范

使用 duplicated() 检测完全重复的数据行。
通过 drop_duplicates() 删除全部重复行，并记录删除行数，保证数据唯一性。

6. 数据归一化规范

选取 年龄、体重、身高 三个数值型字段。
使用 MinMaxScaler 进行归一化处理，将数据缩放到 [0,1] 区间。
消除量纲差异，使数据适合机器学习模型训练。

二、数据标注规范

1. 标注目标

以医疗数据分析为目标，确保所有字段含义清晰、格式规范、数值合法。

2. 特征标注范围

基础信息：患者ID、年龄、体重、身高、性别等。
日期信息：就诊日期、诊断日期。
业务特征：疾病类型、疾病严重程度、治疗结果。
衍生特征：诊断延迟、病程。

3. 目标变量标注

根据业务需求，可将治疗结果、疾病严重程度作为模型预测的目标变量，确保标签准确、无缺失。

4. 标注质量要求

数据无缺失、无重复、无异常值。
日期格式统一，字段命名规范。
数值特征完成归一化，类别特征保持清晰可读。
最终数据可直接用于医疗模型训练。

三、数据可视化规范

治疗结果分布：按疾病类型分组，绘制堆叠柱状图，展示各类疾病治疗效果。
年龄与疾病严重程度：绘制散点图，分析两者相关性。
统一使用黑体字体显示中文图表，保证输出清晰规范。

四、数据输出规范

处理完成后保存为 2.1.4_cleaned_data.csv。
保存时不保留索引，格式干净，可直接用于建模与分析。

2.1.5 一、数据清洗规范

1. 数据加载与检查

加载健康数据集，通过info()查看结构，通过isnull().sum()检查缺失值。
确保数据集完整可读。

2. 缺失值处理

使用dropna()删除包含缺失值的行，保证数据完整性。
关键列（健身频率）单独做缺失值处理，确保分析有效。

3. 数据类型转换

将Your age使用pd.to_numeric()转为数值型。
过滤年龄<0的异常值，最终转为int类型。

4. 重复值处理

使用duplicated()检测重复行。
使用drop_duplicates()删除重复数据并记录删除行数。

5. 数据标准化/归一化

使用LabelEncoder()对健身水平分类特征进行编码，将文本转为数字。

6. 数据可视化

统计健身频率分布并绘制饼图，直观展示用户健身习惯分布。

二、数据标注规范

1. 特征标注

保留所有用户健康相关特征：年龄、健身水平、健身频率等。
分类特征做标签编码，数值特征保证类型合法。

2. 数据划分

按8:2比例划分训练集与测试集。
保证数据分布一致，便于模型训练。

3. 数据输出

清洗完成后保存为2.1.5_cleaned_data.csv。
无索引、无异常、无缺失，可直接用于建模。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

腾视科技TS-NV-P200车载系列AI边缘算力盒子：引领车路协同新时代，赋能多元场景应用

AtomGit开源社区

向量空间JBoltAI V4.5：企业AI从“会说“到“会干“

企业AI平台向量空间JBoltAI发布V4.5版本，标志着AI从问答助手向执行任务的智能体转型。该版本核心升级包括：1）智能体中心实现任务全流程管理，支持多智能体协同执行；2）Skill体系将企业经验沉淀为可复用能力资产；3）增强文档解析能力，特别是PDF表格处理。平台正从"AI开发工具"向"企业智能体操作系统"演进，推动AI从"会说话"

AtomGit开源社区

2026亚马逊流量特权绿标才是真正的算法护城河

AtomGit开源社区

所有评论(0)

查看更多评论

萤萤七悬

@drico1986

已为社区贡献5条内容

【人工智能训练师3级】考试准备（2026）五、实操题-简答部分2.1.1-2.1.5数据清洗规范

萤萤七悬

2.1.1

一、数据清洗规范

1. 缺失值处理规范

2. 数据类型转换规范

3. 数据标准化规范

4. 重复值与异常值规范

二、数据标注规范

1. 标注目标

2. 特征选择规范

3. 数据格式规范

4. 标注质量要求

三、数据预处理整体流程规范

四、文件输出规范

2.1.2

一、数据清洗规范

1. 缺失值处理规范

2. 重复值处理规范

3. 数据类型与异常值规范

4. 标准化处理规范

二、数据标注规范

1. 标注目标

2. 特征选择与标注范围

3. 数据格式标注规范

4. 标注质量要求

三、数据预处理整体流程规范

数据清洗 & 特征工程规范 2.1.3

一、数据清洗规范

1. 异常值处理规范

2. 重复值处理规范

3. 数据归一化规范

二、特征工程规范

1. 新特征构建

2. 目标变量标注

3. 特征选择

三、数据流程规范

2.1.4 数据清洗和数据标注规范

一、数据清洗规范

1. 数据加载与基础检查规范

2. 日期格式清洗规范

3. 字段名称规范化

4. 新增特征清洗规范

5. 重复值清洗规范

6. 数据归一化规范

二、数据标注规范

1. 标注目标

2. 特征标注范围

3. 目标变量标注

4. 标注质量要求

三、数据可视化规范

四、数据输出规范

2.1.5

一、数据清洗规范

1. 数据加载与检查

2. 缺失值处理

3. 数据类型转换

4. 重复值处理

5. 数据标准化/归一化

6. 数据可视化

二、数据标注规范

1. 特征标注

2. 数据划分

3. 数据输出

所有评论(0)

温馨提示：您尚未绑定手机号

萤萤七悬