2.1.1

一、数据清洗规范

1. 缺失值处理规范

  • 对数据集中所有字段进行缺失值检测,使用isnull().sum()统计每列缺失值数量。
  • 采用行删除法处理缺失值,删除包含缺失值的样本,保证建模数据完整有效。
  • 记录处理前后数据行数,确保清洗过程可追溯。

2. 数据类型转换规范

  • horsepower列进行数据类型校验,使用pd.to_numeric()将其转换为数值类型。
  • 设置errors='coerce'将无法转换的异常字符强制转为缺失值,再通过dropna()删除异常行。
  • 转换完成后验证数据类型,确保所有建模字段为合法数值类型。

3. 数据标准化规范

  • displacementhorsepowerweightacceleration等数值型特征进行标准化。
  • 使用StandardScaler()将数据缩放至统一量纲,消除特征尺度差异对模型的影响。
  • 标准化仅作用于输入特征,不修改目标变量mpg

4. 重复值与异常值规范

  • 检查并删除完全重复的记录,保证数据唯一性。
  • 保留业务合理范围内的数值,不随意删除建模有效异常样本。

二、数据标注规范

1. 标注目标

汽车燃油效率(mpg)为预测目标,将mpg设为模型目标变量(因变量/标签)

2. 特征选择规范

严格选择以下字段作为模型输入特征(自变量):

  1. cylinders(气缸数)
  2. displacement(排量)
  3. horsepower(马力)
  4. weight(重量)
  5. acceleration(加速度)
  6. model year(车型年份)
  7. origin(产地)

3. 数据格式规范

  • 所有特征与目标变量保持数值类型,无缺失、无异常字符。
  • 列名保持原始含义,不随意修改字段名称与业务意义。
  • 特征与目标变量一一对应,样本对齐无误。

4. 标注质量要求

  • 标注过程不篡改原始数据,不改变业务含义。
  • 最终数据满足建模要求:完整、干净、标准化、特征明确。

三、数据预处理整体流程规范

  1. 加载与查看数据:读取数据集,展示前5行与数据类型。
  2. 缺失值清洗:检测→删除→保证数据完整。
  3. 数据类型转换:修正horsepower类型,处理异常值。
  4. 数值标准化:统一量纲,规范特征分布。
  5. 特征筛选:按要求保留指定建模特征。
  6. 目标变量标注:确定mpg为因变量。
  7. 数据集划分:按8:2比例划分训练集与测试集。
  8. 数据保存:输出清洗后文件,命名规范为2.1.1_cleaned_data.csv

四、文件输出规范

  1. 代码文件:2.1.1.ipynb
  2. 清洗后数据:2.1.1_cleaned_data.csv
  3. 答题文档:2.1.1.docx
  4. 运行结果网页:2.1.1.html
  5. 文件夹命名:准考证号+身份证后6位

2.1.2

一、数据清洗规范

1. 缺失值处理规范

  • 对数据集中所有字段进行缺失值检测,使用isnull().sum()统计每列缺失数量。
  • 采用行删除法处理缺失值,删除包含任意缺失值的样本,保证建模数据完整有效。
  • 记录处理前后数据行数,形成处理日志。

2. 重复值处理规范

  • 使用duplicated()检测完全重复的记录,定位重复样本。
  • 采用drop_duplicates()删除全部重复行,仅保留唯一记录。
  • 统计并记录删除的重复行数,确保数据无冗余。

3. 数据类型与异常值规范

  • 检查各字段数据类型,确保分类变量、数值变量类型正确。
  • 对明显超出合理范围的异常值进行校验与清理,保证数据有效性。

4. 标准化处理规范

  • 对模型所需数值型自变量进行标准化处理,使用StandardScaler转换。
  • 使数据统一量纲,消除数值尺度差异对模型训练的影响。
  • 标准化仅作用于数值特征,不修改分类标签与目标变量。

二、数据标注规范

1. 标注目标

低碳生活行为为核心预测目标,将**“低碳行为积极性”**设为模型目标变量(因变量/标签)。

2. 特征选择与标注范围

严格选择以下字段作为模型输入特征,不得随意增删:

  1. 性别
  2. 年级
  3. 生源地
  4. 月生活费
  5. 绿色低碳生活方式实施情况
  6. 低碳与生活密切程度认知
  7. 低碳生活主流趋势判断
  8. 低碳生活提升生活质量认知

3. 数据格式标注规范

  • 分类变量保持原有类别标签,确保类别清晰、无乱码、无缺失。
  • 数值变量保持连续数值格式,不做类别映射修改。
  • 目标变量“低碳行为积极性”保持原始评分/取值,确保标注一致。

4. 标注质量要求

  • 标注过程不改变原始业务含义,不篡改数据内容。
  • 保证特征与目标变量一一对应,样本对齐。
  • 最终标注数据必须完整、干净、可直接用于模型训练。

三、数据预处理整体流程规范

  1. 加载数据:读取数据集,查看基本结构与前5行。
  2. 缺失值清洗:检测→删除→记录行数。
  3. 重复值清洗:检测→删除→记录删除行数。
  4. 数值标准化:统一量纲,规范数值分布。
  5. 特征筛选:按要求保留指定特征。
  6. 目标变量标注:确定并保留“低碳行为积极性”为因变量。
  7. 数据集划分:按8:2比例划分训练集与测试集。
  8. 数据保存:输出清洗标注后的数据文件,命名规范。

数据清洗 & 特征工程规范 2.1.3

一、数据清洗规范

1. 异常值处理规范

  • 使用箱线图可视化识别数值型变量异常分布。
  • 采用IQR 分位数法剔除异常值:
    • Q1 = 下四分位数
    • Q3 = 上四分位数
    • IQR = Q3 - Q1
    • 异常范围:< Q1-1.5IQR 或 > Q3+1.5IQR
  • 确保数据分布合理,提升模型稳定性。

2. 重复值处理规范

  • 使用 duplicated() 检测完全重复记录。
  • 删除全部重复行,保留唯一样本,避免数据冗余。
  • 输出删除行数,确保清洗过程可追溯。

3. 数据归一化规范

  • 使用 MinMaxScaler 将数值特征缩放到 [0,1] 区间。
  • 消除量纲差异,保证模型训练公平、快速收敛。

二、特征工程规范

1. 新特征构建

  • 创建收入债务比 IncomeToDebtRatio = MonthlyIncome / DebtRatio
  • 该特征能反映用户偿债能力,显著提升信用风险预测效果。

2. 目标变量标注

  • 目标变量:SeriousDlqin2yrs(逾期违约标签)。
  • 作为模型预测的因变量 y。

3. 特征选择

  • 保留所有自变量 + 新特征 IncomeToDebtRatio。
  • 确保特征与信用风险业务高度相关。

三、数据流程规范

  1. 加载 finance 数据集并查看前5行。
  2. 绘制箱线图识别异常值 → IQR 法剔除异常值。
  3. 删除重复值并记录数量。
  4. 数值特征归一化。
  5. 构建收入债务比新特征。
  6. 划分训练集/测试集(8:2)。
  7. 保存最终数据为 2.1.3_cleaned_data.csv。

2.1.4 数据清洗和数据标注规范

一、数据清洗规范

1. 数据加载与基础检查规范

  • 使用 GBK 编码加载医疗数据集,避免中文乱码。
  • 通过 dtypesinfo()isnull().sum() 检查数据类型、表结构及缺失值分布。
  • 确保数据集完整可读,为后续处理奠定基础。

2. 日期格式清洗规范

  • 使用 pd.to_datetime()就诊日期、诊断日期统一转换为标准 yyyy-mm-dd 日期格式。
  • 保证日期字段可用于时间差计算,确保数据格式规范统一。

3. 字段名称规范化

  • 将列名 病人ID 修改为 患者ID,使字段命名更贴合医疗业务场景,语义清晰。

4. 新增特征清洗规范

  • 计算 诊断延迟诊断日期 - 就诊日期,单位为天。
  • 计算 病程固定日期(2024-09-01)- 诊断日期,单位为天。
  • 过滤不合理数据:删除诊断延迟为负数、年龄≤0 或年龄≥120的异常记录。

5. 重复值清洗规范

  • 使用 duplicated() 检测完全重复的数据行。
  • 通过 drop_duplicates() 删除全部重复行,并记录删除行数,保证数据唯一性。

6. 数据归一化规范

  • 选取 年龄、体重、身高 三个数值型字段。
  • 使用 MinMaxScaler 进行归一化处理,将数据缩放到 [0,1] 区间。
  • 消除量纲差异,使数据适合机器学习模型训练。

二、数据标注规范

1. 标注目标

以医疗数据分析为目标,确保所有字段含义清晰、格式规范、数值合法。

2. 特征标注范围

  • 基础信息:患者ID、年龄、体重、身高、性别等。
  • 日期信息:就诊日期、诊断日期。
  • 业务特征:疾病类型、疾病严重程度、治疗结果。
  • 衍生特征:诊断延迟、病程。

3. 目标变量标注

根据业务需求,可将治疗结果、疾病严重程度作为模型预测的目标变量,确保标签准确、无缺失。

4. 标注质量要求

  • 数据无缺失、无重复、无异常值。
  • 日期格式统一,字段命名规范。
  • 数值特征完成归一化,类别特征保持清晰可读。
  • 最终数据可直接用于医疗模型训练。

三、数据可视化规范

  1. 治疗结果分布:按疾病类型分组,绘制堆叠柱状图,展示各类疾病治疗效果。
  2. 年龄与疾病严重程度:绘制散点图,分析两者相关性。
  3. 统一使用黑体字体显示中文图表,保证输出清晰规范。

四、数据输出规范

  • 处理完成后保存为 2.1.4_cleaned_data.csv
  • 保存时不保留索引,格式干净,可直接用于建模与分析。

2.1.5

一、数据清洗规范

1. 数据加载与检查

  • 加载健康数据集,通过info()查看结构,通过isnull().sum()检查缺失值。
  • 确保数据集完整可读。

2. 缺失值处理

  • 使用dropna()删除包含缺失值的行,保证数据完整性。
  • 关键列(健身频率)单独做缺失值处理,确保分析有效。

3. 数据类型转换

  • Your age使用pd.to_numeric()转为数值型。
  • 过滤年龄<0的异常值,最终转为int类型。

4. 重复值处理

  • 使用duplicated()检测重复行。
  • 使用drop_duplicates()删除重复数据并记录删除行数。

5. 数据标准化/归一化

  • 使用LabelEncoder()对健身水平分类特征进行编码,将文本转为数字。

6. 数据可视化

  • 统计健身频率分布并绘制饼图,直观展示用户健身习惯分布。

二、数据标注规范

1. 特征标注

  • 保留所有用户健康相关特征:年龄、健身水平、健身频率等。
  • 分类特征做标签编码,数值特征保证类型合法。

2. 数据划分

  • 按8:2比例划分训练集与测试集。
  • 保证数据分布一致,便于模型训练。

3. 数据输出

  • 清洗完成后保存为2.1.5_cleaned_data.csv
  • 无索引、无异常、无缺失,可直接用于建模。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐