学生用户画像 - 考勤主题扩展标签构建

m0_73733162

326人浏览 · 2026-05-19 19:31:24

m0_73733162 · 2026-05-19 19:31:24 发布

一、实验说明

1.1 实验目的

本次实验依托已生成的学生考勤主题标签表（student_attendance_stats），运用K-Means 聚类算法对学生考勤行为开展自动化分群。以迟到、早退、请假、校服违规次数为核心分析指标，精准识别不同考勤特征的学生群体，构建直观易懂的考勤用户画像，为校园日常管理、学生行为分析与针对性教育引导提供数据依据。

1.2 实验环境

本次实验全程在助睿数智（Uniplore）在线实验平台完成，该平台是 AI 驱动的一站式数据科学平台，支持数据接入、ETL 处理、机器学习建模、可视化展示全流程零代码操作。

·核心使用模块：数据集成平台（助睿 ETL）、人工智能平台（助睿 AI）、助睿 BI 数据可视化探索平台

·数据库：MySQL

·基础数据：学生考勤主题标签表（student_attendance_stats）

二、实验数据

2.1 数据构成

实验采用上一阶段产出的学生考勤主题标签表，整合学生基础信息与各类考勤行为统计数据，数据经过清洗与标准化处理，可直接用于聚类模型训练。

2.2 字段说明

名称说明类型
id 自增主键连续（整数）
student_id 学生 ID 连续（整数）
student_name 学生姓名文本
class_id 班级 ID 连续（整数）
class_name 班级名称文本
grade 年级文本 / 分类
gender 性别二分类
birth_date 出生日期文本 / 日期
political_status 政治面貌文本 / 分类
is_boarder 是否住校二分类
campus_type 校区类型文本 / 分类
late_count 迟到次数连续（整数）
early_leave_count 早退次数连续（整数）
leave_count 请假次数连续（整数）
uniform_violate_count 没穿校服次数连续（整数）
create_time 统计入库时间日期时间

2.3 建模思路

本次建模聚焦考勤行为核心指标，选取迟到、早退、请假、校服违规 4 个独立维度作为聚类特征，各指标业务含义清晰、相关性低，无需额外降维处理，适配 K-Means 算法对数据的要求。

所有建模指标均为非负整数型连续变量，无需哑变量编码、二值化等复杂转换，可直接输入模型，简化数据预处理流程，保障聚类结果稳定。学生性别、年级、住校状态等基础属性不参与建模，仅用于后续画像辅助解读。

三、实验步骤

AI Studio 是零代码可视化机器学习平台，支持数据加载、预处理、模型训练、结果输出全流程操作，本次通过拖拽组件完成聚类建模。

3.1 AI Studio 聚类建模

3.1.1 新建工作流

点击左侧菜单栏「人工智能」进入 AI Studio 平台，在用户空间点击「+」→「新建工作流」，搭建数据加载至结果输出的完整建模流程，为实验提供独立运行环境。

3.1.2 数据导入

拖拽「数据库加载」组件至画布，双击配置数据库连接信息，连接团队私有 MySQL 数据库，选择数据表student_attendance_stats。仅保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count关键字段，其余字段设置为跳过（skip），并配置对应字段属性，运行组件后可查看输出数据。

字段对应的属性类型参考如下：

属性名称属性类型属性名称属性类型
id skip political_status skip
student_id categorical is_boarder skip
student_name skip campus_type skip
class_id categorical late_count numeric
class_name skip early_leave_count numeric
grade skip leave_count numeric
gender skip uniform_violate_count numeric
birth_date skip create_time skip

3.1.3 K-Means 聚类建模

拖拽「K-Means」组件，与「数据库加载」组件建立连接，双击配置参数，设置聚类簇数量为3，其余参数保持默认，运行组件后，输出结果会为每位学生标注所属聚类簇（C1/C2/C3）。

3.1.4 结果输出与保存

拖拽「数据入库」组件，与 K-Means 组件连接，配置数据库信息，新建数据表student_cluster，运行工作流完成聚类结果的数据库存储。

3.2 分析聚类簇编号对应的考勤群体分类

通过助睿 BI 平台对聚类簇数据进行可视化展示，明确各聚类簇对应的学生考勤群体特征。

3.2.1 连接数据源

进入助睿 BI 平台，点击「数据源」→「+」→「新建连接」→「MySQL」，输入团队私有数据库账号信息，测试连接成功后完成数据源配置。

点击新建的数据库目录，可以看到本次实验所用的学生考勤主题标签表（右键点击-查看表数据，可以预览表内数据）。

3.2.2 构建数据集

点击「数据集」→「+」→「新建数据集」，命名后选择已配置的数据源，关联student_cluster数据表，将所有英文字段备注修改为中文（如 student_id 改为学生 ID、Cluster 改为聚类簇编号），保存并发布数据集。

3.2.3 制作工作表

新建分组用于分类管理工作表，在分组内创建多张工作表，分别分析迟到 - 早退、迟到 - 请假、迟到 - 校服违规、早退 - 请假、早退 - 校服违规、请假 - 校服违规6 组指标的聚类分布。将对应指标拖拽至 X 轴、Y 轴，以「聚类簇编号」区分颜色，设置数据展示限额为 100%，清晰呈现不同聚类簇的行为分布特征，完成后保存并发布工作表。

右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”，在操作列表中点击“新建工作表”，在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”，自动跳转到工作表设计页面，点击右上角“好的，我知道了”来关闭提醒，数据集选择刚刚创建的“聚类簇编号数据集”，图表类型选择“探索器”，将字段“late_count（迟到次数）”拖拽到X轴，“early_leave_count（早退次数）”拖拽到Y轴。

点击图形设置按钮，打开设置面板，在设置面板中，点击颜色区域的“+”，在下拉框中选择“Cluster（聚类簇编号）”，并点击“确认”，点击信息区域的“+”，在下拉框中选择“student_id（学生ID）”，并点击“确认”，将“student_id（学生ID）”设置为“维度”，系统默认限额为2000条数据，因此，需要将限额设置为100%，避免数据过多不显示全部。

为了区分更明显，我们可以设置聚类簇编号的颜色，点击颜色区域的设置按钮，切换对比强烈的主题，颜色设置后需要点击一下颜色区域外的地方才会生效，点击保存按钮，保存并发布工作表。

同样的，重新新建工作表，依次两两分析4个异常考勤次数的3个聚类簇的表现情况

迟到与请假次数的聚类簇分析：

迟到与没穿校服次数的聚类簇分析：

早退与请假次数的聚类簇分析：

早退与没穿校服次数的聚类簇分析：

请假与没穿校服次数的聚类簇分析：

3.2.4 搭建仪表盘

点击「仪表盘」→「新建仪表盘」，命名为「聚类簇分析」，添加标题文本组件，将 6 张可视化工作表拖拽至画布，调整布局与大小，保存并发布仪表盘，实现聚类结果一站式查看。

3.2.5 聚类群体画像解读

结合可视化分布特征，为 3 个聚类簇赋予业务化标签，完成从机器编号到学生画像的转化：

聚类簇编号颜色群体类型核心行为特征
C1 蓝色自律模范型所有异常考勤次数均处于极低水平，出勤稳定，纪律意识强
C2 青色轻微波动型迟到、早退次数极少，仅偶发请假或校服违规，整体纪律表现良好
C3 黄色纪律高危型多类异常考勤次数偏高，存在高频违纪行为，是重点关注干预对象

3.3 将映射结果加入学生考勤主题标签表

将聚类结果与群体分类标签添加至原始学生考勤主题标签表，完成扩展标签构建。

3.3.1 新增扩展字段

进入数据集成平台 ETL 项目，新建转换流，通过「执行 SQL 脚本」组件，在student_attendance_stats表中新增cluster（聚类簇编号）和attendance_group（考勤群体分类）两个字段。

进入上一个实验在数据集成平台中创建的ETL项目，新建转换流“增加考勤主题扩展标签字段”，拖拽并“”组件到画布中，双击“执行一个SQL脚本”组件，在配置窗口中，数据库连接“团队私有数据库_hyl”，输入SQL脚本后点击：“确认”，执行转换流：

3.3.2 聚类簇编号数据获取

新建转换流，通过「表输入」组件读取student_cluster表的全部数据，获取聚类簇编号信息。

3.3.3 字段选择

使用「字段选择」组件，仅保留student_id、Cluster关键字段，调整字段类型为 Integer，与原始表格式保持一致。

3.3.4 聚类簇编号映射

通过「值映射」组件，将聚类簇编号转换为中文群体名称：C1→自律模范型、C2→轻微波动型、C3→纪律高危型，生成attendance_group字段。

3.3.5 更新学生考勤主题标签

拖拽「更新」组件，以student_id、class_id为匹配关键字，将聚类簇编号与群体分类标签更新至student_attendance_stats表中。

3.3.6 运行转换流

执行完整转换流，日志显示数据处理完成后，通过数据探查功能查看表数据，确认扩展标签已成功写入。

3.3.7 查看结果

切换“元数据”选项，右键“团队私有数据库”，点击“加载元数据”，加载成功后点击“数据探查”，在团队私有数据库中点击 student_attendance_stats ，在点击“查询”，可以看到 cluster、attendance_group的数据已经更新成功了。

四、实验总结

本次实验以学生考勤统计数据为基础，借助 K-Means 聚类算法实现学生考勤群体的智能划分，依托助睿 BI 可视化平台完成聚类结果的业务解读，精准划分出自律模范型、轻微波动型、纪律高危型三类学生。最终将聚类标签回写至原始考勤表，完成考勤主题扩展标签的构建，为校园学生精细化管理、个性化行为干预提供了科学、精准的数据支撑。