1 实验概述

1.1 实验目的

基于已完成的学生考勤主题标签表(student_attendance_stats),使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标,识别不同类型的考勤群体,生成可解释的考勤画像,为校园学生管理、行为分析提供精准数据支撑。

1.2 实验环境

本次实验全程依托助睿数智 Uniplore 一站式数据科学实验平台开展,平台网址:https://lab.guilan.cn/,整合数据处理、算法建模、可视化分析全流程零代码操作能力。 本次实验所使用平台模块:助睿 ETL 数据集成工具、Uniplore 人工智能建模平台、助睿 BI 可视化分析平台 底层存储数据库:MySQL 数据库 实验基础数据源:已清洗标准化的学生考勤统计标签表 student_attendance_stats

2 实验数据

2.1 数据来源

本次实验使用上一实验输出的学生考勤主题标签表,数据包含学生基础信息与考勤次数统计结果,为聚类建模提供干净、标准化的特征数据。

2.2 字段说明

字段名称

字段释义

数据类型

id

数据表自增主键

整型连续字段

student_id

学生唯一编号

整型连续字段

student_name

学生姓名

文本字符字段

class_id

班级编号

整型连续字段

class_name

班级名称

文本字符字段

grade

就读年级

分类字段

gender

学生性别

二分类字段

birth_date

学生出生日期

日期文本字段

political_status

学生政治面貌

分类字段

is_boarder

是否住校生

二分类字段

campus_type

就读校区类型

分类字段

late_count

学生迟到总次数

整型数值字段

early_leave_count

学生早退总次数

整型数值字段

leave_count

学生请假总次数

整型数值字段

uniform_violate_count

校服违规次数

整型数值字段

create_time

数据统计录入时间

日期时间字段

2.3 建模思路

本次聚类实验遵循业务优先、精简建模、结果落地三大原则开展数据分析工作。

  1. 特征筛选:剔除姓名、年级、性别、住校状态等学生基础属性字段,仅保留迟到次数、早退次数、请假次数、校服违规次数四类行为数值特征作为聚类核心变量,特征之间业务独立、无高度冗余,适配聚类分析业务逻辑。
  2. 模型适配:四大考勤统计次数均为非负连续数值型数据,完全契合 K-Means 聚类算法输入要求,无需进行数据归一化编码、离散化转换等复杂预处理,简化建模流程,保障聚类结果稳定有效。
  3. 结果应用:基础个人信息字段不参与模型训练,仅在聚类完成后作为辅助标签,用于完善学生考勤群体画像;最终完成聚类分类结果回写原始数据表,实现数据标签扩充,完成全流程数据分析落地。

3 实验步骤

3.1  AI Studio 聚类建模

3.1.1 新建工作流

登录助睿数智实验平台后,在左侧功能菜单栏点击人工智能模块,进入 AI 智能建模操作界面

在个人实验空间内点击新建按钮,创建空白自定义工作流

人工智能模块页面是集构建、运行、编辑、查看于一体的工作区域。在该模块页面中,主要包括三个模块,分别是菜单栏,控件列表以及画布(用于工作流构建)。如下图所示:

3.1.2 数据导入

首先,我们需要将 student_attendance_stats 的数据载入,搜索“数据库加载”控件,拖拽至画布。

双击组件进入参数配置页面,填写团队专属 MySQL 数据库连接账号、端口、密码等信息,完成数据库连通校验。

数据库连接成功后,选中本次实验所需学生考勤统计表 student_attendance_stats

选择后会自动加载表信息,我们主要是分析各类异常考勤占比的特征,所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,其他字段跳过(skip);为保留的字段选择对应的属性类型,最后点击“确定”

右键数据库加载空间,点击“运行该控件”

运行无误后查看预览已筛选完成的标准化实验数据,确认数据无误后进入下一步建模操作。

3.1.3 K-Means 聚类建模

拖入“K-Means”组件,创建数据库加载组件到“K-Means”组件的连线

双击打开 K-Means 算法配置面板,结合校园考勤管理实际业务需求,固定聚类划分数量为 3 类,其余算法默认参数保持不变,无需额外调整。

参数配置完毕后右键启动聚类模型运行任务

模型运行结束后即可查看实验结果,系统自动为每一位学生数据分配唯一聚类标签 C1、C2、C3,完成学生自动分群。

3.1.4 结果输出与保存

聚类后的数据我们需要保存到数据库中,以便后续使用

拖拽“数据入库”组件到画布,创建“K-Means”组件到“数据入库”组件的连线

连通聚类算法组件与数据入库组件

双击数据入库组件配置数据库连接信息

选择新建数据表模式,自定义数据表名称为 student_cluster,确定数据表字段结构与聚类输出字段保持一致。

完整运行整套工作流,待所有组件全部显示运行成功,代表学生考勤数据聚类分群结果已成功持久化存入数据库,完成建模阶段全部操作。

3.2 分析聚类簇编号对应的考勤群体分类

3.2.1 可视化平台绑定业务数据源

退出人工智能建模模块,点击左侧菜单栏进入助睿 BI 数据可视化分析平台

在数据源管理页面点击新建连接,选择 MySQL 数据库连接类型

录入团队统一数据库登录信息,完成数据库连通测试

连通成功后即可读取库内所有业务数据表,可提前预览 student_cluster 聚类结果表数据内容

3.2.2 构建数据集

进入数据集创建页面,自定义数据集名称与分组归属

选定刚刚绑定完成的 MySQL 数据源,找到聚类结果数据表 student_cluster 并添加至数据集编辑画布。

统一修改数据表内英文字段为中文备注名称,依次将 student_id 改为学生 ID、late_count 改为迟到次数、early_leave_count 改为早退次数、leave_count 改为请假次数、uniform_violate_count 改为校服违规次数、Cluster 改为聚类类别编号

字段备注全部修改完成后保存并正式发布数据集,确保可视化工作表可正常调用。

3.2.3 制作工作表

进入工作表创建页面,新建专属分析分组

在分组内依次创建多张不同维度的散点分析工作表

选用探索器图表样式完成数据可视化展示:

1、搭建迟到次数 & 早退次数聚类分布分析表      

自动跳转到工作表设计页面,点击右上角“好的,我知道了”来关闭提醒

数据集选择刚刚创建的“聚类簇编号数据集”

图表类型选择“探索器”

将字段“late_count(迟到次数)”拖拽到X轴,“early_leave_count(早退次数)”拖拽到Y轴

点击图形设置按钮,打开设置面板

在设置面板中,点击颜色区域的“+”,在下拉框中选择“Cluster(聚类簇编号)”,并点击“确认”

将“student_id(学生ID)”设置为“维度”

系统默认限额为2000条数据,因此,需要将限额设置为100%,避免数据过多不显示全部

为了区分更明显,可以设置聚类簇编号的颜色,点击颜色区域的设置按钮,切换对比强烈的主题

颜色设置后需要点击一下颜色区域外的地方才会生效

点击保存按钮,保存并发布工作表

其他所有工作表统一配置:横轴、纵轴分别对应两类考勤行为数据,以聚类类别编号作为数据区分颜色,添加学生 ID 作为明细查看维度,取消数据展示条数限制,保证全量学生数据完整呈现,同时自定义聚类标签展示颜色,提升图表区分度,所有工作表全部保存发布。

2、搭建迟到次数 & 请假次数聚类分布分析表

3、搭建迟到次数 & 没穿校服次数聚类分布分析表

4、搭建早退次数 & 请假次数聚类分布分析表

5、搭建早退次数 & 没穿校服次数聚类分布分析表

6、搭建请假次数 & 没穿校服次数聚类分布分析表

3.2.4 搭建仪表盘

在助睿 BI 平台内新建综合数据分析仪表盘

录入仪表盘名称与实验备注信息

首先拖拽文本标题组件

设置标题文字、字体大小、样式格式并固定组件位置,作为仪表盘总标题。

随后将前期制作完成的六张不同维度聚类分析工作表,统一拖拽添加至仪表盘画布内,自由调整各图表摆放布局、展示尺寸,完成多维度考勤聚类分析图表整合。

最后保存并发布整体仪表盘,实现一键全景查看所有聚类分布规律。

3.2.5 聚类群体画像解读

结合六组双维度考勤数据散点分布特征,对系统自动生成的三类聚类标签完成业务含义转化,精准划分三类学生考勤群体:

  1. C1 类别:自律模范型学生,各类考勤违规行为发生次数整体偏低,出勤作息规范,纪律观念较强,几乎无迟到、早退、无故请假与校服违规行为,是校园考勤优秀标杆群体。
  2. C2 类别:轻微波动型学生,日常整体考勤状态良好,迟到早退行为极少出现,仅存在偶尔请假、忘记穿戴校服等轻微违纪行为,整体纪律状态稳定,仅需日常简单提醒即可规范行为。
  3. C3 类别:纪律薄弱高危型学生,多项考勤违规行为频次偏高,普遍存在高频迟到现象,同时叠加早退、频繁请假、校服违规等多项问题,违纪行为较为突出,是校园日常管理重点关注与重点引导群体。

3.3 将映射结果加入学生考勤主题标签表

3.3.1 新增扩展字段

进入助睿 ETL 数据集成处理平台,调取前期制作完成的学生考勤数据处理项目,新建专属数据转换流程

在流程内添加 SQL 脚本执行组件

配置团队私有数据库连接,执行数据表新增字段语句,在 student_attendance_stats 原始考勤统计表中新增cluster 聚类编号attendance_group 考勤群体类别两个拓展字段,用于存储聚类分析结果。

3.3.2 聚类簇编号数据获取

在全新转换流程内添加表输入组件,读取数据库中已存储的 student_cluster 聚类结果数据表

再接入字段筛选组件,仅保留学生编号、聚类类别两大核心关键字段

剔除冗余无用字段

同时统一调整字段数据格式,与原始考勤数据表字段格式保持一致,避免后续数据更新报错。

3.3.3 完成聚类编号与中文类别值映射

添加字段值映射转换组件

以聚类编号字段为映射依据,建立编号与中文考勤群体名称对应关系:将 C1 映射为自律模范型、C2 映射为轻微波动型、C3 映射为纪律高危型,实现机器编码自动转为通俗易懂的中文行为标签。

3.3.4 执行数据表字段数据更新

在流程末端添加数据更新组件

选定目标更新数据表为 student_attendance_stats     

设置匹配关联条件为学生唯一编号,设定字段更新规则,将聚类编号、中文考勤群体分类两大标签,同步更新至原始学生考勤统计表对应新增字段内。

3.3.5 运行流程核验最终实验数据

完整启动标签更新数据转换流程,查看流程运行日志确认数据更新条数与运行状况

流程执行完毕后进入数据库数据探查页面,打开原始学生考勤统计表,核验新增的聚类编号、考勤群体分类字段已全部成功填入对应数据,标志本次实验全流程操作全部完成。

4 实验结果

4.1 聚类分群结果

本次实验选定迟到次数、早退次数、请假次数、校服违规次数4 项核心考勤指标,设置 K=3 完成 K-Means 聚类,成功将全体学生划分为三类特征鲜明的考勤群体:
自律模范型学生:各类考勤违规次数趋近于 0,出勤秩序规范,整体纪律表现最优,占整体学生比重最大;
轻微波动型学生:无高频迟到早退行为,仅存在偶尔请假、未按规定穿着校服等轻微违纪行为,整体考勤状态稳定;
纪律高危型学生:多项考勤违规行为叠加出现,迟到、早退现象频发,是校园考勤管理中问题最突出的群体。

4.2 可视化分析结果

依托助睿 BI 平台搭建 6 组两两考勤指标散点分析图,搭配整合式聚类分析仪表盘,实现聚类群体分布可视化呈现。通过不同颜色区分三大聚类簇,直观观测到三类学生在各项考勤行为上的分布差异,完成纯机器聚类编号向业务化学生行为画像的转化,聚类划分结果辨识度高、贴合校园实际管理场景。

5 问题与解决

问题:助睿 BI 探索器散点图默认数据展示限额,大量学生数据无法完整展示,聚类分布查看不全面
解决:在图表配置界面将数据展示限额调整为 100%,解除数据条数限制,完整渲染所有学生聚类分布数据

6 实验总结

本次实验本次实验基于学生考勤次数数据,运用 K-Means 聚类算法实现了学生考勤群体的自动划分。通过聚焦于次数特征进行建模,有效保障了聚类结果的稳定性和可解释性。借助助睿 BI 平台的可视化分析能力,我们将机器生成的聚类簇赋予了清晰的业务含义,精准识别出“自律模范型”、“轻微波动型”和“纪律高危型”三类特征鲜明的学生群体。最终,实验成功将聚类标签回写至原始考勤表,完成了考勤主题扩展标签的构建,为校园学生的精细化管理、行为干预以及个性化教育策略的制定,提供了坚实可靠的数据支撑。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐