一、实验说明​

1.1 实验目的​

本次实验依托已生成的学生考勤主题标签表(student_attendance_stats),运用K-Means 聚类算法对学生考勤行为开展自动化分群。以迟到、早退、请假、校服违规次数为核心分析指标,精准识别不同考勤特征的学生群体,构建直观易懂的考勤用户画像,为校园日常管理、学生行为分析与针对性教育引导提供数据依据。

1.2 实验环境​

本次实验全程在助睿数智(Uniplore)在线实验平台完成,该平台是 AI 驱动的一站式数据科学平台,支持数据接入、ETL 处理、机器学习建模、可视化展示全流程零代码操作。

·核心使用模块:数据集成平台(助睿 ETL)、人工智能平台(助睿 AI)、助睿 BI 数据可视化探索平台

·数据库:MySQL

·基础数据:学生考勤主题标签表(student_attendance_stats)

二、实验数据​

2.1 数据构成​

实验采用上一阶段产出的学生考勤主题标签表,整合学生基础信息与各类考勤行为统计数据,数据经过清洗与标准化处理,可直接用于聚类模型训练。

2.2 字段说明​

名称 说明 类型
id 自增主键 连续(整数)
student_id 学生 ID 连续(整数)
student_name 学生姓名 文本
class_id 班级 ID 连续(整数)
class_name 班级名称 文本
grade 年级 文本 / 分类
gender 性别 二分类
birth_date 出生日期 文本 / 日期
political_status 政治面貌 文本 / 分类
is_boarder 是否住校 二分类
campus_type 校区类型 文本 / 分类
late_count 迟到次数 连续(整数)
early_leave_count 早退次数 连续(整数)
leave_count 请假次数 连续(整数)
uniform_violate_count 没穿校服次数 连续(整数)
create_time 统计入库时间 日期时间

2.3 建模思路

本次建模聚焦考勤行为核心指标,选取迟到、早退、请假、校服违规 4 个独立维度作为聚类特征,各指标业务含义清晰、相关性低,无需额外降维处理,适配 K-Means 算法对数据的要求。

所有建模指标均为非负整数型连续变量,无需哑变量编码、二值化等复杂转换,可直接输入模型,简化数据预处理流程,保障聚类结果稳定。学生性别、年级、住校状态等基础属性不参与建模,仅用于后续画像辅助解读。

三、实验步骤

AI Studio 是零代码可视化机器学习平台,支持数据加载、预处理、模型训练、结果输出全流程操作,本次通过拖拽组件完成聚类建模。

3.1 AI Studio 聚类建模​

3.1.1 新建工作流

点击左侧菜单栏「人工智能」进入 AI Studio 平台,在用户空间点击「+」→「新建工作流」,搭建数据加载至结果输出的完整建模流程,为实验提供独立运行环境。

3.1.2 数据导入

拖拽「数据库加载」组件至画布,双击配置数据库连接信息,连接团队私有 MySQL 数据库,选择数据表student_attendance_stats。仅保留student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count关键字段,其余字段设置为跳过(skip),并配置对应字段属性,运行组件后可查看输出数据。

字段对应的属性类型参考如下:

属性名称 属性类型 属性名称 属性类型
id skip political_status skip
student_id categorical is_boarder skip
student_name skip campus_type skip
class_id categorical late_count numeric
class_name skip early_leave_count numeric
grade skip leave_count numeric
gender skip uniform_violate_count numeric
birth_date skip create_time skip

3.1.3 K-Means 聚类建模

拖拽「K-Means」组件,与「数据库加载」组件建立连接,双击配置参数,设置聚类簇数量为3,其余参数保持默认,运行组件后,输出结果会为每位学生标注所属聚类簇(C1/C2/C3)。

3.1.4 结果输出与保存

拖拽「数据入库」组件,与 K-Means 组件连接,配置数据库信息,新建数据表student_cluster,运行工作流完成聚类结果的数据库存储。

3.2 分析聚类簇编号对应的考勤群体分类​

通过助睿 BI 平台对聚类簇数据进行可视化展示,明确各聚类簇对应的学生考勤群体特征。

3.2.1 连接数据源

进入助睿 BI 平台,点击「数据源」→「+」→「新建连接」→「MySQL」,输入团队私有数据库账号信息,测试连接成功后完成数据源配置。

点击新建的数据库目录,可以看到本次实验所用的学生考勤主题标签表(右键点击-查看表数据,可以预览表内数据)。

3.2.2 构建数据集

点击「数据集」→「+」→「新建数据集」,命名后选择已配置的数据源,关联student_cluster数据表,将所有英文字段备注修改为中文(如 student_id 改为学生 ID、Cluster 改为聚类簇编号),保存并发布数据集。

3.2.3 制作工作表

新建分组用于分类管理工作表,在分组内创建多张工作表,分别分析迟到 - 早退、迟到 - 请假、迟到 - 校服违规、早退 - 请假、早退 - 校服违规、请假 - 校服违规6 组指标的聚类分布。将对应指标拖拽至 X 轴、Y 轴,以「聚类簇编号」区分颜色,设置数据展示限额为 100%,清晰呈现不同聚类簇的行为分布特征,完成后保存并发布工作表。

右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”,在操作列表中点击“新建工作表”,在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”,自动跳转到工作表设计页面,点击右上角“好的,我知道了”来关闭提醒,数据集选择刚刚创建的“聚类簇编号数据集”,图表类型选择“探索器”,将字段“late_count(迟到次数)”拖拽到X轴,“early_leave_count(早退次数)”拖拽到Y轴。

点击图形设置按钮,打开设置面板,在设置面板中,点击颜色区域的“+”,在下拉框中选择“Cluster(聚类簇编号)”,并点击“确认”,点击信息区域的“+”,在下拉框中选择“student_id(学生ID)”,并点击“确认”,将“student_id(学生ID)”设置为“维度”,系统默认限额为2000条数据,因此,需要将限额设置为100%,避免数据过多不显示全部。

为了区分更明显,我们可以设置聚类簇编号的颜色,点击颜色区域的设置按钮,切换对比强烈的主题,颜色设置后需要点击一下颜色区域外的地方才会生效,点击保存按钮,保存并发布工作表。

同样的,重新新建工作表,依次两两分析4个异常考勤次数的3个聚类簇的表现情况

迟到与请假次数的聚类簇分析:

迟到与没穿校服次数的聚类簇分析:

早退与请假次数的聚类簇分析:

早退与没穿校服次数的聚类簇分析:

请假与没穿校服次数的聚类簇分析:

3.2.4 搭建仪表盘

点击「仪表盘」→「新建仪表盘」,命名为「聚类簇分析」,添加标题文本组件,将 6 张可视化工作表拖拽至画布,调整布局与大小,保存并发布仪表盘,实现聚类结果一站式查看。

3.2.5 聚类群体画像解读

结合可视化分布特征,为 3 个聚类簇赋予业务化标签,完成从机器编号到学生画像的转化:

聚类簇编号 颜色 群体类型 核心行为特征
C1 蓝色 自律模范型 所有异常考勤次数均处于极低水平,出勤稳定,纪律意识强
C2 青色 轻微波动型 迟到、早退次数极少,仅偶发请假或校服违规,整体纪律表现良好
C3 黄色 纪律高危型 多类异常考勤次数偏高,存在高频违纪行为,是重点关注干预对象

3.3 将映射结果加入学生考勤主题标签表​

将聚类结果与群体分类标签添加至原始学生考勤主题标签表,完成扩展标签构建。

3.3.1 新增扩展字段

进入数据集成平台 ETL 项目,新建转换流,通过「执行 SQL 脚本」组件,在student_attendance_stats表中新增cluster(聚类簇编号)和attendance_group(考勤群体分类)两个字段。

进入上一个实验在数据集成平台中创建的ETL项目,新建转换流“增加考勤主题扩展标签字段”,拖拽并“”组件到画布中,双击“执行一个SQL脚本”组件,在配置窗口中,数据库连接“团队私有数据库_hyl”,输入SQL脚本后点击:“确认”,执行转换流:

3.3.2 聚类簇编号数据获取

新建转换流,通过「表输入」组件读取student_cluster表的全部数据,获取聚类簇编号信息。

3.3.3 字段选择

使用「字段选择」组件,仅保留student_id、Cluster关键字段,调整字段类型为 Integer,与原始表格式保持一致。

3.3.4 聚类簇编号映射

通过「值映射」组件,将聚类簇编号转换为中文群体名称:C1→自律模范型、C2→轻微波动型、C3→纪律高危型,生成attendance_group字段。

3.3.5 更新学生考勤主题标签

拖拽「更新」组件,以student_id、class_id为匹配关键字,将聚类簇编号与群体分类标签更新至student_attendance_stats表中。

3.3.6 运行转换流

执行完整转换流,日志显示数据处理完成后,通过数据探查功能查看表数据,确认扩展标签已成功写入。

3.3.7 查看结果

切换“元数据”选项,右键“团队私有数据库”,点击“加载元数据”,加载成功后点击“数据探查”,在团队私有数据库中点击 student_attendance_stats ,在点击“查询”,可以看到 cluster、attendance_group的数据已经更新成功了。

四、实验总结

本次实验以学生考勤统计数据为基础,借助 K-Means 聚类算法实现学生考勤群体的智能划分,依托助睿 BI 可视化平台完成聚类结果的业务解读,精准划分出自律模范型、轻微波动型、纪律高危型三类学生。最终将聚类标签回写至原始考勤表,完成考勤主题扩展标签的构建,为校园学生精细化管理、个性化行为干预提供了科学、精准的数据支撑。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐