学生用户画像 - 考勤主题扩展标签构建

2301_80054842

868人浏览 · 2026-05-20 21:07:01

2301_80054842 · 2026-05-20 21:07:01 发布

1 实验概述

1.1 实验目的

基于已完成的学生考勤主题标签表（student_attendance_stats），使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标，识别不同类型的考勤群体，生成可解释的考勤画像，为校园学生管理、行为分析提供精准数据支撑。

1.2 实验环境

本次实验全程依托助睿数智 Uniplore 一站式数据科学实验平台开展，平台网址：https://lab.guilan.cn/，整合数据处理、算法建模、可视化分析全流程零代码操作能力。本次实验所使用平台模块：助睿 ETL 数据集成工具、Uniplore 人工智能建模平台、助睿 BI 可视化分析平台底层存储数据库：MySQL 数据库实验基础数据源：已清洗标准化的学生考勤统计标签表 student_attendance_stats

2 实验数据

2.1 数据来源

本次实验使用上一实验输出的学生考勤主题标签表，数据包含学生基础信息与考勤次数统计结果，为聚类建模提供干净、标准化的特征数据。

2.2 字段说明

字段名称	字段释义	数据类型
id	数据表自增主键	整型连续字段
student_id	学生唯一编号	整型连续字段
student_name	学生姓名	文本字符字段
class_id	班级编号	整型连续字段
class_name	班级名称	文本字符字段
grade	就读年级	分类字段
gender	学生性别	二分类字段
birth_date	学生出生日期	日期文本字段
political_status	学生政治面貌	分类字段
is_boarder	是否住校生	二分类字段
campus_type	就读校区类型	分类字段
late_count	学生迟到总次数	整型数值字段
early_leave_count	学生早退总次数	整型数值字段
leave_count	学生请假总次数	整型数值字段
uniform_violate_count	校服违规次数	整型数值字段
create_time	数据统计录入时间	日期时间字段

2.3 建模思路

本次聚类实验遵循业务优先、精简建模、结果落地三大原则开展数据分析工作。

特征筛选：剔除姓名、年级、性别、住校状态等学生基础属性字段，仅保留迟到次数、早退次数、请假次数、校服违规次数四类行为数值特征作为聚类核心变量，特征之间业务独立、无高度冗余，适配聚类分析业务逻辑。
模型适配：四大考勤统计次数均为非负连续数值型数据，完全契合 K-Means 聚类算法输入要求，无需进行数据归一化编码、离散化转换等复杂预处理，简化建模流程，保障聚类结果稳定有效。
结果应用：基础个人信息字段不参与模型训练，仅在聚类完成后作为辅助标签，用于完善学生考勤群体画像；最终完成聚类分类结果回写原始数据表，实现数据标签扩充，完成全流程数据分析落地。

3 实验步骤

3.1 AI Studio 聚类建模

3.1.1 新建工作流

登录助睿数智实验平台后，在左侧功能菜单栏点击人工智能模块，进入 AI 智能建模操作界面

在个人实验空间内点击新建按钮，创建空白自定义工作流

人工智能模块页面是集构建、运行、编辑、查看于一体的工作区域。在该模块页面中，主要包括三个模块，分别是菜单栏，控件列表以及画布（用于工作流构建）。如下图所示：

3.1.2 数据导入

首先，我们需要将 student_attendance_stats 的数据载入，搜索“数据库加载”控件，拖拽至画布。

双击组件进入参数配置页面，填写团队专属 MySQL 数据库连接账号、端口、密码等信息，完成数据库连通校验。

数据库连接成功后，选中本次实验所需学生考勤统计表 student_attendance_stats

选择后会自动加载表信息，我们主要是分析各类异常考勤占比的特征，所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count，其他字段跳过（skip）；为保留的字段选择对应的属性类型，最后点击“确定”

右键数据库加载空间，点击“运行该控件”

运行无误后查看预览已筛选完成的标准化实验数据，确认数据无误后进入下一步建模操作。

3.1.3 K-Means 聚类建模

拖入“K-Means”组件，创建数据库加载组件到“K-Means”组件的连线

双击打开 K-Means 算法配置面板，结合校园考勤管理实际业务需求，固定聚类划分数量为 3 类，其余算法默认参数保持不变，无需额外调整。

参数配置完毕后右键启动聚类模型运行任务

模型运行结束后即可查看实验结果，系统自动为每一位学生数据分配唯一聚类标签 C1、C2、C3，完成学生自动分群。

3.1.4 结果输出与保存

聚类后的数据我们需要保存到数据库中，以便后续使用

拖拽“数据入库”组件到画布，创建“K-Means”组件到“数据入库”组件的连线

连通聚类算法组件与数据入库组件

双击数据入库组件配置数据库连接信息

选择新建数据表模式，自定义数据表名称为 student_cluster，确定数据表字段结构与聚类输出字段保持一致。

完整运行整套工作流，待所有组件全部显示运行成功，代表学生考勤数据聚类分群结果已成功持久化存入数据库，完成建模阶段全部操作。

3.2 分析聚类簇编号对应的考勤群体分类

3.2.1 可视化平台绑定业务数据源

退出人工智能建模模块，点击左侧菜单栏进入助睿 BI 数据可视化分析平台

在数据源管理页面点击新建连接，选择 MySQL 数据库连接类型

录入团队统一数据库登录信息，完成数据库连通测试

连通成功后即可读取库内所有业务数据表，可提前预览 student_cluster 聚类结果表数据内容

3.2.2 构建数据集

进入数据集创建页面，自定义数据集名称与分组归属

选定刚刚绑定完成的 MySQL 数据源，找到聚类结果数据表 student_cluster 并添加至数据集编辑画布。

统一修改数据表内英文字段为中文备注名称，依次将 student_id 改为学生 ID、late_count 改为迟到次数、early_leave_count 改为早退次数、leave_count 改为请假次数、uniform_violate_count 改为校服违规次数、Cluster 改为聚类类别编号

字段备注全部修改完成后保存并正式发布数据集，确保可视化工作表可正常调用。

3.2.3 制作工作表

进入工作表创建页面，新建专属分析分组

在分组内依次创建多张不同维度的散点分析工作表

选用探索器图表样式完成数据可视化展示：

1、搭建迟到次数 & 早退次数聚类分布分析表

自动跳转到工作表设计页面，点击右上角“好的，我知道了”来关闭提醒

数据集选择刚刚创建的“聚类簇编号数据集”

图表类型选择“探索器”

将字段“late_count（迟到次数）”拖拽到X轴，“early_leave_count（早退次数）”拖拽到Y轴

点击图形设置按钮，打开设置面板

在设置面板中，点击颜色区域的“+”，在下拉框中选择“Cluster（聚类簇编号）”，并点击“确认”

将“student_id（学生ID）”设置为“维度”

系统默认限额为2000条数据，因此，需要将限额设置为100%，避免数据过多不显示全部

为了区分更明显，可以设置聚类簇编号的颜色，点击颜色区域的设置按钮，切换对比强烈的主题

颜色设置后需要点击一下颜色区域外的地方才会生效

点击保存按钮，保存并发布工作表

其他所有工作表统一配置：横轴、纵轴分别对应两类考勤行为数据，以聚类类别编号作为数据区分颜色，添加学生 ID 作为明细查看维度，取消数据展示条数限制，保证全量学生数据完整呈现，同时自定义聚类标签展示颜色，提升图表区分度，所有工作表全部保存发布。

2、搭建迟到次数 & 请假次数聚类分布分析表

3、搭建迟到次数 & 没穿校服次数聚类分布分析表

4、搭建早退次数 & 请假次数聚类分布分析表

5、搭建早退次数 & 没穿校服次数聚类分布分析表

6、搭建请假次数 & 没穿校服次数聚类分布分析表

3.2.4 搭建仪表盘

在助睿 BI 平台内新建综合数据分析仪表盘

录入仪表盘名称与实验备注信息

首先拖拽文本标题组件

设置标题文字、字体大小、样式格式并固定组件位置，作为仪表盘总标题。

随后将前期制作完成的六张不同维度聚类分析工作表，统一拖拽添加至仪表盘画布内，自由调整各图表摆放布局、展示尺寸，完成多维度考勤聚类分析图表整合。

最后保存并发布整体仪表盘，实现一键全景查看所有聚类分布规律。

3.2.5 聚类群体画像解读

结合六组双维度考勤数据散点分布特征，对系统自动生成的三类聚类标签完成业务含义转化，精准划分三类学生考勤群体：

C1 类别：自律模范型学生，各类考勤违规行为发生次数整体偏低，出勤作息规范，纪律观念较强，几乎无迟到、早退、无故请假与校服违规行为，是校园考勤优秀标杆群体。
C2 类别：轻微波动型学生，日常整体考勤状态良好，迟到早退行为极少出现，仅存在偶尔请假、忘记穿戴校服等轻微违纪行为，整体纪律状态稳定，仅需日常简单提醒即可规范行为。
C3 类别：纪律薄弱高危型学生，多项考勤违规行为频次偏高，普遍存在高频迟到现象，同时叠加早退、频繁请假、校服违规等多项问题，违纪行为较为突出，是校园日常管理重点关注与重点引导群体。

3.3 将映射结果加入学生考勤主题标签表

3.3.1 新增扩展字段

进入助睿 ETL 数据集成处理平台，调取前期制作完成的学生考勤数据处理项目，新建专属数据转换流程

在流程内添加 SQL 脚本执行组件

配置团队私有数据库连接，执行数据表新增字段语句，在 student_attendance_stats 原始考勤统计表中新增cluster 聚类编号、attendance_group 考勤群体类别两个拓展字段，用于存储聚类分析结果。

3.3.2 聚类簇编号数据获取

在全新转换流程内添加表输入组件，读取数据库中已存储的 student_cluster 聚类结果数据表

再接入字段筛选组件，仅保留学生编号、聚类类别两大核心关键字段

剔除冗余无用字段

同时统一调整字段数据格式，与原始考勤数据表字段格式保持一致，避免后续数据更新报错。

3.3.3 完成聚类编号与中文类别值映射

添加字段值映射转换组件

以聚类编号字段为映射依据，建立编号与中文考勤群体名称对应关系：将 C1 映射为自律模范型、C2 映射为轻微波动型、C3 映射为纪律高危型，实现机器编码自动转为通俗易懂的中文行为标签。

3.3.4 执行数据表字段数据更新

在流程末端添加数据更新组件

选定目标更新数据表为 student_attendance_stats

设置匹配关联条件为学生唯一编号，设定字段更新规则，将聚类编号、中文考勤群体分类两大标签，同步更新至原始学生考勤统计表对应新增字段内。

3.3.5 运行流程核验最终实验数据

完整启动标签更新数据转换流程，查看流程运行日志确认数据更新条数与运行状况

流程执行完毕后进入数据库数据探查页面，打开原始学生考勤统计表，核验新增的聚类编号、考勤群体分类字段已全部成功填入对应数据，标志本次实验全流程操作全部完成。

4 实验结果

4.1 聚类分群结果

本次实验选定迟到次数、早退次数、请假次数、校服违规次数4 项核心考勤指标，设置 K=3 完成 K-Means 聚类，成功将全体学生划分为三类特征鲜明的考勤群体：
自律模范型学生：各类考勤违规次数趋近于 0，出勤秩序规范，整体纪律表现最优，占整体学生比重最大；
轻微波动型学生：无高频迟到早退行为，仅存在偶尔请假、未按规定穿着校服等轻微违纪行为，整体考勤状态稳定；
纪律高危型学生：多项考勤违规行为叠加出现，迟到、早退现象频发，是校园考勤管理中问题最突出的群体。

4.2 可视化分析结果

依托助睿 BI 平台搭建 6 组两两考勤指标散点分析图，搭配整合式聚类分析仪表盘，实现聚类群体分布可视化呈现。通过不同颜色区分三大聚类簇，直观观测到三类学生在各项考勤行为上的分布差异，完成纯机器聚类编号向业务化学生行为画像的转化，聚类划分结果辨识度高、贴合校园实际管理场景。

5 问题与解决

问题：助睿 BI 探索器散点图默认数据展示限额，大量学生数据无法完整展示，聚类分布查看不全面
解决：在图表配置界面将数据展示限额调整为 100%，解除数据条数限制，完整渲染所有学生聚类分布数据

6 实验总结

本次实验本次实验基于学生考勤次数数据，运用 K-Means 聚类算法实现了学生考勤群体的自动划分。通过聚焦于次数特征进行建模，有效保障了聚类结果的稳定性和可解释性。借助助睿 BI 平台的可视化分析能力，我们将机器生成的聚类簇赋予了清晰的业务含义，精准识别出“自律模范型”、“轻微波动型”和“纪律高危型”三类特征鲜明的学生群体。最终，实验成功将聚类标签回写至原始考勤表，完成了考勤主题扩展标签的构建，为校园学生的精细化管理、行为干预以及个性化教育策略的制定，提供了坚实可靠的数据支撑。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

关于通过Harness Engineering 来规范vibecoding的代码规范

尽可能详细的写出规定，以及所期望的风格，如果在团队工作中还会有团队制定好的使用规范，这个使用规范也属于约束层的部分。但是如果只写文档是不够的，文章中提到了“仅靠文档本身，是没法保持完全由智能体生成的代码库的连贯性的。之前我的想法很简单，设置一个rules，写一个.md文档，然后交付的时候通过diff来review。最后，根据文章中提到的，对于ai的约束尽量少采用微观管理，即告诉ai我只要结果，过程

AtomGit开源社区

2026年了，你的Mac剪贴板还在只存一条记录？

OneClip：Mac上最强的剪贴板管理工具 Mac原生剪贴板只能保存一条内容，严重影响效率。作者测试了10款剪贴板工具后，最终选择OneClip。它具备栈粘贴板、快速粘贴面板、拖拽容器等高效功能，支持全格式内容和AI能力（OCR、翻译、代码解释），数据完全本地处理保障隐私。相比其他工具，OneClip功能全面、体验流畅、定价合理（免费版够用，终身买断制）。支持程序员、设计师、内容创作者等多场景