从数据到画像:一套完整的校园考勤智能分群方案(实验3)
一、实验概述
1.1 实验目标
在前序实验已构建完成的学生考勤主题标签表(student_attendance_stats)基础上,运用 K-Means 聚类算法对学生的日常考勤行为开展自动化分群处理。以迟到、早退、请假及校服违规次数等关键行为指标作为聚类特征,挖掘并识别不同考勤行为模式下的学生群体类型,输出具备业务可解释性的考勤画像标签,从而为校园学生行为管理与精细化分析提供数据层面的决策依据。
1.2 实验环境
本实验依托助睿数智(Uniplore)在线实验平台开展,平台地址为:https://lab.guilan.cn/。助睿数智(Uniplore)是一款以 AI 技术为驱动的全流程数据科学平台,涵盖数据接入、ETL 清洗加工、机器学习建模及可视化呈现等完整环节,支持零代码拖拽式操作,产品官网为 https://www.uniplore.com/。
本次实验涉及的主要功能模块如下:
- 数据集成平台(助睿 ETL)
- 人工智能平台(助睿 AI)
- 助睿 BI 数据可视化探索平台
- 数据库:MySQL
- 前置数据:学生考勤主题标签表(student_attendance_stats)
二、实验数据说明
2.1 数据来源
本实验所使用的数据来源于上一实验产出的学生考勤主题标签表。该表整合了学生的基本信息与各类考勤异常行为的次数统计结果,能够为聚类模型的训练提供规范化、可直接使用的特征输入。
2.2 字段定义
| 字段名称 | 含义说明 | 数据类型 |
|---|---|---|
| id | 自增主键 | 连续(整数) |
| student_id | 学生编号 | 连续(整数) |
| student_name | 学生姓名 | 文本 |
| class_id | 班级编号 | 连续(整数) |
| class_name | 班级名称 | 文本 |
| grade | 年级 | 文本 / 分类 |
| gender | 性别 | 二分类 |
| birth_date | 出生日期 | 文本 / 日期 |
| political_status | 政治面貌 | 文本 / 分类 |
| is_boarder | 是否住校 | 二分类 |
| campus_type | 校区类型 | 文本 / 分类 |
| late_count | 迟到次数 | 连续(整数) |
| early_leave_count | 早退次数 | 连续(整数) |
| leave_count | 请假次数 | 连续(整数) |
| uniform_violate_count | 未穿校服次数 | 连续(整数) |
| create_time | 数据入库时间 | 日期时间 |
2.3 建模分析思路
通过对原始数据结构的审视以及考勤分群的实际业务需求,明确本次建模的整体思路如下:
-
特征聚焦: 数据维度清晰明了,变量规模适中,核心分析指标锁定在迟到次数、早退次数、请假次数、未穿校服次数四项行为维度上。每一维度均能独立反映一类考勤特征,变量之间的业务语义彼此独立、相关性较低,可直接输入 K-Means 模型,无需额外降维处理,避免变量冗余对模型解释性造成干扰。
-
数据类型适配: 所选用的考勤次数指标均为非负整数,属于典型的连续型数值变量,完全符合 K-Means 算法对输入数据类型的要求,无需执行独热编码、二值化等额外转换步骤,能够简化数据预处理环节,保障聚类结果的稳定性和可靠性。
-
辅助变量定位: 学生的基础离散属性(如性别、年级、住校状态等)不纳入聚类建模过程,仅在后续画像解读阶段作为辅助分析标签使用。
三、实验操作步骤
人工智能平台(AI Studio)是集数据加载、预处理、特征工程、模型训练与效果评估于一体的大数据智能分析平台。平台采用零代码拖拽式交互方式,内置超过 100 种数据挖掘算法组件,兼容主流深度学习框架,同时提供可视化建模、智能一键分析、协作共享及版本管控等能力,即便不具备深厚的编程基础,也能高效完成数据价值的挖掘与智能化分析任务。
3.1 AI Studio 聚类建模
3.1.1 创建工作流
本环节通过 AI Studio 搭建从数据加载到聚类建模再到结果输出的完整流水线,为后续建模任务提供独立的运行空间。
操作步骤:点击左侧导航栏中的"人工智能"选项,进入 AI Studio 平台界面。
点击界面中的"+“按钮,选择"新建工作流”。
AI Studio 的工作页面主要由三大区域组成:顶部菜单栏、左侧控件列表、中央画布区域(用于拖拽搭建工作流)。
3.1.2 加载数据
首先需要将 student_attendance_stats 表中的数据引入工作流。在左侧控件列表中搜索"数据库加载"控件,将其拖放至画布区域。
双击该控件,右侧弹出参数配置面板,将团队私有数据库的连接信息依次填入,然后点击"连接"按钮。
在弹出的数据表选择窗口中,展开下拉列表,选中 student_attendance_stats 表。
系统会自动加载该表的字段信息。由于本次建模聚焦于各类考勤异常行为的次数特征,因此仅保留 student_id、class_id、late_count、early_leave_count、leave_count、uniform_violate_count 这六个字段,其余字段设置为跳过(skip)。同时为保留的字段选定正确的属性类型,最后点击"确定"。
各字段属性类型设置参照如下:
| 字段名 | 属性类型 | 字段名 | 属性类型 |
|---|---|---|---|
| id | skip | political_status | skip |
| student_id | categorical | is_boarder | skip |
| student_name | skip | campus_type | skip |
| class_id | categorical | late_count | numeric |
| class_name | skip | early_leave_count | numeric |
| grade | skip | leave_count | numeric |
| gender | skip | uniform_violate_count | numeric |
| birth_date | skip | create_time | skip |
在"数据库加载"控件上右键,选择"运行该控件"。
运行完成后,再次右键点击"查看输出结果",确认保留下来的数据字段正确。
3.1.3 K-Means 聚类建模
从控件列表中拖入"K-Means"组件至画布,并从"数据库加载"组件向"K-Means"组件建立连线。
双击"K-Means"组件打开配置面板,将簇的数量设定为固定值 3,其余参数维持默认即可。
右键运行该组件,待执行完毕后查看输出结果。可以观察到每位学生已被标注了所属的聚类簇标签,分别为 C1、C2、C3。
📷 【截图位置】 聚类结果输出(学生与簇编号对应关系)
3.1.4 结果持久化保存
完成聚类运算后,需要将带有聚类标签的数据写入数据库,以便后续环节调用和分析。
从控件列表中拖拽"数据入库"组件至画布,并从"K-Means"组件向其创建连线。
双击"数据入库"组件,在弹出的配置面板中输入团队私有数据库的连接参数,然后点击"获取表信息"。
在弹出窗口中选择"新建数据表",将表名修改为"student_cluster",确认创建。
点击运行整个工作流,当全部控件均显示运行成功时,表明工作流执行完毕。
3.2 聚类簇编号与考勤群体分类的映射分析
前一步骤输出的聚类簇编号尚未与具体的考勤群体类别建立对应关系,需要借助助睿 BI 平台的可视化分析能力来进行判定。
点击实验平台左侧菜单中的"助睿BI",进入可视化分析平台。
进入 BI 平台首页后,可查看当前账户下的数据概况、分析处理流程及所支持的数据源类型等信息。若页面跳转至登录界面,可关闭后从实验平台重新进入。
3.2.1 配置数据源连接
上一步输出的 student_cluster 表存储在团队私有数据库中,因此需要先在助睿 BI 平台中建立对应的数据库连接。
点击左侧菜单栏中的"数据源"选项。
点击左上角"+“按钮,依次选择"新建连接”→“MySQL”。
在弹出的连接配置窗口中,填入所在小组在 Uniplore 实验平台的数据库账号信息,点击"测试连接"。
当提示"测试连接成功"后,说明配置无误,点击"确认"完成创建。
点击新创建的数据库目录,即可看到本次实验所使用的数据表(右键点击表名选择"查看表数据"可进行数据预览)。
3.2.2 创建数据集
数据源连接就绪后,需要将待分析的数据表封装为数据集。
点击左侧菜单中的"数据集"选项。
点击左上角"+“按钮,选择"新建数据集”。
在弹窗中填入数据集名称、所属分组以及备注说明,点击"确认"。
创建成功后系统自动跳转至数据集配置页面。首先需要指定数据源,平台会弹出提示引导,点击"好的,我知道了"关闭。
在数据源配置区域,第一个下拉框选择刚才创建的数据源连接,第二个下拉框选择 student_cluster 所在的数据库目录"labs"。
配置完成后,左侧面板会自动显示该目录下的所有数据表,将 student_cluster 拖拽至画布区域。
查看表结构与数据内容。为方便后续分析操作,逐一为各字段添加中文备注。在 student_id 的字段备注输入框中键入"学生ID",点击"√"保存。
其余字段按照相同方式修改,各字段备注对照如下:
| 原始字段名 | 字段备注 |
|---|---|
| student_id | 学生ID |
| class_id | 班级ID |
| late_count | 迟到次数 |
| early_leave_count | 早退次数 |
| leave_count | 请假次数 |
| uniform_violate_count | 没穿校服次数 |
| Cluster | 聚类簇编号 |
| Silhouette | 轮廓系数 |
全部修改完成后,点击画布左上方的"保存"按钮。
在弹出的提示中选择"保存并发布",因为只有发布后的数据集才可被工作表引用。
3.2.3 制作可视化工作表
工作表是助睿 BI 平台中用于承载图表、进行数据探索分析的核心载体,是实现数据可视化展现的基本单位。
下面开始制作聚类簇对应的考勤群体分类分析工作表。
点击左侧菜单中的"工作表",进入工作表管理模块。
为便于统一管理,先创建一个专属分组。点击左上角"+“按钮,选择"新建分组”。
在弹窗中填写分组名称、选定所属上级分组并添加备注,然后点击"确认"。
右键点击新建分组(或点击分组名称后方的"…"按钮)。
在操作列表中选择"新建工作表"。
在弹窗中将工作表名称填写为"迟到早退次数的聚类簇分析",选择所属分组并填写备注,点击"确认"。
系统自动跳转至工作表设计界面,关闭操作引导提示。
在数据集选择区域,指定之前创建的"聚类簇编号数据集"。
图表类型选择"探索器"。
将"late_count(迟到次数)"字段拖放至 X 轴位置,"early_leave_count(早退次数)"字段拖放至 Y 轴位置。
点击图形设置按钮,展开设置面板。
在颜色区域点击"+“,从下拉列表中选择"Cluster(聚类簇编号)”,点击"确认"。
在信息区域点击"+“,从下拉列表中选择"student_id(学生ID)”,点击"确认"。
将"student_id(学生ID)“的聚合方式切换为"维度”。
平台默认数据展示上限为 2000 条,为确保全部数据均能呈现,需将限额调整为 100%。
为使不同聚类簇之间的视觉区分更为鲜明,可对簇编号的配色方案进行调整。点击颜色区域的设置按钮,切换为对比度更强的配色主题。
注意:颜色修改后需点击面板外部区域方可生效。
点击保存按钮,将工作表保存并发布。
按照同样的流程,分别新建工作表,对四项异常考勤指标进行两两组合的聚类簇分布分析:
迟到与请假次数的聚类簇分析:
迟到与未穿校服次数的聚类簇分析:
早退与请假次数的聚类簇分析:
早退与未穿校服次数的聚类簇分析:
请假与未穿校服次数的聚类簇分析:
3.2.4 组装仪表盘
为了更直观地对比观察上述 6 张工作表的分析结果,可以将它们整合展示在同一个仪表盘中。
点击左侧菜单栏中的"仪表盘"选项。
点击左上角"+“按钮,选择"新建仪表盘”。
在弹窗中填入仪表盘名称"聚类簇分析",备注同样填写"
",点击"确认"。
在右侧面板中切换到"基础组件"标签页。
拖拽一个文本组件到画布上方区域。
在文本组件内输入"聚类簇分析"作为仪表盘标题,并设置字体颜色、字号大小、加粗及居中对齐。
关闭组件编辑窗口。
通过拖动文本组件右下角的控制点来调整组件尺寸。
参照下方示意调整至合适比例。
为防止后续操作中标题位置被误移动,可点击右上角的图钉图标锁定位置。
点击工作表组件展示按钮。
切换到"工作表"标签页,将 3.2.3 节中制作的全部 6 张工作表依次拖入画布。
全部拖入后,通过按住图表顶部居中位置拖动来调整图表位置,并利用边框控制点调整各图表的尺寸与整体布局。
点击保存按钮,将仪表盘保存并发布。
3.2.5 聚类群体画像解读
综合 6 组指标两两交叉的散点图分布情况,可以为 C1、C2、C3 三个聚类簇赋予具有明确业务含义的标签,实现从算法编号到可理解学生画像的语义转化:
-
C1(蓝色 · 自律模范型): 该类学生在迟到、早退、请假及校服违规次数的所有指标组合中,数据点均高度聚集于低频区域,未见显著的离群分布。其考勤表现始终稳定,纪律自觉性强,各项异常行为发生率极低,代表了校园考勤行为的优秀典型。
-
C2(青色 · 轻微波动型): 整体数据分布同样集中在低频区间,但与 C1 相比分布略为分散,存在少量记录显示出轻度的校服违规或请假情况,而迟到、早退次数依然维持在较低水平。此类学生总体纪律状况可控,仅偶尔出现轻微的考勤波动,属于日常需适当关注提醒的对象。
-
C3(黄色 · 纪律高危型): 数据点表现出明显的离群分散特征。在迟到次数与其他指标的交叉图中,出现了大量处于高频区间的迟到记录,同时伴随程度不等的早退、请假或校服违规行为,是唯一呈现多维度违纪行为叠加现象的群体。此类学生考勤问题较为突出,是校园管理工作中需要重点跟踪和及时干预的核心对象。
最终群体分类映射汇总表:
| 聚类簇编号 | 颜色标识 | 群体分类名称 | 核心行为特征 |
|---|---|---|---|
| C1 | 蓝色 | 自律模范型 | 各维度异常次数均处于极低水平,出勤稳定,纪律意识突出 |
| C2 | 青色 | 轻微波动型 | 迟到早退频次较低,偶有校服违规或请假记录,整体纪律状况良好 |
| C3 | 黄色 | 纪律高危型 | 各维度异常次数普遍偏高,多类违纪行为交叉叠加,存在极端异常记录 |
3.3 将分类映射结果回写至学生考勤主题标签表
需要把最终确定的群体分类标签数据补充到上一实验产出的学生考勤主题标签表 student_attendance_stats 中。
3.3.1 新增扩展字段
原有的 student_attendance_stats 表中尚未包含考勤群体分类相关字段,需要先进行表结构扩展。
具体需新增以下两个字段:
- cluster:聚类簇编号
- attendance_group:考勤群体分类
打开前序实验在数据集成平台中创建的 ETL 项目,新建转换流"增加考勤主题扩展标签字段",将"执行一个SQL脚本"组件拖拽至画布。
双击该组件,在配置面板中选择数据库连接为"团队私有数据库",输入如下 SQL 脚本后点击"确认":
-- 为学生考勤统计表新增聚类结果相关字段
ALTER TABLE student_attendance_stats
ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',
ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';
执行该转换流。
3.3.2 获取聚类簇编号数据
接下来需要读取 3.1 节中 AI Studio 输出的聚类结果表 student_cluster 中的数据。
打开前序实验创建的 ETL 项目,新建转换流"增加考勤群体分类标签"。
拖拽"表输入"组件至画布。
双击"表输入"组件进行配置,编写从团队私有数据库中查询 student_cluster 全表数据的 SQL 语句。
3.3.3 字段筛选
从获取的数据中仅需保留 student_id 和 Cluster 两个字段。拖拽"字段选择"组件至画布,并从"表输入"组件向其建立连线。
双击"字段选择"组件,切换到"移除"选项卡,在字段名称区域右键选择"获取字段"。
选中 student_id 和 Cluster 两个字段后,右键执行"删除选中的行"操作。此操作表示:除 student_id 与 Cluster 之外的所有字段均将被移除。
为确保与 student_attendance_stats 表的字段类型保持一致,避免后续数据更新时出现类型不匹配的问题,需切换到"元数据"选项卡,新增 2 行配置,将 student_id 和 class_id 的数据类型设定为 Integer。
完成设置后点击"确认"。
3.3.4 聚类簇编号语义映射
原始聚类簇编号以代码形式存储,缺乏直观的可读性,需通过映射转换为业务语义明确的中文标签。
在画布中添加"值映射"组件,从"字段选择"组件向其建立连线,输出选择"主输出步骤"。
双击"值映射"组件进行配置:使用的字段名设为"Cluster",目标字段名设为"attendance_group"。
在下方映射规则表格的空白处右键,选择"插入"添加映射行。
双击新插入的行,在源值中填写"C1",目标值填写"轻微波动型",即将原始数据中标记为"C1"的记录统一转换为"轻微波动型"。
依照同样方式再插入 2 行映射规则:
- 源值:“C2” → 目标值:“自律模范型”
- 源值:“C3” → 目标值:“纪律高危型”
全部配置完成后点击"确认"。
3.3.5 更新学生考勤主题标签表
将映射后的数据写回原始标签表。拖拽"更新"组件至画布,从"值映射"组件向其建立连线。
双击"更新"组件,在配置面板中选择数据库连接为团队私有数据库,目标模式填写为 labs。
点击目标表后方的"浏览"按钮,在列表中选择 student_attendance_stats 表,点击"确定"。
在"用来查询的关键字"区域获取字段,仅保留 student_id 和 class_id 作为匹配条件。这意味着当数据表中的记录与数据流中的 student_id 一致时,将执行字段更新操作。
在"更新字段"区域获取字段后,删除 student_id 行。需要特别注意的是,由于新增扩展字段时聚类簇编号的列名为小写的 cluster,因此在"表字段"列中需要双击 Cluster 所在行,通过下拉框选择正确对应的数据库表字段。
最终配置效果如下:当数据表中的 student_id 与数据流中的 student_id 匹配时,将数据流中的 Cluster 和 attendance_group 字段值分别写入数据表的 cluster 和 attendance_group 列。
3.3.6 执行转换流
点击运行按钮启动转换流。
查看执行结果与运行日志,确认所有步骤均正常完成。
3.3.7 验证更新结果
切换至"元数据"选项卡,右键点击"团队私有数据库",选择"加载元数据"刷新表结构。
加载完成后点击"数据探查"。
在数据库目录中选中 student_attendance_stats 表,点击"查询"。可以确认 cluster 和 attendance_group 两个字段的数据已成功写入。
四、实验总结
本次实验以学生考勤行为次数数据为基础,运用 K-Means 聚类算法实现了学生考勤群体的自动化划分。通过选取迟到、早退、请假、校服违规四类次数特征作为建模输入,保证了聚类过程的稳定性与输出结果的可解释性。在此基础上,借助助睿 BI 平台的散点图可视化分析能力,对算法产出的聚类簇编号进行业务语义赋值,清晰界定出自律模范型、轻微波动型、纪律高危型三类具有鲜明行为特征的学生群体。最终,将聚类分类标签回写至原始考勤主题标签表,完成了考勤维度的扩展标签构建,为校园学生的精细化管理、行为预警干预和个性化教育策略制定提供了切实可靠的数据支撑。
实验四:纪律高危型学生考勤画像可视化分析
一、实验说明
1.1 实验目标
在前序实验完成 K-Means 聚类并为学生打上考勤群体标签的基础上,本次实验将目光聚焦于"纪律高危型"这一特定群体,深入剖析其行为特征与分布规律。相较于其他群体,该群体呈现出高频违纪、多项异常行为交叉叠加等显著特征,在校园考勤管理场景中属于风险等级最高、管理影响最突出的群体。通过针对该群体的专项画像分析,能够为精准化行为干预和重点领域整治提供有力的数据支撑,推动校园管理向精细化方向发展。
1.2 实验环境
- 工具平台: 助睿数智(Uniplore)在线实验平台,地址:https://lab.guilan.cn/。助睿数智(Uniplore)是一款以 AI 为驱动的全流程数据科学平台,覆盖数据接入、ETL 加工处理、机器学习建模到可视化呈现的完整链路,支持零代码操作,产品官网:https://www.uniplore.com/。本实验主要使用 助睿 BI(数据可视化探索平台) 及 MySQL 数据库。
- 数据来源: student_attendance_stats 学生考勤主题标签表
- 实验设备: 计算机(可正常运行助睿平台,具备数据库访问权限)
二、实验数据
2.1 数据结构
student_attendance_stats 学生考勤主题标签表的完整字段结构如下:
| 字段名 | 字段类型 | 含义说明 |
|---|---|---|
| id | int | 自增主键 |
| student_id | int | 学生ID |
| student_name | varchar(50) | 学生姓名 |
| class_id | int | 班级ID |
| class_name | varchar(50) | 班级名称 |
| grade | varchar(10) | 年级 |
| gender | varchar(10) | 性别 |
| birth_date | varchar(10) | 出生日期 |
| political_status | varchar(20) | 政治面貌 |
| is_boarder | varchar(10) | 是否住校 |
| campus_type | varchar(10) | 校区类型 |
| late_count | int | 迟到次数 |
| early_leave_count | int | 早退次数 |
| leave_count | int | 请假次数 |
| uniform_violate_count | int | 没穿校服次数 |
| create_time | datetime | 统计入库时间 |
| cluster | varchar(10) | 聚类簇编号 |
| attendance_group | varchar(30) | 考勤群体分类 |
2.2 样例数据
| id | student_id | student_name | class_id | class_name | grade | gender | birth_date | political_status | is_boarder | campus_type | late_count | early_leave_count | leave_count | uniform_violate_count | create_time | cluster | attendance_group |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| 1 | 10842 | 马某某 | 672 | 高三(09) | 高三 | 未知 | 未知 | 未知 | 否 | 老校区 | 1 | 0 | 3 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
| 2 | 10844 | 叶某某 | 672 | 高三(09) | 高三 | 未知 | 未知 | 未知 | 否 | 老校区 | 0 | 0 | 5 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
| 3 | 10845 | 孙某某 | 672 | 高三(09) | 高三 | 未知 | 未知 | 未知 | 否 | 老校区 | 3 | 0 | 0 | 0 | 2026/5/14 16:00 | C3 | 纪律高危型 |
三、实验操作步骤
3.1 登录助睿 BI 平台
进入实验平台后,在左侧导航栏中点击"助睿BI",跳转至助睿 BI 数据可视化探索平台。
进入 BI 平台主页后,可总览当前账户下的数据资源概况、分析处理流程以及平台所支持的数据源类型。
3.2 数据源连接
student_attendance_stats 表保存在团队私有数据库中。由于前序实验在"分析聚类簇编号对应的考勤群体分类"阶段已经完成了团队私有数据库的连接创建,因此本次实验可直接复用已有的数据源连接,无需重复配置。
3.3 创建数据集
接下来,基于 student_attendance_stats 表构建本次分析所需的数据集。
点击左侧菜单中的"数据集"选项。
点击左上角"+“按钮,选择"新建数据集”。
在弹出窗口中依次填写数据集名称、归属分组及备注信息,点击"确认"。
创建完成后自动进入数据集配置页面。平台会弹出提示引导用户优先选择数据源,点击"好的,我知道了"关闭提示。
在数据源配置区域,第一个下拉框选择已建立的数据源连接"商业数据分析实验",第二个下拉框选择 student_attendance_stats 表所在的目录"labs"。
选定后,左侧面板自动展示该目录下的数据表列表,将 student_attendance_stats 拖放至画布区域。
查看数据表的字段结构与数据内容。由于前序实验创建该表时已在建表语句中包含了中文字段注释,此处无需额外设置字段备注,直接点击画布左上方的"保存"按钮。
在弹出的保存提示中选择"保存并发布"——只有完成发布的数据集才可被后续工作表所引用。
3.4 制作可视化工作表
工作表是助睿 BI 平台中用于搭载图表、开展数据可视化分析的基本单元。
点击左侧菜单中的"工作表"选项,进入工作表管理模块。
为便于集中管理同一主题下的分析图表,先创建专属分组目录。点击左上角"+“按钮,选择"新建分组”。
在弹出窗口中填入分组名称、选定上级分组并添加备注说明,点击"确认"完成创建。
3.4.1 整体概况指标卡
指标卡是助睿 BI 平台中用于直观展示关键统计数值的基础组件,可快速呈现核心指标,帮助使用者迅速掌握高危群体的总体概况。
3.4.1.1 纪律高危型总人数
右键点击学生考勤主题分析分组(或点击分组名称后方的"…"按钮)。
在弹出的操作列表中选择"新建工作表"。
在弹窗中填写工作表名称为"自律模范型人数",选定所属分组并填写备注,点击"确认"。
系统自动跳转至工作表设计页面,关闭操作引导提示。
在数据集下拉框中选择前面构建的"学生考勤主题数据集"。
自律模范型人数的计算逻辑为:该群体中所有学生 ID 的去重计数。
在左侧基础图表区域选择"指标卡"类型。
将"student_id(学生ID)"字段拖放至"值"区域。
展开"student_id"的聚合方式下拉菜单,切换为"去重计数"。
点击图形设置图标,打开设置面板。
在过滤器区域点击"+",从下拉列表中选择"attendance_group(考勤群体分类)"字段,点击"确认"添加。
点击过滤器中"attendance_group"右侧的"···“按钮,选择"编辑”。
在过滤器配置面板中选择"包含以下选项",勾选"自律模范型",最后点击"确认"。
指标卡随即呈现出自律模范型的学生总人数。
接下来对指标卡的外观样式进行优化调整。点击"样式设置"进入样式面板。
展开"基础设置",将上下左右四个边距均调整至最大值 16。
展开"标题设置",将标题字号改为 16,字体颜色设为红色,显示位置切换为顶部居中。
展开"值设置",将字号改为 30,字体颜色设为红色,粗体开关保持开启状态,显示位置保持水平居中。
点击"保存"按钮。
在提示弹窗中选择"保存并发布"。
点击"显示分组"按钮,可以确认该指标卡工作表已发布成功。
3.4.1.2 纪律高危型男生人数
参照"3.4.1.1 纪律高危型总人数"的操作流程,新建工作表"纪律高危型男生人数"并完成指标卡搭建。与前者的区别在于,需额外在过滤器中添加"gender(性别)“字段,并将过滤条件设置为包含"男”。
按需调整指标卡样式即可。
3.4.1.3 纪律高危型女生人数
参照"3.4.1.1 自律模范型人数"的操作流程,新建工作表"纪律高危型女生人数"并完成指标卡制作。额外操作为:在过滤器中添加"gender(性别)“字段,过滤条件设为包含"女”。
按需调整样式。
3.4.1.4 纪律高危型未知性别人数
参照"3.4.1.1 自律模范型人数"的操作流程,新建工作表"高危型未知性别人数"。额外操作为:在过滤器中添加"gender(性别)“字段,过滤条件设为包含"未知”。
按需调整样式。
3.4.1.5 整体指标分析
通过上述四张指标卡可以直观获取以下信息:纪律高危型学生总计 421 人,其中男生 45 人、女生 38 人、性别未知 338 人。高危群体的整体规模一目了然,男生数量明显多于女生,表明该群体在性别维度上存在显著的分布差异,有必要从性别视角展开更深层次的分析。
3.4.2 纪律高危型学生性别特征分析
本环节将制作纪律高危型学生的性别占比饼图,并结合全校学生的性别基数分布数据进行交叉对比,研判高危群体的性别倾向是否具有统计意义上的显著性。
3.4.2.1 纪律高危型学生男女人数占比
新建工作表"纪律高危型学生男女人数占比"。
选择"学生考勤主题数据集"作为数据集,图表类型选择"饼图"。
将"student_id"字段拖至"值"区域,“gender"字段拖至"分类"区域,并将"student_id"的聚合方式设定为"去重计数”。
可以观察到数据中包含性别为"未知"的记录,需将其过滤排除。点击图形设置按钮,在过滤器区域点击"+",从下拉列表选择"gender"字段并确认添加。
点击过滤器中"gender"右侧的"···“按钮,选择"编辑”。
在过滤器设置面板中选择"排除以下选项",勾选"未知",点击"确认"。
继续在过滤器中添加"attendance_group"字段并确认。
点击"attendance_group"右侧的"···“按钮,选择"编辑”。
在配置面板中选择"包含以下选项",勾选"纪律高危型",点击"确认"。
平台默认的饼图不带百分比标注,可通过"样式设置"→“图表元素设置”→“标签显示形式”,勾选"百分比"开启显示。
其他视觉样式可按个人偏好灵活配置。例如,将图表元素设置中的内环尺寸调为"50%“,扇形设置中的扇形圆角半径调为"10”。
还可切换至更具辨识度的配色方案。
样式调整完毕后,点击"保存"按钮并执行"保存并发布"。
3.4.2.2 全校学生男女人数占比
为排除性别基数差异可能带来的误判,需要同步分析全校范围内的学生性别构成比例。
新建工作表"全校学生男女人数占比"。
参照"3.4.2.1 纪律高危型学生男女人数占比"的操作流程完成饼图制作。区别在于过滤器中仅需过滤掉性别为"未知"的数据,不对"attendance_group"做任何筛选限制。
3.4.2.3 性别特征分析
在剔除性别未知数据的前提下进行对比分析:
- 全校性别分布方面:男生基数本身略高于女生,占比达到 53.03%,女生占比为 46.97%。
- 纪律高危型群体中:男生占比进一步攀升至 54.22%,女生占比则相应回落至 45.78%。
交叉比较两组数据可以发现:男生在高危群体中的占比(54.22%)高出其全校基数占比(53.03%)约 1.2 个百分点;而女生在高危群体中的占比(45.78%)则低于其全校基数占比(46.97%)约 1.2 个百分点。
上述结果揭示出:纪律高危型群体中男生比例偏高并非全校性别基数不均衡所致,而是反映了男生在考勤违纪行为方面的真实风险确实更高。男生群体在规则遵守意识、时间管理能力方面相对薄弱,更容易产生高频次的违纪行为,构成了高危群体的主要来源,后续管理工作应有针对性地加强对男生群体的考勤纪律引导。
3.4.3 纪律高危型学生年级特征分析
本环节将绘制纪律高危型学生按年级维度的柱状分布图,观察各年级间高危学生的数量差异。
新建工作表"纪律高危型学生年级特征分析"。
选择"学生考勤主题数据集"为数据集,图表类型选择"柱状图"
将"grade"字段拖放至 X 轴,“student_id"字段拖放至 Y 轴,并将"student_id"的聚合方式设为"去重计数”。
点击图形设置按钮,在过滤器区域添加"attendance_group"字段。
点击"attendance_group"右侧的"···“按钮,选择"编辑”。
在配置面板中选择"包含以下选项",勾选"纪律高危型",点击"确认"。
分析解读:
从年级分布柱状图中可以清晰辨识出:纪律高危型学生在不同年级间的分布存在显著差异。高三年级的高危学生数量遥遥领先,而高一、高二年级的高危学生则相对较少。这种现象可能与高三学生所面临的升学压力增大、在校时间跨度拉长、以及部分学生因备考节奏调整或特殊升学路径安排而出现课程变动等因素有关,这些客观条件都可能导致考勤行为出现异常波动。
点击"样式设置",将配色主题调整为与前面饼图一致的色系,并进入"图表元素设置"将边框颜色设为无。
点击"保存"按钮,执行"保存并发布"。
3.4.4 纪律高危型学生校区类型与年级交叉特征分析
为更深入地揭示高危学生在不同校区、不同年级的叠加分布规律,本环节将制作按校区类型分组的年级堆叠柱状图,直观展现各年级中新、老校区高危学生的人数对比,精确锁定高危行为的集中爆发区域。
新建工作表"纪律高危型学生校区类型与年级交叉特征分析"。
选择"学生考勤主题数据集"为数据集,图表类型选择"柱状图"。
参照"3.4.3 纪律高危型学生年级特征分析"的操作步骤,先完成基础的纪律高危型学生年级分布柱状图。
在此基础上,将"campus_type"字段拖放至"分组"区域,实现按校区类型的堆叠拆分。
将配色主题调整为与前序图表统一的色系,并取消边框色显示。
分析解读:
从校区类型与年级交叉柱状图中可以得出以下发现:纪律高危型学生的校区分布呈现出极为显著的差异格局——
- 老校区是高危学生的核心聚集地,各年级高危人数均大幅领先于新校区:高一 463 人、高二 786 人、高三 852 人,其中高三年级高危人数触达峰值。
- 新校区的高危学生体量整体较小,仅高一 10 人、高二 19 人存在少量分布,高三年级无高危学生记录。
单从高危群体的空间分布来看,老校区的违纪行为发生密度远超新校区,且高危人数随年级递增呈现明显的上升趋势。为进一步确认这种差异是否仅由校区学生基数规模不同所驱动,下一步将引入全校各校区、各年级的学生总数进行对照分析,以排除基数干扰,客观评估校区管理模式、通勤便利程度、学风氛围等实际因素对学生考勤行为的真实作用。
点击"保存"按钮,执行"保存并发布"。
3.4.5 不同校区类型各年级学生总人数
新建工作表"不同校区类型各年级学生人数"。
参照"纪律高危型学生校区类型与年级交叉特征分析"的操作流程完成堆叠柱状图制作,过滤器中不设置任何筛选条件。
分析解读:
各校区各年级学生总数分布如下:
- 高一:老校区 1021 人,新校区 148 人
- 高二:老校区 1079 人,新校区 295 人
- 高三:老校区 1883 人,新校区无学生分布
将此数据与纪律高危型学生的校区年级交叉分析结果进行比对,可以获得更深层的洞察:
- 高三老校区构成高危行为的绝对高发地带: 高三年级全部学生均集中于老校区,高危学生人数高达 261 人,为所有校区年级组合中的最高值,与高危群体年级分布特征高度吻合。
- 新校区整体风险处于可控范围: 新校区学生基数本身偏小,高危学生数量也相应有限,加之高三年级不存在学生分布,自然不会产生高三高危学生,整体考勤纪律表现明显优于老校区。
综合研判:老校区,尤其是高三年级段,是纪律高危型学生的核心汇聚区域。后续管理工作应将重心锁定在老校区高年级学生群体,结合校区通勤环境、管理制度、学风建设等多维因素,制定更具针对性的考勤管控方案。
3.4.6 纪律高危型学生班级特征分析
本环节进一步下钻至班级维度,定位高危学生最为集中的具体班级。
新建工作表"纪律高危型学生班级特征分析"。
选择"学生考勤主题数据集"为数据集,图表类型选择"水平条图"。
将"class_name"字段拖放至 Y 轴,“student_id"字段拖放至 X 轴,并将"student_id"的聚合方式设定为"去重计数”。
在过滤器中添加"attendance_group"字段。
点击"attendance_group"右侧的"···“按钮,选择"编辑”
在配置面板中选择"包含以下选项",勾选"纪律高危型",点击"确认"。
为便于直观识别高危学生集中度最高的班级,将"student_id"按降序排列,使人数最多的班级排列在最上方。
分析解读:
从班级维度的水平条图中可以清楚看到,纪律高危型学生高度聚集于少数特定班级:高三 09 班以 38 人位居首位,紧随其后的是高三 08 班、高三 02 班等,而绝大多数班级的高危学生数量极少,呈现出十分鲜明的班级聚集效应。结合年级分布特征综合来看,高危学生主力分布在高三年级的若干重点班级,这既与高三学生备考节奏紧凑、课程安排弹性较大有关,同时也充分说明高危行为的产生与班级管理力度、班级风气营造、同伴群体影响密不可分。对于少数纪律薄弱班级,需要实施重点整治,通过加大班主任监管力度、集中整顿班风纪律,切断不良行为习惯的传播链。
点击"样式设置",将配色主题统一为与前序图表相同的色系。
点击"保存"按钮,执行"保存并发布"。
3.5 搭建综合分析仪表盘
点击左侧菜单栏中的"仪表盘"选项。
点击左上角"+“按钮,选择"新建仪表盘”。
在弹出窗口中填入仪表盘名称"纪律高危型学生用户画像分析",备注同样填写"纪律高危型学生用户画像分析",点击"确认"。
在右侧面板中切换至"基础组件"标签页。
拖拽一个文本组件至画布顶部区域。
在文本组件中输入"纪律高危型学生用户画像分析"作为仪表盘总标题,并配置字体颜色、字号大小、加粗及居中对齐。
关闭组件编辑窗口。
通过拖拽组件右下角的控制点,调整标题组件至合适尺寸。
参照下方示意完成布局定位。
点击图表组件展示切换按钮。
切换到"工作表"标签页,将 3.4 节中制作的全部工作表逐一拖入画布区域。
全部拖入后,利用鼠标拖动调整各图表的位置与尺寸,同时使用"文本"组件将各环节的分析结论整合呈现在仪表盘中,形成完整的分析看板。文本组件可通过关闭"超出隐藏"开关来支持多行文字换行显示。
最终预期呈现效果如下:
设计完毕后,点击"发布"按钮完成保存与发布。
点击"预览"可全屏查看仪表盘最终效果。
发布完成后,可点击"分享"按钮,选择不同的分享渠道将仪表盘传递给他人查看。
将分享信息复制发送给目标对象,对方即可通过链接访问仪表盘。
复制内容示例如下,他人点击链接即可在线查看完整仪表盘:
访问地址:来自undefined分享的资源
访问地址:http://47.109.153.89/#/share/dashboard/2058562248900743168
四、纪律高危型学生画像分析总结
4.1 整体概况
纪律高危型学生普遍存在高频迟到、早退、请假及校服违规等行为,多项违纪行为交织叠加,是校园考勤管理工作中最需引起重视的群体。该群体虽然在总人数占比上处于可控范围,但其行为产生的负面影响较大,容易引发和蔓延不良风气,亟需开展专项治理。
4.2 核心特征
- 性别特征: 男生构成了高危群体的主体,其占比显著高于女生,是高频违纪行为的主要发生对象。这与男生群体在规则遵守意识和时间管理能力方面的相对薄弱有关。
- 年级特征: 高危学生高度集中于高年级段,随年级升高高危占比呈明显上升态势。高年级学生面临的学业压力更大、自主支配空间更广、心态也更为浮躁,对考勤纪律的重视程度出现下滑。
- 校区特征: 不同校区间的高危学生分布存在显著差异,高危群体高度汇聚于老校区,新校区的风险水平则相对较低,这与校区通勤条件、管理制度执行力度以及学风氛围等因素紧密关联。
- 班级特征: 高危学生的分布呈现出鲜明的班级聚集性,集中出现在少数管理薄弱、班风涣散的班级中,与班级管理强度和同伴效应直接相关。
4.3 管理建议
- 重点关注高年级男生群体: 有针对性地开展考勤纪律教育和时间管理能力培训,强化其规则遵守意识,从源头减少违纪行为的发生频率。
- 强化老校区高年级管理力度: 围绕老校区优化通勤管理流程、加强考勤监督执行,营造更为严谨的学风环境,有效降低学生的违纪风险。
- 集中整治高危学生聚集班级: 加大班主任的监管介入力度,全面整顿班级纪律风气,建立班级考勤责任追溯机制,阻断不良行为习惯在班级内的传播蔓延。
- 建立高危学生个人档案: 实行一人一档管理,推动家校联动协作,为每位高危学生制定个性化的行为矫正方案,持续跟踪干预效果,防止违纪行为进一步固化。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐
































































































































































所有评论(0)