实验3考勤

Akker_sleep

316人浏览 · 2026-05-25 20:32:30

Akker_sleep · 2026-05-25 20:32:30 发布

1 实验说明

1.1 实验目的

基于已完成的学生考勤主题标签表（student_attendance_stats），使用 K-Means 聚类算法对学生考勤行为进行自动分群。通过迟到、早退、请假、校服违规次数等核心指标，识别不同类型的考勤群体，生成可解释的考勤画像，为校园学生管理、行为分析提供精准数据支撑。

1.2 实验环境

工具为助睿数智（Uniplore）在线实验平台：https://lab.guilan.cn/，助睿数智（Uniplore）是AI驱动的一站式数据科学平台，覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能，产品官网为 https://www.uniplore.com/，本次实验主要用到以下功能平台：

数据集成平台（助睿 ETL）

人工智能平台（助睿 AI）

助睿BI 数据可视化探索平台

数据库：MySQL

前置数据：学生考勤主题标签表（student_attendance_stats）

2 实验数据

2.1 数据构成

本次实验使用上一实验输出的学生考勤主题标签表，数据包含学生基础信息与考勤次数统计结果，为聚类建模提供干净、标准化的特征数据。

2.2 字段说明

2.3 建模思路

通过对数据的观察，以及对考勤分群的业务需求分析，确定本次建模分析思路如下：

数据维度清晰、变量数量适中，聚焦考勤行为核心指标，无需复杂降维。基于考勤业务理解，将变量聚焦在迟到次数、早退次数、请假次数、校服违规次数四类行为维度，每个维度直接反映一类考勤特征，变量间业务含义独立、相关性低，可直接用于 K-Means 聚类建模，避免变量冗余导致模型解释困难。

本次建模采用次数类连续变量，数据类型单一、适配 K-Means 算法要求。考勤次数均为非负整数，属于连续型变量，满足 K-Means 对数据类型的要求，无需进行哑变量编码、二值化或特殊转换，可直接输入模型，简化预处理流程，保证聚类结果稳定可靠。

学生基础离散属性（性别、年级、住校状态等）不参与聚类建模，仅作为后续画像标签的辅助解释变量。

3 实验步骤

人工智能平台（AI Studio）是一站式大数据智能应用平台，以零代码拖拽的方式简化机器学习全流程，提供从数据加载、预处理、特征工程到模型训练与评估的完整解决方案。平台内置 100 + 数据挖掘算法组件，支持主流深度学习框架，同时具备可视化建模、智能一键分析、协作共享与精细版本管理能力，无需深厚编程知识，即可高效实现数据价值挖掘与智能分析。

3.1 AI Studio 聚类建模

3.1.1 新建工作流

在该环节，我们使用 AI Studio 搭建从数据加载到聚类建模、结果输出的完整流程，为后续建模提供独立运行空间。

点击左边菜单“人工智能”，进入人工智能平台（AI Studio），进入人工智能模块用户空间

点击“+” - “新建工作流”

人工智能模块页面是集构建、运行、编辑、查看于一体的工作区域。在该模块页面中，主要包括三个模块，分别是菜单栏，控件列表以及画布（用于工作流构建）。如下图所示：

3.1.2 数据导入

首先，我们需要将 student_attendance_stats 的数据载入，搜索“数据库加载”控件，拖拽至画布

双击“数据库加载”控件，右边会出现参数配置窗口，将团队私有数据库的信息填入，并点击“连接”

在弹出的窗口中，点击下拉框，选择 student_attendance_stats

选择后会自动加载表信息，我们主要是分析各类异常考勤占比的特征，所以只需保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count，其他字段跳过（skip）；为保留的字段选择对应的属性类型，最后点击“确定”

字段对应的属性类型参考如下：

右键数据库加载空间，点击“运行该控件”

运行成功后可右键点击“查看输出结果”

可以看到保留下来的数据

3.1.3 K-Means 聚类建模

拖入“K-Means”组件，创建数据库加载组件到“K-Means”组件的连线

双击“K-Means”组件，配置窗口中，簇数量选择固定3个，其他保持不变

右键运行该控件，查看输出结果，可以看到每个学生分别标记了对应的簇类C1/C2/C3

3.1.4 结果输出与保存

聚类后的数据我们需要保存到数据库中，以便后续使用

拖拽“数据入库”组件到画布，创建“K-Means”组件到“数据入库”组件的连线

双击“数据入库”组件，数据库配置中输入团队私有数据库的参数，并点击“获取表信息”

在弹出的窗口中，选择“新建数据表”，表名称修改为“student_cluster”，并点击“确定”

运行工作流，各控件均运行成功则工作流运行成功

3.2 分析聚类簇编号对应的考勤群体分类

上一步骤输出的聚类簇编号无法确定对应的考勤群体分类，可要通过助睿BI 可视化分析来确定

点击实验平台左边菜单“助睿BI”，进入助睿BI平台

进入助睿BI 平台的首页，可以看到该账户下的数据情况、数据分析处理流程、支持的数据源有哪些如果是进入的页面是登录页面，可以关闭后，重新从实验平台进入

3.2.1 连接数据源

上一步骤输出的 student_cluster 存放于我们的团队私有数据库中，所以我们需要在助睿BI 平台中创建数据库连接

点击左边菜单中的“数据源”

点击左上角“+” - “新建连接” - “MySQL”

在弹出的窗口中输入自己所在小组在 Uniplore实验平台的数据库连接账号信息，点击“测试连接”

出现“测试连接成功”表示我们的连接正确，点击“确认”

点击新建的数据库目录，可以看到本次实验所用的学生考勤主题标签表（右键点击-查看表数据，可以预览表内数据）

3.2.2 构建数据集

数据源连接成功后，我们要将需要分析的数据表构建为数据集

点击左边菜单中的“数据集”

点击左上角“+” - “新建数据集”

在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”

数据集创建成功后，会自动跳到该数据集的配置页面，第一步需要先选择数据源，助睿BI平台为防止这个步骤遗漏，做了强提醒，点击“好的，我知道了”可关闭提醒

数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ，第二个选项则选择student_cluster 所在的目录

数据源选择完成后，目录下的数据表自动出现在画布左边，将student_cluster 拖拽至画布中

查看数据的表结构及数据，为方便进行后续分析，将字段备注分别修改为中文，在student_id的字段备注输入框中输入“学生ID”，并点击“√”保存

其他字段的字段备注按照同样操作进行修改，字段别名参考如下：

字段别名修改完成后，点击画布左上角“保存”按钮

在保存提示中点击“保存并发布”，只有发布后的数据集才能在工作表中引用

3.2.3 制作工作表

工作表是助睿BI 平台中用于承载可视化图表、完成数据探索与分析的核心单元，是实现数据可视化展示的基础载体。

接下来我们开始制作聚类簇编号对应的考勤群体分类工作表

点击左边菜单中的“工作表”，进入工作表模块

为了方便管理，我们将本次制作的工作表集中存放在一个目录下，点击左上角的“+” - “新建分组”

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

右键或者点击聚类簇对应的考勤画像群体分类分析分组的“…”

在操作列表中点击“新建工作表”

在弹窗中输入工作表名称为“迟到早退次数的聚类簇分析”、选择所属分组、填写备注信息后点击“确认”

自动跳转到工作表设计页面，点击右上角“好的，我知道了”来关闭提醒

数据集选择刚刚创建的“聚类簇编号数据集”

图表类型选择“探索器”

将字段“late_count（迟到次数）”拖拽到X轴，“early_leave_count（早退次数）”拖拽到Y轴

点击图形设置按钮，打开设置面板

3.3.1 新增扩展字段

上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中没有考勤群体分类的字段，需要增加

首先我们需要在 student_attendance_stats 中增加2个字段：

cluster：聚类簇编号

attendance_group：考勤群体分类

进入上一个实验在数据集成平台中创建的ETL项目，新建转换流“增加考勤主题扩展标签字段”，拖拽并“”组件到画布中

双击“执行一个SQL脚本”组件，在配置窗口中，数据库连接“团队私有数据库”，输入SQL脚本后点击：“确认”

SQL如下：

3.3.2 聚类簇编号数据获取

接下来，我们需要使用 3.1这步骤中 AI Studio 输出的结果表 student_cluster ，xxx

3.3.3 字段选择

为了保持和 student_attendance_stats 表中字段类型一致，不影响后续数据更新到 student_attendance_stats，需要将 student_id、class_id 的类型修改为Integer，点击元数据选项，插入2行， student_id、class_id 的配置如下：

最后点击“确认”

3.3.7 查看结果

切换“元数据”选项，右键“团队私有数据库”，点击“加载元数据”

加载成功后点击“数据探查”

在团队私有数据库中点击 student_attendance_stats ，在点击“查询”，可以看到 cluster、attendance_group的数据已经更新成功了

4 实验总结

本次实验基于学生考勤次数数据，通过 K-Means 聚类算法完成学生考勤群体自动划分，利用次数特征建模保证了聚类结果的稳定性与可解释性。借助助睿BI 平台实现可视化分析，为机器生成的聚类簇赋予明确的业务含义，精准划分出自律模范型、轻微波动型、纪律高危型三类学生群体。最终将聚类标签回写至原始考勤表，完成考勤主题扩展标签构建，为校园学生精细化管理、行为干预和个性化教育提供了可靠的数据支撑。