第一部分:实验背景

1.1 实验目的

本次实验旨在掌握以下技能并完成相应任务:

  • 掌握基于助睿数智(Uniplore)零代码平台进行 K-Means 聚类建模的完整流程;

  • 学会使用助睿 BI 平台进行聚类结果的可视化探索分析;

  • 能够将聚类簇编号映射为具有业务含义的学生考勤群体标签;

  • 完成学生考勤主题扩展标签的构建,为校园学生精细化管理提供数据支撑。

1.2 实验环境

本次实验基于助睿数智(Uniplore)在线实验平台完成,助睿数智是一站式数据科学平台,覆盖数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能。本次实验主要用到以下功能模块:

  • 人工智能平台(助睿 AI Studio) :用于 K-Means 聚类建模;

  • 助睿 BI 数据可视化探索平台:用于聚类结果的可视化分析与群体解读;

  • 数据集成平台(助睿 ETL) :用于将聚类标签回写至原始数据表;

  • 数据库:MySQL(团队私有数据库)。

1.3 数据说明

实验使用上一阶段输出的学生考勤主题标签表(student_attendance_stats),包含学生基础信息与考勤次数统计结果。用于聚类建模的核心特征字段为:

字段名

说明

类型

late_count

迟到次数

连续(整数)

early_leave_count

早退次数

连续(整数)

leave_count

请假次数

连续(整数)

uniform_violate_count

没穿校服次数

连续(整数)

1.4 处理流程概述

整体实验流程分为三大阶段:

  1. AI Studio 聚类建模:加载考勤数据,使用 K-Means 算法对学生进行自动分群,将聚类结果保存至数据库;

  2. 助睿 BI 可视化分析:通过散点图两两对比各聚类簇在不同考勤指标上的分布特征,赋予聚类簇可解释的业务含义;

  3. ETL 标签回写:将聚类簇编号和群体分类标签回写至学生考勤主题标签表,完成扩展标签构建。

第二部分:实验步骤

2.1 AI Studio 聚类建模

2.1.1 新建工作流

操作说明:在 AI Studio 中创建工作流,用于搭建从数据加载到聚类建模、结果输出的完整流程。

配置要点:点击左边菜单“人工智能”,进入人工智能平台(AI Studio),点击“+”→“新建工作流”。工作流画布是集构建、运行、编辑、查看于一体的工作区域,主要包括菜单栏、控件列表和画布三个模块。点击“+”新建工作流。

图片

2.1.2 数据导入

将 student_attendance_stats 的数据载入,搜索“数据库加载”,拖至画布

图片

双击“数据库加载”,将团队私有数据库的信息填入(注意是团队私有数据库的信息),点击“连接。在弹出的窗口中,选择 student_attendance_stats

图片

图片

只保留 student_id 、class_id、late_count、early_leave_count、leave_count、uniform_violate_count,其他字段跳过(skip)。

图片

右键数据库加载空间,点击“运行该控件”。运行成功后点击“查看输出结果”。

图片

图片

2.1.3 K-Means 聚类建模

拖入“K-Means”,创建数据库加载组件到“K-Means”组件的连线

图片

右键运行该控件,查看输出结果,可以看到每个学生分别标记了对应的簇类C1/C2/C3

图片

3.1.4 结果输出与保存

拖“数据入库”组件到画布,创建连线

图片

双击“数据入库”,输入团队私有数据库的参数,点击“获取表信息”

图片

在弹出的窗口中,选择“新建数据表”,表名称修改为“student_cluster”,点击“确定”

图片

运行工作流,各控件都运行成功

图片

2.2 分析聚类簇编号对应的考勤群体分类

点击实验平台左边菜单“助睿BI”,进入助睿BI平台

图片

2.2.1 连接数据源

点击左边菜单中的“数据源”

图片

点击左上角“+” - “新建连接” - “MySQL”。在弹出的窗口中输入数据库连接账号信息,点击“测试连接”。出现“测试连接成功”,点击“确认”

图片

图片

图片

3.2.2 构建数据集

点击左边菜单中的“数据集”,新建数据集。

图片

图片

在弹窗中输入数据集名称、所属分组、备注信息后点击“确认”

图片

数据源的第一个选项选择我们刚刚新建的数据源“商业数据分析实验” ,第二个选项则选择student_cluster 所在的目录“labs”(如果取了别的名字请输入别的名字而不是labs)

图片

labs目录下的数据表出现在画布左边,将student_cluster 拖至画布中

图片

在student_id的字段备注输入框中输入“学生ID”,并点击“√”保存

图片

其他字段也进行同样的操作

图片

修改完成后,点击画布左上角“保存”按钮。在保存提示中点击“保存并发布”

图片

图片

2.2.3 制作工作表

点击左边菜单中的“工作表”。点击左上角的“+” - “新建分组”

图片

图片

在弹窗中输入分组名称、选择所属分组、填写备注信息后点击“确认”

图片

点击聚类簇对应的考勤画像群体分类分析分组的“…”,点击“新建工作表”

图片

图片

在弹窗中输入工作表名称,具体数据如下

图片

数据集选择“聚类簇编号数据集”,图表类型选择“探索器”,

图片

图片

将字段“late_count”拖拽到X轴,“early_leave_count”拖拽到Y轴

图片

点击图形设置按钮

图片

在设置面板中,点击颜色区域的“+”,选择“Cluster(聚类簇编号)”,点击“确认”。

图片

点击信息区域的“+”,选择“student_id(学生ID)”,点击“确认”。

图片

将“student_id(学生ID)”设置为“维度”。

图片

将限额设置为100%,避免数据过多不显示全部。

图片

点击颜色区域的设置按钮,切换对比强烈的主题。颜色设置后需要点击一下颜色区域外的地方。

图片

点击保存按钮,保存并发布工作表。

图片

同样的,重新新建工作表,依次两两分析4个异常考勤次数的3个聚类簇的表现情况

迟到与请假次数的聚类簇分析:

图片

迟到与没穿校服次数的聚类簇分析:

图片

早退与请假次数的聚类簇分析:

图片

早退与没穿校服次数的聚类簇分析:

图片

请假与没穿校服次数的聚类簇分析:

2.2.4 搭建仪表盘

点击左边菜单“仪表盘”,新建仪表盘

图片

图片

仪表盘名字和备注信息输入“聚类簇分析”,点击“确认”

图片

在右边组件与工作表区域,点击“基础组件”,拖一个文本到画布中,文本内容输入“聚类簇分析”,并设置字体颜色、字体大小、加粗、居中,然后关闭组件窗口

图片

图片

图片

图片

鼠标移至文本组件上,组件右下角可以拖动跳转组件大小,调整至如图

图片

点击工作表组件显示按钮,切换到“工作表”,将之前制作的工作表都拖拽至画布中

图片

图片

使用鼠标拖拽大小至如图:

图片

点击保存按钮,保存并发布仪表盘

图片

2.3 将映射结果加入学生考勤主题标签表

我们需要将最终群体分类数据增加到上一个实验输出的结果表学生考勤主题标签表 student_attendance_stats 中

2.3.1 新增扩展字段

进入上一个实验在数据集成平台中创建的ETL项目,新建转换流“增加考勤主题扩展标签字段”,拖拽“执行一个sql脚本”到画布中

图片

双击“执行一个SQL脚本”组件,数据库连接“团队私有数据库”,输入SQL脚本点击:“确认”

图片

内容为:

-- 为学生考勤统计表添加聚类结果字段

ALTER TABLE student_attendance_stats

ADD COLUMN cluster VARCHAR(10) NULL DEFAULT NULL COMMENT '聚类簇编号',

ADD COLUMN attendance_group VARCHAR(30) NULL DEFAULT NULL COMMENT '考勤群体分类';

2.3.2 聚类簇编号数据获取

打开上一次创建的项目,创建转换流“增加考勤群体分类标签”,然后拖拽“表输入”到画布中

图片

图片

双击“表输入”组件,

图片

2.3.3 字段选择

拖“字段选择”到画布,创建“表输入”组件到“字段选择”的连线

图片

双击“字段选择”,点击“移除”,在字段名称下方空白区域右键-点击“获取字段”,除 student_id、Cluster 外,其他字段均移除

图片

将 student_id、class_id 的类型修改为Integer,点击元数据选项,插入2行, student_id、class_id ,然后点击确认

图片

2.3.4 聚类簇编号映射

添加“值映射”组件到画布中,并字段选择组件到值映射组件的连线,并选择“主输出步骤”

图片

双击“值映射”,使用的字段名为“Cluster ”, 目标字段名为“attendance_group”

图片

在下方字段值表格空白处右键,点击“插入”,双击插入的行,在源值中输入“C1”,目标值输入“轻微波动型”,代表将原数据中的“C1”统一映射为“轻微波动型”。同样的操作,再插入“C2

”“自律规范型”;“C3”“纪律高危型”

图片

2.3.5 更新学生考勤主题标签

拖拽“更新”到画布中,创建值映射组件到更新组件的连线

图片

双击“更新”,数据库连接选择团队私有数据,目标模式为小组的组名,点击目标表后的“浏览”按钮,选择 student_attendance_stats

图片

图片

用来查询的关键字表格空白处获取字段,保留 student_id、class_id

图片

更新字段表格空白处获取字段,删除 student_id。在表字段的 Cluster 字段中需要双击后点击下拉框选择正确的表字段

图片

图片

2.3.6 运行转换流

点击运行按钮

图片

查看结果。切换“元数据”选项,右键“团队私有数据库”,点击“加载元数据”

图片

图片

在点击“查询”,可以看到 cluster、attendance_group的数据已经更新成功了

图片

第三部分:实验结果

3.1 输出结果

本次实验最终输出了以下核心结果:

  1. 聚类结果表(student_cluster :包含每个学生的聚类簇编号和轮廓系数;

  2. 扩展标签表(student_attendance_stats :在原考勤表基础上增加了 cluster(聚类簇编号)和 attendance_group(考勤群体分类)两个扩展字段;

  3. BI 可视化仪表盘:包含 6 张两两指标组合的散点图,直观展示三类学生群体在不同考勤维度上的分布特征。

3.2 聚类群体画像解读

结合 6 组两两指标散点图的分布特征,三类聚类群体的业务画像如下:

C1(蓝色,自律模范型) :在迟到、早退、请假、校服违规次数的所有组合中,数据点高度集中在低频次区间,无明显离群值。这类学生出勤稳定、纪律意识强,各类异常行为极少,是校园考勤行为的正面典型。

C2(青色,轻微波动型) :整体数据点同样集中在低频次区间,但相比 C1 分布略散,少量记录存在轻微的校服违规或请假行为,迟到、早退次数始终保持低位。这类学生整体纪律可控,仅存在偶发的轻微考勤波动,属于需要日常提醒的群体。

C3(黄色,纪律高危型) :数据点呈现明显的“离群特征”,在迟到次数与其他指标的组合图中,出现了大量高频迟到记录,且伴随有不同程度的早退、请假或校服违规行为,是唯一存在多维度叠加违纪的群体。这类学生考勤问题突出,是校园管理中需要重点关注和干预的核心对象。

3.3 群体分类映射总结

聚类簇编号 颜色 群体分类名称 核心特征
C1 蓝色 自律模范型 全维度异常次数均极低,出勤表现稳定,纪律意识强
C2 青色 轻微波动型 迟到早退次数低,偶发校服违规或请假,整体纪律可控
C3 黄色 纪律高危型 全维度异常次数均偏高,高频违纪行为叠加,存在极端离群记录

第四部分:问题与解决

问题一:数据限额导致图表数据展示不全

问题现象:在助睿 BI 中制作散点图工作表时,发现图表中展示的学生数据点数量明显少于预期,部分聚类簇的数据点缺失。

问题原因:BI 平台系统默认的数据展示限额为 2000 条,当数据量超过此限制时,超出部分的数据不会显示在图表中,导致分析结果不完整。

解决方法:在工作表的图形设置中,将数据限额由默认的 2000 条调整为 100%,即可展示全量数据。调整后所有学生数据点均能在散点图中正常显示。

问题二:聚类簇编号可读性差

问题现象:K-Means 聚类输出结果为 C1、C2、C3 等编号,直接查看时无法理解各簇对应的学生群体特征,业务可读性差。

问题原因:聚类算法本身只输出数学编号,不具备业务语义,需要结合可视化分析和业务理解进行人工解读和映射。

解决方法:通过助睿 BI 的可视化分析,观察各聚类簇在不同指标组合下的分布特征,为每个簇赋予具有业务含义的中文标签(自律模范型、轻微波动型、纪律高危型),并在 ETL 环节通过“值映射”组件将编号转换为中文标签后回写至数据表

第五部分:实验总结

      本次实验让我第一次完整地体验了从数据准备到模型产出的全链路。在 AI Studio 中,通过拖拽“数据库加载”“K-Means”“数据入库”三个组件并正确连线,我深刻理解了工作流的基本构成逻辑——数据从何而来、经过怎样的处理、最终流向何处。在配置 K-Means 组件时,我将簇数量设置为 3 个,这个参数的选择直接影响后续群体划分的精细度;在字段属性设置中,我学会了区分 categorical 和 numeric 类型,体会到数据类型设置错误会导致算法无法正常运行。最终聚类结果成功保存至 student_cluster 表,这让我对零代码建模的可行性和便捷性有了直观认识。

       在制作 6 张两两指标散点图的过程中,我学会了通过多维度交叉对比来发现数据规律。例如,当我把“迟到次数”和“早退次数”分别作为 X 轴和 Y 轴,并用颜色区分聚类簇时,C3(黄色)群体清晰地与 C1(蓝色)、C2(青色)拉开了距离,呈现明显的“离群”特征。这种通过视觉图形而非数字表格来理解数据的方式,让我意识到数据可视化在探索性分析中的核心价值——好的图表能让隐藏在数字背后的规律一目了然。同时,遇到数据限额导致图表展示不全的问题,也让我学会了排查 BI 工具配置细节的方法。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐