判别分析怎么做:SPSSAU操作步骤与结果解读
一、判别分析所属模块
判别分析在SPSSAU中属于【进阶方法】模块。
二、方法概述
判别分析主要用于根据一组预测信息,把样本划分到既定类别中,并检验分类效果是否可靠。它适合结果变量本身已经有明确分组、研究者希望判断哪些信息更能区分不同类别的场景。
三、变量设置规则
总的来看,判别分析需要设置2类变量,分别是分析项Y和预测项X;两类变量都需要填写后才能完成分析。
1. 分析项Y的设置规则
(1)分析项Y只能放入1个变量,且为必填项。
(2)这个变量用于表示样本所属的类别,是整项分析的分类目标。
(3)如果类别定义本身不清晰,后续的判别结果也会受到影响。
2. 预测项X的设置规则
(1)预测项X至少放入1个变量,最多可放入200个变量,属于必填项。
(2)这部分变量用于帮助区分不同类别,放入的是研究者希望用于判别的指标。
(3)如果预测项过少,模型的区分信息可能不足;如果预测项很多,则更适合结合结果表现判断哪些变量真正有区分价值。
四、参数设置及解释说明
1. 训练集与测试集比例
(1)系统默认使用9:1,也可以改为8:2、7:3、6:4或5:5。
(2)这个设置决定有多少样本用于建立判别模型,有多少样本用于检验模型在新样本上的表现。
(3)如果样本量较大,通常可以留出更多测试集做稳定检验;如果样本量本身不多,默认比例往往更利于先把模型训练稳。
2. 保存预测结果
(1)该选项用于保存每次分析得到的预测结果。
(2)勾选后,系统会额外生成对应结果,方便查看每个样本被判到了哪一类。
(3)如果后续还要做样本核对、结果留档或和其他分析联动查看,这个选项会更实用。
五、分析结果表格及其解读
SPSSAU完成判别分析后,通常会输出模型训练集和测试集分布、各分类判别函数、训练集预测准确率、测试集预测准确率等表格;如果数据中存在缺失,还会补充样本缺失情况汇总表。
1. 表1:模型训练集和测试集分布

该表格的作用是说明样本是如何被分配到训练集和测试集中的,包含比例、样本量2个核心信息。
- 比例%:表示训练集和测试集各自占全部样本的比重,作用是帮助判断模型训练和检验是否按预设方案执行。判断时重点看是否与前面设置的分配比例一致。
- 样本量:表示训练集、测试集分别包含多少个样本,作用是判断模型建立和检验的基础是否充足。一般来说,两部分样本量都不能过少,尤其测试集过少时,准确率会更容易受个别样本波动影响。
2. 表2:各分类判别函数

该表格的作用是展示不同类别对应的判别规则,通常包含截距以及各预测项在不同类别下的判别系数。
- 截距:是各类别判别函数中的基础部分,作用是与各预测项共同形成类别区分规则。它本身通常不单独判断好坏,更适合结合整张表一起看。
- 各预测项系数:表示各预测项在不同类别判别中的作用方向和作用强弱。作用是帮助判断哪些指标更有助于区分类别。一般来说,同一预测项在不同类别中的系数差异越明显,说明它对分类区分越有价值;如果差异很小,区分作用通常有限。
3. 表3:训练集预测准确率

该表格用于查看模型在训练集上的分类表现,包含样本量、正确率Precision、召回率Recall、F1-score等指标。
- 样本量:表示各类别在训练集中的样本数量,作用是帮助判断某一类别的评价结果是否稳定。类别样本太少时,即使指标看起来较高,也要谨慎解读。
- 正确率Precision:表示模型判为某一类的样本中,真正属于该类的比例,作用是判断预测结果有多准。该指标越高越好,通常80%以上说明表现较好,90%以上说明分类较稳。
- 召回率Recall:表示某一类真实样本中,被模型成功识别出来的比例,作用是判断漏判情况是否严重。该指标越高越好,如果明显偏低,说明该类别容易被错分到其他类别。
- F1-score:是综合反映正确率和召回率的指标,作用是平衡看待分类效果。该指标越高,说明模型在该类别上的整体表现越均衡;如果某类F1-score明显低于其他类别,往往表示这一类的识别效果还需重点关注。
4. 表4:测试集预测准确率

该表格用于检验模型在新样本上的实际分类能力,包含样本量、正确率Precision、召回率Recall、F1-score等指标。
- 样本量:表示测试集中各类别的样本数量,作用是帮助判断外部检验结果是否稳定。样本量越均衡,越有利于客观看待模型表现。
- 正确率Precision:反映测试集中某类预测的准确程度,作用是检验模型在实际应用中的判定可靠性。越高越好,如果比训练集低很多,说明模型泛化能力可能不足。
- 召回率Recall:反映测试集中某类真实样本被识别出来的程度,作用是判断模型是否容易漏掉某一类。若某类召回率偏低,说明该类在实际应用中更容易被遗漏。
- F1-score:用于综合评估测试集上的分类效果,作用是判断模型在新样本上的整体稳定性。通常训练集和测试集的F1-score越接近,说明模型越稳;如果差距过大,就需要警惕过度依赖训练数据的问题。
5. 表5:样本缺失情况汇总

如果原始数据里存在缺失,系统还会输出该表,用于说明最终有多少样本进入分析、多少样本被排除。该表通常包含有效样本、排除无效样本、总计及对应占比。
- 有效样本:表示最终真正参与判别分析的样本数量,作用是判断结果建立在多少有效信息之上。有效样本占比越高越好。
- 排除无效样本:表示因缺失等原因未进入分析的样本数量,作用是提醒研究者关注数据损失。若排除比例较高,应优先检查缺失是否集中在某些类别。
- 总计:表示原始样本总数,作用是与有效样本一起判断数据保留情况。总计本身不判断好坏,但能帮助理解最终分析样本是否缩水明显。
六、分析结果图表及其解读
该方法还会输出训练集预测准确率和测试集预测准确率图表,用于更直观地比较不同类别在各项分类指标上的表现。
1. 训练集预测准确率图
这类图通常用柱形图或条形图展示各类别的正确率、召回率和F1-score。
看图时可以先比较同一类别的三项指标是否都处于较高水平,再看不同类别之间差异是否明显。若某一类别三项指标普遍偏低,说明模型在训练阶段对该类的识别就不够理想。
2. 测试集预测准确率图
这类图用于观察模型在测试集上的真实分类表现,重点是比较各类别指标是否稳定。
如果测试集图表与训练集图表整体走势接近,通常说明模型较稳;如果测试集多个类别的指标明显下滑,尤其F1-score下降明显,则说明模型在新样本上的应用效果需要谨慎看待。
以上就是SPSSAU判别分析方法的相关内容,更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐



所有评论(0)