二元Logit怎么做:SPSSAU操作与结果解读
一、二元Logit方法所属模块
二元Logit在SPSSAU中属于【进阶方法】模块。
二、方法概述
二元Logit主要用于分析某个结果发生或不发生的影响因素,适合因变量只有两个类别的场景。比如是否购买、是否流失、是否通过审核等问题,都可以用它来判断哪些因素在起作用,以及作用方向和影响强弱。
三、变量设置规则
二元Logit需要设置2类变量,分别是1个因变量和1组自变量,这两类变量都需要填写。
1. 因变量设置
(1)因变量只能放入1个变量。
(2)因变量必须是定类变量。
(3)该变量的编码必须是0和1两类,不能使用其它数字代替,否则分析无法按标准二元Logit方式展开。
2. 自变量设置
(1)自变量至少放入1个,最多可放入200个。
(2)自变量既可以是定量变量,也可以是定类变量。
(3)如果一次放入较多自变量,建议先结合研究目的筛选,再观察结果中的显著性、OR值区间和共线性情况。
四、参数设置及解释说明
1. 保存残差和预测值
(1)勾选后,系统会把残差和预测值单独保存下来,便于后续继续做诊断、筛选或衔接其它分析。
(2)如果后面还要做误差检查、异常样本查看,或者想保留每次分析结果,建议勾选。
2. 共线性诊断
(1)勾选后,会额外输出VIF值和容忍度,用来判断自变量之间是否存在较强重叠。
(2)当自变量较多、变量之间可能互相关联时,建议开启这一项。
3. 方法选择
(1)全进入(默认):把设置好的自变量一次性全部放入模型,适合已有明确理论基础或研究框架的场景。
(2)逐步法:系统会结合显著性表现自动筛选变量,更适合前期探索影响因素。
(3)向前法:从少到多逐步加入变量,适合先看哪些变量能进入模型。
(4)向后法:先把变量全部放入,再逐步剔除不合适的变量,适合初始变量较多的情况。
(5)采用逐步、向前或向后方式时,进入模型的参考标准为显著性小于0.05,移出模型的参考标准为显著性大于0.1。
五、分析结果表格及其解读
二元Logit分析后,通常会输出模型样本情况、模型整体检验、回归结果、预测效果、拟合优度以及部分扩展诊断表格;其中部分表格会随参数选择或数据情况而出现。
1. 表1:二元Logit回归分析基本汇总
该表格用于查看因变量两个类别的样本分布,以及有效样本、缺失样本的整体情况,包含类别频数、百分比、有效样本数、缺失样本数等信息。
● 类别频数与百分比:用于判断两个类别是否过于失衡。如果某一类样本明显过少,模型稳定性和预测效果往往会受影响。一般来说,两类样本越均衡,结果越容易解释。
● 有效样本数:表示真正进入分析的数据量。样本量越充分,模型结果通常越稳。
● 缺失样本数:表示因为缺失信息被排除的数据量。如果缺失占比过高,需要先关注数据质量,否则模型结论可能偏差较大。

2. 表2:二元Logit回归模型似然比检验结果
该表格用于判断整体模型是否成立,同时给出模型优劣比较信息,包含-2倍对数似然值、卡方值、自由度、p值、AIC值、BIC值。
● p值:是判断模型整体是否显著的关键指标。通常小于0.05,说明加入自变量后的模型明显优于只有截距的模型,整体模型成立。
● -2倍对数似然值:用于反映模型拟合情况,通常最终模型这一数值越小,说明拟合表现越好。
● AIC值、BIC值:常用于模型之间比较,在比较多个备选模型时,数值越小通常说明模型更优。

3. 表3:二元Logit回归分析结果汇总
该表格是核心结果表,用于查看每个自变量是否显著、影响方向如何、影响强度多大,包含回归系数、标准误、z值、Wald检验、p值、OR值、OR值95%区间,以及模型的伪R方信息。
● 回归系数:用于判断影响方向。为正,通常表示变量增加时更容易出现目标结果;为负,则表示出现目标结果的可能性降低。
● p值:用于判断某个自变量是否真的有统计意义。通常小于0.05,说明该变量对因变量有显著影响。
● OR值:用于理解影响强弱。OR值大于1,说明该变量会提高目标结果发生的可能性;小于1,说明会降低可能性;等于或接近1,说明影响较弱。

4. 表4:二元Logit回归预测准确率汇总
该表格用于判断模型在分类预测上的表现,包含真实值、预测值、预测准确率和预测错误率。
● 各类别预测准确率:用于分别查看类别0和类别1的识别效果。某一类准确率明显偏低时,说明模型对该类识别较弱。
● 总准确率:用于整体判断分类效果,数值越高通常越好。
● 预测错误率:用于观察分类失误情况,数值越低越理想。

5. 表5:Hosmer-Lemeshow拟合度检验
该表格用于判断模型拟合是否合理,包含卡方值、自由度和p值。
● p值:是这个表最关键的指标。通常大于0.05,说明模型拟合情况较好,预测概率与实际情况差异不大;如果小于0.05,说明模型拟合可能存在问题。
● 卡方值:用于配合p值判断拟合情况,本身通常不单独解读。

6. 表6:Hosmer和Lemeshow检验过程表格
该表格用于展示拟合优度检验的分组过程,包含各预测概率分位组下的观测值、期望值和汇总情况。
● 观测值与期望值:用于比较模型预测和实际数据之间的差距。二者越接近,通常说明模型拟合越自然。
● 分位数组别:用于把样本按预测概率分组,便于观察模型在哪些区间拟合较好或较差。

7. 表7:二元Logit回归分析结果—简化格式
该表格用于快速汇总核心结论,适合写报告、论文或对外展示,包含各变量回归结果、似然比检验、Hosmer-Lemeshow检验和模型解释力信息。
● 简化回归结果:适合快速判断哪些变量显著以及方向如何。
● 模型检验汇总:适合一眼看清模型是否成立、拟合是否合适。

8. 表8:边际效应结果
该表格在输出时,可用于进一步说明自变量变化对目标结果发生概率的实际影响幅度,包含边际效应、标准误、z值、p值和95%区间。
● 边际效应:用于把影响解释得更直观,方便说明某个变量变化后,目标结果的发生概率会朝什么方向变化。绝对值越大,说明影响越明显。
● p值与95%区间:用于判断边际效应是否稳定可信。通常p值小于0.05、区间不跨0时,更说明该影响可靠。

9. 表9:样本缺失情况汇总
该表格用于查看原始样本中有多少数据被纳入分析、有多少因为缺失被剔除,包含有效样本、排除无效样本和总计。
● 有效样本占比:占比越高,说明可用于建模的数据越充分。
● 排除无效样本占比:占比过高时,需要先检查缺失机制和数据采集质量。

10. 表10:迭代中间过程
该表格在使用逐步法、向前法或向后法时出现,用于展示变量进入或移出模型的过程,包含迭代次数、项、未标准化系数、标准误、t值和p值。
● 迭代次数:用于查看模型筛选变量经历了多少步。
● 各步p值变化:用于判断某个变量为什么被保留或被剔除。显著性更稳定的变量更容易留在最终模型中。

11. 表11:共线性诊断
该表格在勾选共线性诊断后出现,用于检查自变量之间是否存在明显重叠,包含VIF值和容忍度。
● VIF值:是判断共线性的核心指标。通常小于5说明问题不大;介于5到10之间说明需要关注;大于10往往提示共线性较强。
● 容忍度:与VIF搭配看更稳妥。通常大于0.2较常见,低于0.1往往提示共线性偏强。

六、分析结果图表及其解读
二元Logit在结果页中还会输出模型关系图和OR值区间图,便于更直观地理解变量影响方向和影响强弱。
1. 模型结果图
该图会把各个自变量与因变量之间的关系直观连接起来,并展示对应结果值。
(1)用途:适合快速查看哪些变量进入了模型,以及它们对结果变量的影响方向。
(2)解读思路:如果某个变量对应结果为正,通常表示会提高目标事件发生的可能性;如果为负,则表示可能性下降。
2. OR值95%CI图
该图以可视化方式展示各自变量的OR值及其区间范围。
(1)用途:适合快速比较不同变量影响强弱,也便于判断结果是否稳定。
(2)解读思路:点位越偏离1,通常说明影响越明显;区间如果没有跨过1,通常说明该变量结果更稳定;如果区间跨过1,则说明结论需要谨慎。
以上就是SPSSAU二元Logit方法的相关内容,更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。
AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。
更多推荐


所有评论(0)