一、零膨胀负二项回归所属模块

零膨胀负二项回归在SPSSAU中属于【计量经济研究】模块。

二、方法概述

零膨胀负二项回归主要用于分析含有大量零值、同时又存在过度离散特征的计数型数据。它适合医疗、公共管理、经济与社会调查等场景,能同时解释“为什么会出现很多零”和“非零部分如何变化”这两类问题。

三、变量设置规则

1. 总体要求

零膨胀负二项回归共需要设置4类变量,分别是Y(定量)、X(定量/定类)、零膨胀项X【可选】、基数Exposure【可选】。其中Y和X为必填,零膨胀项X与基数Exposure为可选。

2. 具体设置

(1)Y(定量)

● 只能放入1个变量,且为必填。

● 用于放入计数型结果变量,适合零值较多的定量数据场景。

(2)X(定量/定类)

● 最少放入1个,最多可放入100个变量,属于必填项。

● 用于放入影响结果变量的解释变量,既可以是定量变量,也可以是定类变量。

(3)零膨胀项X【可选】

● 最多可放入10个变量,可以不放。

● 用于解释“为什么会出现额外零值”的因素。如果研究中希望单独分析零值形成机制,可以将相关变量放入这里。

(4)基数Exposure【可选】

● 最多可放入1个变量,可以不放。

● 用于放入暴露量或基数类变量,适合不同个体观察机会不完全一致的场景。

四、参数设置及解释说明

标准化

● 该参数默认勾选。

● 含义是对X进行标准化处理。

● 如果不同自变量量纲差异较大,保留标准化通常更便于比较变量影响强弱;如果更关注原始单位下的直接解释,可以结合研究需求决定是否取消。

五、分析结果表格及其解读

SPSSAU完成零膨胀负二项回归后,通常会输出零膨胀数据汇总结果、模型似然比检验、分析结果汇总、简化格式结果表,以及样本缺失情况汇总表;如果数据不满足分析条件,也可能只返回提示信息而不输出完整表格。

1. 表1:零膨胀数据汇总结果

该表格用于直观展示数据中零值和非零值的分布情况,包含项、样本量、百分比3个核心指标。

● 样本量:表示对应类别下的样本数量。它的作用是帮助判断零值是否明显偏多。

● 百分比:表示对应类别在总样本中的占比。若零值比例明显较高,通常说明采用零膨胀类模型更有必要。

● 总计:用于展示总样本量及整体占比,便于核对数据是否完整。

2. 表2:零膨胀负二项回归模型似然比检验

该表格用于比较最终模型和仅截距模型的差异,包含模型、-2倍对数似然值、卡方值、df、p、AIC值、BIC值等指标。

● -2倍对数似然值:用于反映模型拟合情况,常用于不同模型之间比较。一般结合其他指标一起看更稳妥。

● 卡方值:用于衡量最终模型相较于仅截距模型是否有明显改进。一般数值越大,模型改进证据可能越强。

● df:表示检验对应的自由度,主要用于辅助完成统计检验。

● p:是判断模型整体是否显著改进的关键指标。通常当p值小于0.05时,说明最终模型相较于仅截距模型有较明显提升。

● AIC值、BIC值:用于辅助评价模型优劣。判断标准通常一致,数值越小,代表模型综合表现越好。

3. 表3:零膨胀负二项回归分析结果汇总

该表格是核心结果表,用于同时呈现零膨胀部分和计数部分的回归结果,包含回归系数、标准误、z值、p值、OR值、OR值95%置信区间等指标。

● 回归系数:表示变量对结果的影响方向和影响强弱。作用是判断变量与结果之间是正向还是负向关系。

● 标准误:用于反映估计结果的稳定性。一般越小说明估计越稳定。

● z值:用于辅助判断系数是否具有统计意义。通常绝对值越大,说明该变量越可能具有实际解释价值。

● p值:是判断变量是否显著的关键指标。一般当p值小于0.05时,说明该变量影响较明显;当p值大于或等于0.05时,说明证据不足。

● OR值:用于反映变量变化后结果发生相对变化的方向和幅度。一般OR值大于1说明对应影响方向偏正,小于1说明偏负,接近1则说明影响相对有限。

● OR值95% CI:用于显示OR值估计区间。若区间整体远离1,通常说明结果更稳定;若区间跨度很大,则说明结果不够稳定,需要谨慎解读。

● alpha:用于反映数据离散程度,是零膨胀负二项模型里很重要的补充指标。若该项有明显意义,通常说明负二项设定更有现实必要性。

● McFadden R方:用于衡量模型整体解释效果,数值越高通常说明模型相对表现越好,但它和线性回归中的R²不能直接等同理解。

4. 表4:零膨胀负二项回归分析结果汇总-简化格式

该表格用于以更紧凑的方式展示核心结果,包含各项回归系数、样本量、似然比检验和McFadden R方等内容,适合快速查看结论。

● 回归系数:用于快速查看各变量影响方向和显著性标记,适合用于结果汇报。

● 样本量:表示参与分析的有效样本数量,样本越充分,结论通常越稳定。

● 似然比检验:用于快速判断整体模型是否显著优于基准模型,通常重点看对应p值是否小于0.05。

● McFadden R方:用于补充判断模型整体解释效果,可作为简化阅读时的重要参考指标。

5. 表5:样本缺失情况汇总

该表格在原始数据存在缺失时输出,用于展示有效样本、排除无效样本和总样本的数量及占比。

● 有效样本:表示真正进入模型分析的数据量。占比越高,通常说明数据可用性越好。

● 排除无效样本:表示因缺失等原因被剔除的数据量。若占比较高,需要关注数据完整性问题。

● 总计:表示原始总样本量,用于和有效样本进行对照。

以上就是SPSSAU零膨胀负二项回归的相关内容,更深入教程可查看SPSSAU帮助手册、教学视频、疑难解惑等资料。

Logo

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念,把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起,为开发者提供从开发、训练到部署的一站式体验。

更多推荐