主成分分析
主成分分析(principal component ),利用降维的思想,将多个变量化为少数几个互不相关的综合变量(通常表示为原始变量的线性组合))的统计方法。
其基本思想是变量的降维,就是将原来众多的具有一定相关性的变量重新组合成一组新的相互无关的综合变量来代替原来的变量。 将注意力集中于各次观测中具有最大变异的那些变量,对各次观测中变化不大的变量,可视为常数处理, 因而降低了问题中的变量的维数。
利用主成分分析得到的主成分与原始指标变量之间的关系:
每一个变量都可以表示成各个原始变量的线性组合
主成分的个数少于原始变量个数
主成分保留了原始变量的绝大多数主要信息
各主成分之间相互独立
数学模型
设有m个指标X1 、X2 、X3 、~~ Xm,寻求一组常数,使得这m个指标的线性组合为:
1
案例分析
某研究者测得84名10岁男孩的身高(cm)、坐高(cm)、体重(Kg)、胸围(cm)、肩宽(cm)、肺活量(l)等6项生长发育指标,试利用主成分分析找出少数几个相互独立的主成分,以便进一步的研究。
数据视图
变量视图
2
手把手教你
【一】单击“分析”“降维”“因子分析”
【二】弹出如下所示对话框
【三】将各研究的变量选入右侧“变量”框中
【四】单击选项“描述”,如下图所示,勾选相应的统计量
【五】单击选项“抽取”,系统默认的分析方法为“主成分”,除此之外还有“最大似然”、“综合最小平方法”等;抽取的变量数默认为 特征值大于1的变量;勾选“碎石图”
【六】单击“旋转”,选择方法为“最大方差法(V)”
【七】单击“得分”,可以将变量的得分以“回归”等方法输出,这里就不演示了。
3
结果解读
①描述统计
这是对变量做的描述统计,输出“平均值”和“标准差”
②相关系数矩阵
从各变量之间的相关系数都很大,几乎都大于0.5且有显著性,可以认为各变量之间存在相关性,满足主成分分析。
③KMO和Bartlett检验
KMO统计量为0.848,大于最低标准0.5,适合做因子分析(主成分分析为因子分析的一种);除此之外,也可以通过Bartlett的球度检验来判断,sig<0.001,故也可做因子分析;
④公因子方差
初始值,表示对变量的100%解释,而提取 则表示保留选中的成分后所占的解释;该分析从每个原始变量中提取的信息,变量“肩宽”和“体重”损失的变量较少;
⑤总方差解释
结果显示第一个主成分的特征值大于1,累计贡献率达70.6%,单从这角度来说,保留一个主成分为宜;
⑥碎石图
碎石图的作用和总方差解释的用处一致,优点是结果更直观;在实际分析中,我们常常去相对较“陡”的成分,本例可取第一和第二个成分;
⑦成分矩阵
成分矩阵,即因子载荷矩阵,系统默认输出特征值大于1的成分,即组件1 ;从因子载荷阵可知,该成分与原始变量的系数;
如果单纯从特征值是否大于1来判断需提取的主成分,往往会损失一些信息;这就要求我们还得从研究的目的和实际情况出发,尽可能地选取有效的,多的信息。下面介绍如何主动地提取需要的主成分
4
手动提取主成分
【1】单击选项“抽取”,选中“因子的固定数量”,本例就提取六个主成分,“继续”
【结果】
虽然只有组件1 的特征值大于1,但从实际意义来看,前三个主成分较为合适,累计贡献率达90%左右;
5
总结(敲黑板)
主成分分析都依赖于原始变量,所以原始变量的选择很重要 (指标的选择非常重要)。如果原始变量都本质上 独立,那么降维就可能失败,这是因为很难把很多独 立变量用少数综合的变量概括。数据越相关,降维效果就越好。其次,对于具体的问题指标选取之后 还要对其处理,正向指标、逆向的指标和区间型指标 怎样转换成可以比较的指标问题。最后,从相关系 数出发建立主成分的系数矩阵还是从协方差矩阵出 发建立主成分的系数还没有定论。因子分析中的特殊因子如果作用较大,不能从因子载荷阵推主成分系数。可见建立主成分模型的事前步骤和事后分析很重要,不是随便什么数据拿来用 SPSS 软件分析得 出结果就行了。
更多推荐
所有评论(0)