fsQCA基础知识及操作步骤
目录
(二)反向案例分析 Contrarian case analysis
一、fsQCA的基础知识
(一)fsQCA定义
fsQCA,即模糊集定性比较分析方法,是一种案例导向型的研究方法,其基于集合论思想和组态思维,将定性分析与定量分析有效联结,基本思想就是借助架构理论和布尔代数运算,从集合的角度考察前因条件及条件组合与结果的关系,从而解释现象背后的复杂因果关系。
(二)关于fsQCA的基础问答
Q:复杂因果关系指的是?
A:复杂因果关系是指: QCA尝试超越传统的个案研究方法,系统考察事件发生的成因以及内部生成因子之间的互动关系、可能性关系组合,试图解释促成事件产生的关键因子、因子之间的相互联系以及激发事件产生的复杂的成因组合,以期深化对事件产生的复杂因果关系的理解。
Q:该方法的优势在哪里?
A:第一,QCA采用多案例研究,通过建立起因果关系的多元分析构成,充分地注意到了个案本身的异质性和复杂性;第二,能分析多重因果关系组合,能识别影响给定结果出现的前因条件组态,探究不同前因组态间的等效性,并对给定结果存在或不存在的前因组态单独分析。第三,区别于传统质性研究挖掘个案间变量关系的做法,QCA以逻辑条件组合为基础,进行同一模式内不同个案之间以及不同模式之间的比较。
其突出优势在于:对样本规模要求不高、能分析原因组合对结果的作用、厘清导致这一结果的多种复杂方式和渠道。
Q:为什么称其为模糊集定性比较分析?
A1:清晰集与模糊集的区别?
清晰集:是案例间完全质性的区分。在清晰集合中,每个案例被二分类到一个隶属上去:“1”(隶属于集合)或“0”(不隶属于该集合)。模糊集:延伸了清晰集,允许取“0”和“1”之间的部分隶属分数,其背后的基本思想是允许集合分数的刻度化,允许部分隶属。
A2:隶属分数是的是什么呢?有无划分依据?
模糊隶属分数:代表不同案例属于某集合的程度,包括两个定性状态:完全隶属和完全不隶属。
常规性划分依据可参考下图:
Q:模糊集中包含哪些运算?含有那些集合关系类型?
关于模糊集中的常规原酸要理清,集合的基本运算、基本子集,及在模糊集子集合关系中需要用到的关系。
A1:QCA中的集合基本运算有哪些?
“非”--和逻辑学上的“非”用法一样
在清晰集中,“非”运算将隶属分数从1转换为0,从0转换为1;在模糊集中,计算“非”模糊集A的隶属程度,需用1减去它在集合A中的隶属分数。 ~A = [1]-A。
“逻辑与”(*)--逻辑学上的“且”,也是我们高中学集合时的“交集”。
案例在组合集合的隶属得分是由对其构成集合的隶属分数取最小值而得。
“逻辑或”--逻辑学上的“或”,也是高中学集合时的“并集”。
案例在两个或更多个模糊集的并集的隶属分数是由构成它的组合集合中最大的隶属分数决定的。
A2:集合关系有哪几种?
必要条件---- 研究共享给定结果的案例去试图分辨它们共有的前因条件,这时具有特定结果的案例构成了共有前因案例的子集。即共有的前因条件是结果的必要条件。
充分条件----研究共享特定前因条件的案例,或是前因条件的特定组合,并评估这些案例是否呈现出相同的结果。这时具有特定前因条件或前因条件组合的案例构成共有结果案例的子集。即共享的前因条件是结果的充分条件。
Q:什么是模糊子集?
A:模糊集子集合的关系需要使用模糊代数评价。在模糊集合中,一个子集合关系表示:在某一(条件或条件组合)集合隶属分数一致性地小于或等于在另一(结果)集合的隶属分数。
Q:用fsQCA的论文中包含的板块大致有哪些?
A:以模糊集定性比较分析(fsQCA)为例,大概分为几个步骤:问题的提出、文献回顾和分析框架(根据条件变量进行阐述)、研究方法(模糊集定性比较分析方法、样本、测量和校准)、分析结果(必要条件分析、条件组态分析、稳健性检验)、结论和建议.
ps:引用出处[]
Q:什么时候需要选择fsQCA?
A:QCA主要包括确定集(crisp set)、模糊集(fuzzy set)和多值集(multi value)三种具体操作方法。
拉金(1987)将布尔代数和集合理论结合起来,发展出二分变量的 QCA 技术,用于处理两分变量的解释变量和结果变量,即确定/清晰集定性比较分析(crisp-sets QCA,csQCA)。 此后,拉金(Ragin,2000)将模糊集合引入定性比较分析,提出了模糊集定性比较分析( fuzzy-sets QCA,fsQCA) 技术。 克隆维斯特于2004年将QCA扩展到可以处理多值的条件变量,,并提出多值集定性比较分析 (multi value QCA,mvQCA)。
确定/清晰集定性比较分析csQCA
csQCA只能处理原因变量和结果变量均为二分变量的案例,无法处理统计分析中所出现的大量的定距变量。
模糊集定性比较分析fsQCA
基于模糊集的定性比较分析方法fsQCA突破了这一问题,是对csQCA的一个拓展。 在现实生活中,往往能观察到的特征在不同个案中的差别是连续的,因此采用二分变量来刻画这些特征是不合适的。
拉金(Ragin,1987)提出可以采用多个值(比如:0、0.5、1)来刻画个案的某些属性。 比如,在fsQCA里,个案的某个特征是否可以被观察到的程度可以刻画为从0-1之间的任何数,而不局限于0或1这两个数。这被称为成员身份度(membership score)。 fsQCA的运算原理与csQCA一致,拉金(Ragin,2008)提出可以利用成员身份度模糊集形成真值表,然后以真值表为基础算出结果特征是哪些原因特征组合的子集,最后通过布尔代数算法简化这些原因特征组合。这主要是运用集合关系和集合间的逻辑运算规则来探索多个案中事先确定的原因条件对结果产生的影响。 此外,拉金等人还开发了fsQCA的计算软件fs/QCA2.0,并得到了广泛应用。
多值集定性比较分析mvQCA
多值集定性比较分析方法mvQCA也是以csQCA为基础发展出来的新方法,是一种与fsQCA并行的方法。 多值集可以看作是确定集和模糊集之间的一个中间状态。 与模糊集不同的是,多值集方法并不是将变量的数值处理成 0 到 1 之间的隶属度分数,而是在确定集的二分法基础上,对变量的数值进行多分,以增加变量的信息。 多值集在扩展二分法的基础上,将原来的清晰集拓展成了一种可以处理类别变量的方法。这种方法还可以通过分类的方式,将定距变量转化为类别变量而纳入分析模型之中。 由此引出的一些新的问题和技术,则可以通过由德国政治科学家莱塞 · 克朗克齐斯特(Lasse Cronqvist) 开发的多值集方法及相应的操作软件TOSMANA ( Tool for small-n analysis) 来进行操作。
二、fsQCA的操作流程及步骤
粗略步骤可归纳为:excel准备数据,转换成格式csv,导入fsQCA软件;校准;必要性条件分析;组态分析,构建真值表;读结果。
(一)分析逻辑
QCA采用布尔代数算法形式化人们分析问题时的逻辑过程。在逻辑比较时,布尔代数方法将任何一个个案都看成是由多个原因条件与结果条件结合而成的。如果个案数量较多,这种关于原因条件与结果条件的深度分析将超出人脑力的可乘载负荷。就需要以基于变量的定量分析来做替代。而QCA的产生。使得在个案数较多的情况下仍然可以不用求助于传统的定量分析方法。它利用布尔代数运算法则简化原因条件与结果条件之间的关系。 以下将通过具体的例子对QCA的分析逻辑及具体操作程序进行说明。
首先,QCA方法的基础是将变量先做两分处理。即解释变量和结果变量各有两种,变量取值为0 或1。 表示某条件发生或存在时,变量用大写字母来表示,取值为1;反之,表示某条件不发生或不存在时,变量用小写字母或-来表示,取值为0(其中,小写字母表示不发生,-表示不存在)。 +代表“或”,*代表“和”,→及=均代表“导致”。 比如A*B=Y表示A和B同时发生导致Y的发生。
其次,QCA的分析逻辑与定量分析不同,主要体现在对因果关系的理解上。 定量研究假定社会现象的因果关系是线性的,而定性比较分析则假定社会现象的因果关系是非线性的,原因条件对结果的效应是相互依赖的,且同一个社会现象的发生可能是由不同的原因组合所导致的。由于QCA假定因果关系是多样的复杂的(complexity)且是可替代的(substitutability),所以更加关注社会现象发生的多重原因组合(multiple conjectural cause),即一个条件对结果的影响同时取决于其他条件。 比如原因条件A和B同时出现导致结果Y的产生,C和D同时出现也能导致结果Y(A*B+C*D=Y),即同一个结果的产生可能是由多个不同的原因组合所致。 再比如在社会情景B下,原因条件A出现可能导致Y的产生,即A*B=Y;在社会情景D下,原因条件A不出现也可能导致Y,即a*D=Y。 也就是说,同一个原因条件的发生或不发生与不同的社会情景相结合,都能产生同样的结果,即A*B+a*D=Y。
再次,QCA的分析单位是条件组合而不是案例,研究者以所有的条件组合作为分析的基础,根据布尔代数(Boolean algebra)算法简化条件组合。 布尔代数最基本的运算逻辑是寻找不同组合的共同点:如由A*B+A*b=Y可以得到A=Y,即如果两个不同的原因组合A*B和A*b同时导致结果Y的产生,并且这两个组合当中有且仅有一个原因条件的取值不同(如本例中的B和b),则原因条件B是冗余的。
最后,QCA是基于必要条件和充分条件的推断逻辑,而不是统计推断的逻辑,因此,定性比较分析持“非对称因果关系”,即研究者不能从A=Y直接推断出a=y。 反之,研究者既可以分析社会现象发生的原因(Y),也可以分析其不发生的原因(y)。 分析Y时,y对应的数据并不纳入分析过程,反之亦然。
(二)fsQCA的操作流程
(1)条件选择
QCA第一步通常是建立理论上合理的组态模型,根据研究问题选择合适的条件和结果变量,强调基于理论或经验知识确定与研究问题相关的条件变量。
条件数量:既要考虑样本数量,也要考虑模型简约性,3~8个为宜(前因条件增加所需样本量陡增,所以在选择样本量时要仔细考虑样本量大小)。
①由于k个条件在理论上存在2k组合,过多的条件数量很容易导致组态个数超过观察案例个数,从而出现案例的“有限多样性”问题,故建议小样本规模(10-40个案例)的研究应将模型限制在7个前因条件之内。
②大样本研究避免了有限多样性问题,但条件数量过多可能会使研究结果的解释复杂化。
(2)案例选择
1.QCA是案例导向型的方法,最初是专门针对中小样本研究情景开发的,一般应遵循理论抽样原则,根据理论和案例的特点选择样本。
2.在大样本研究中,QCA也可以处理数千个案例,使用大样本研究可以采用传统的随机抽样策略或有目的的抽样方法,从而将研究情景扩展到更大的样本群体中。
选择案例时应注意几点:
①案例总体的充分同质性,入选案例在整体上应当是相似且可以比较的;
②案例总体内的最大异质性,入选案例既要包括 “正面案例”,又要包括 “反面案例”,避免呈现出过度的一致;
③案例数量与条件变量数量基本匹配,避免QCA研究中经常出现的有限多样性问题。
举些例子,随意选了几篇文献看一下别人的变量和案例数量选择:
[1]方竹兰,徐腾达.人力资本制度与区域创新绩效——基于模糊集定性比较分析(fsQCA)的研究[J].经济理论与经济管理,2021,41(11):23-34.
条件变量(6个):人力资本培育制度、保障制度、信用制度、组织制度、产权制度、定价制度
结果变量:创新绩效
案例选择:以我国30个省级行政区为样本
[2]武永超.挂牌督办何以有效?——基于38起安全生产事故的fsQCA研究[J].中国行政管理,2021,(11):100-107.
条件变量(6个):科层压力、规制压力、舆论压力、政府响应、企业响应、公众参与
结果变量:督办效果
案例选择:基于2010-2020年38起安全生产事故挂牌督办案例,数据来源于中华人民共和国应急管理部、国家安监总局、 安全管理网等官方网站。
[3]韩娜娜.中国省级政府网上政务服务能力的生成逻辑及模式——基于31省数据的模糊集定性比较分析[J].公共行政评论,2019,12(04):82-100+191-192.
条件变量(5个):政府组织开放性、自身重视程度、政府财政资源能力、中央政府支持、公众需求压力
结果变量:网上政务服务能力
案例选择:以中国31个省级行政区域 (不包括中国港澳台地区) 作为研究对象
[4]王英伟.权威应援、资源整合与外压中和:邻避抗争治理中政策工具的选择逻辑——基于(fsQCA)模糊集定性比较分析[J].公共管理学报,2020,17(02):27-39+166.
条件变量(7个):上级政府态度、核心领导动员、部门之间联动、民间政策活动家斡旋、群众抗议程度、社会组织干预、媒体舆论施压
结果变量:(具有某一特征的政策工具)强制型工具、渐进型工具、退让型工具
案例选择:共选取了30个邻避案例,其中案例资料主要源于政务公开平台、学术论文、媒体报道、民众诉求陈述记录、政府回应文本、微博、微信、贴吧等。
(3)数据校准
校准是指赋予案例的特定条件集合隶属度的过程,只有将原始案例数据校准为集合隶属分数后,才能进一步进行必要性与充分性的子集关系分析。fsQCA允许将案例数据校准为0.0~1.0的集合隶属分数。
①直接校准法(大多用的都是这个方法)
基于理论和实践使用三个定性锚点进行结构化校准:完全隶属阈值、完全不隶属阈值、交叉点,然后使用软件的算法进行校准。
注意锚点的选择应遵循合理性和透明性的原则,可以参考现存的理论或提供理论依据,或参考外部样本进行经验论证,也可基于样本数据的频率分布选择锚点。
常见校准标准:分位数95%,50%,5% ;75%,50%,25%
②间接校准法
需要在定性评价的基础上对测量结果进行重新标定。首先将案例分为不同隶属级别(假定隶属度),再指定这些不同级别的初步隶属分数(基于理论与实质性知识以定性方式对其进行分类),然后使用定距尺度数据对这些隶属分数进行优化。
直接校准法操作说明:
“打开数据”——单击“变量”——点击“计算”——命名目标模糊集(字母)——在功能菜单中单击“校准calibrate”——单击旁边向上箭头,出现calibrate(x,n1,n2,n3),分别编辑,x为变量名称,n1是完全隶属阈值对应的intvar值,n2是交叉点对应的intvar值,n3是完全不隶属阈值对应的intvar值——点击“确定”——点击“案例”,可进行升序或降序。
利用SPSS中的频率 - 统计数据 -百分位数找到三个阈值所对应的原始值
校准过后,在 fsQCA 中,恰好在0.5隶属度的案例被从分析中删除(Ragin,2008b)。为了克服这个问题,Fiss (2011)建议在隶属度为1以下的前因条件中加入0.001的常数。有些研究会将0.5更改为0.501或0.499。
(4)单个条件的必要性分析
在进行标准的QCA的标准分析之前,应检查是否有任何条件对结果来说是必要的。
即“必要条件”:该条件总在结果存在时出现,换言之,没有该条件,结果就无法产生。主要是为了评估结果集合和单个条件集合的子集关系。
通常认定必要条件需要达到0.9的一致性分数(这个也有其余一致性分数),并且具有足够的覆盖度。
操作说明:
在菜单“分析”中点击“必要条件”——在Outcome栏选择结果变量(做两次,非集也要)——在左边Add Condition栏里添加所有的条件变量到右边框里,包括非集——点击“OK”
(5)组态分析
①构建并完善真值表:设定相关门槛值初步筛选真值表行
1.确定最小案例频数以避免经验上琐碎的组态
小样本研究可考虑最小案例频数为1或2,大样本会考虑更高案例频数,但要保留80%左右原始案例数。更高的频数阈值意味着每个组态包含更多的案例,但结果会降低覆盖样本的百分比(即覆盖度),另一方面,较低的频数阈值增加了样本的覆盖度,但会包含一些琐碎组态。
2.确定一致性门槛值以确保组态的解释力度
选择一致性阈值的第一个依据是确定已经获得的一致性中的自然断点,一般一致性设置为0.8,最低标准是0.75。
3.PRI一致性(“不一致性的比例减少”)
建议将PRI值保持在0.75以上,以避免“同时子集关系”问题。
如何构建真值表?
真值表共2k行,每行会显示有每个向量空间角中隶属度大于0.5的案例数量、一致性。
操作说明:
单击菜单“分析”里的真值表运算算法“Truth Table Algorithm”——选择结果变量添加至Outcome栏,选择条件变量添加至右框——单击“OK”——创建真值表
如何完善真值表?
1.为案例数设定频数阈值,排完序后,删除低于阈值的所有行;
2.设定一致性阈值,一般是0.8;
3.手动更改结果列,根据设定的一致性阈值,当一致性分数满足或超过一致性阈值时输入值1,否则为0;
4.单击底部的“标准分析”,生成三种解:复杂解、简约解、中间解。在导出中间解之前,会出现一个对话框询问对“每个条件的预期”,可以指定条件是“缺失”、“存在”、“缺失或存在”。
②标准分析
单击底部的“标准分析”,生成三种解。在导出中间解之前,会出现一个对话框询问对“每个条件的预期”,可以指定条件是“缺失”、“存在”、“缺失或存在”。
一般情况下,都选择“缺失或存在”,如果某个条件在必要性分析时是必要条件,就选择“存在”,如果是~A是必要条件,就选择A条件是缺失
“解”:一个由大量案例支持的组态组合
1.复杂解(不包括逻辑余项,如上图):基于原始数据,排除了涉及有限简化的反事实案例,不经过任何反事实分析,通常包含更多组态和前因条件。
2.简约解(包括逻辑余项但不对其合理性进行评价,如上图):经过了简单和困难反事实分析,组态和条件数量最少。简约解包括任何可以促成逻辑上更简单的解的反事实组合。
3.中间解(使用逻辑余项但仅限于那些有合理依据的,如上图):只考虑了简单的反事实分析,纳入符合理论方向预期和经验证据的逻辑余项。合理有据、复杂度适中的中间解通常是QCA研究中汇报和诠释的首选。
中间解有几行,就表示存在几条路径,在每条路径中,哪些条件是该条路径的核心条件,哪些是边缘条件,则需要继续分析,并通过结果表直观展现出来。
(6)结果解释-制作结果表
解释分析结果的一种常用方法是使用中间解来确定导致结果的组态数量和这些组态的包含条件,然后利用简约解的结果来确定对给定组态较为重要的核心条件。
①出现在简约解中的条件被称为给定组态的核心条件,表明与所关注的结果之间存在很强的因果关系;
②出现在中间解但没有出现在简约解的其余条件称为边缘条件,与结果之间因果关系较弱。
整体一致性为0.841,大于0.8,一致性程度很好;整体覆盖度为0.84,大于0.5,解释力度很高
(三)操作流程可能遇到的问题强调
Q:单变量必要性分析主要包含那些板块?
A:常规的 QCA 运算中,单变量必要性分析是通过一致性指标 (Consistency ) 来判断的,将一致性公式简化如下:
Consistency (Xi≤Yi) =∑ [min (Xi, Yi) ] /∑Xi
如果条件 X (单个条件或条件组合 ) 是 Y 的充分条件,则 X 的模糊集分值应小于等于 Y 的模糊集分值,且一致性指标大于 0.8。
同时也可通过一致性指标 Consistency (Yi≤Xi) 来判断 X 是否为 Y 的必要条件,如果大于 0.9, 则可认为 X 是 Y 的必要条件。
在完成充分或必要条件判断后, 可进一步通过覆盖率指标 (Coverage ) 来判断条件 (或组合 ) X 对于结果 Y 的解释力度, 将覆盖率公式简化如下:
Coverage (Xi≤Yi) =∑ [min (Xi, Yi) ] /∑Yi
该指标描述了条件 (或组合 ) X 对结果 Y 的解释力度。覆盖率指标的数值越大,则说明 X 在经验上对 Y 的解释力越大。通过 fsQCA 软件进行运算后得到单个条件变量的必要性分析结果 (见表 3 ) 。
Q:稳健性检验包含那些板块?
A:检查分析结果的稳健性是QCA 研究的关键步骤。QCA的稳健性检验包含多种方式,常用的方法是合理调整相关参数的设定,例如校准依据、最小案例频数和一致性门槛值,然后对调整后的数据再次进行分析,比较组态的变化以评估结果的可靠性(Leppänen等, 2019)。如果参数的调整没有导致组态的数量、组成部分以及一致性和覆盖度的实质性变化,那么可以认为分析结果是可靠的(Greckhamer等, 2018)。
Q:组态分析具体包含那些?
A:组态分析包含真值表完善和标准分析两个子步骤。首先,研究人员要设定相关的门槛值以初步筛选真值表行。第一个标准是确定最小案例频数以避免经验上琐碎的组态。在小样本研究中(例如,10-40个案例) ,研究人员可以考虑最小案例频数为1或2。大样本的研究应该考虑更高的案例频数,但要保留80%左右的原始案例数(Douglas等, 2020)。第二个标准是确定一致性门槛值以确保组态的解释力度,现有研究指出一致性大于0.8是可接受的最低标准(Leppänen等, 2019)。第三个标准涉及PRI一致性,最佳实践建议将PRI保持在0.75以上,以避免“同时子集关系”的问题(Leppänen等, 2019; 张明和杜运周, 2019)。
Q:FsQCA 和聚类分析的区别?
A:FsQCA 和数据聚类方法都是基于案例的技术(Cooper & Glaesser,2011)。这两种技术有相似之处,因为它们都运用了多维空间(multidimensional spaces)。 fsQCA 和聚类的一个主要区别在于它们能够解决的研究问题(Greckhamer,Furnari,Fiss & Aguilera,2018)。具体来说,数据聚类可以回答“哪些案例彼此更相似”的问题,而 fsQCA 可以识别"构成给定结果的充分和/或必要条件的不同组态"。QCA 通过集合论操作解决了案例在[多维]空间中的定位问题,而数据聚类则依赖于几何距离度量和方差最小化。为此,先前研究比较了两种分析方法(Greckhamer et al. ,2018; Miller,2018) ,并展示了 fsQCA 如何处理细致数据的因果复杂性(Fiss,2011) 。这两种方法适用于不同类型的研究。根据研究重点,研究者应该选择最合适的方法。
三、fsQCA案例介绍
本节使用最近一项研究中的数据(Pappas et al. ,2016),提供了fsQCA逐步分析的教程。图1展示了 fsQCA 的推荐步骤。
(一)研究背景介绍
本文所基于的研究考察了在个性化电子商务环境中,认知和情感感知作为网上购物行为的前因(Pappas et al., 2016)。采用滚雪球抽样方法来招募参与者,样本包括582名具有网上购物和个性化服务经验的个人。通过问卷调查收集数据,附录A列出了构念的定义、测量,以及描述性统计和负荷。
在定量研究中,首先需要评估构念的信度和效度。构念的信效度,顾名思义,是指构念本身,而不是用来检验构念间关系的分析方法,因而与fsQCA分析并没有直接关系,这一步是否需要执行还需视情况而定。本文的验证性分析部分可以在原始论文中找到(Pappas et al. ,2016)。
(二)反向案例分析 Contrarian case analysis
反向案例分析是在 fsQCA 之外执行的,它可以简单而快速地检查样本中有多少案例未被主效应解释,不会被包含在典型的VBA(例如,相关性或回归分析)的结果中(Woodside,2014,2016a)。先前仅有少数研究进行了反向案例分析(Pappas 等人,2016) ,许多使用 fsQCA 的研究没有汇报反向案例的测试。事实上,当检查两个变量之间的关系时,样本中的大多数情况都验证了主要关系(正向或负向)。然而,样本中某些案例似乎存在相反关系的情况。这种情况可以通过反向案例分析来确定(Woodside,2014),因为反向案例的发生与主效应的显著性无关。
进行反向案例分析,首先需要分割样本,以调查被检验变量间的关系。为此,我们使用五分位数(quintiles,将样本分成五个相等的组)来分割相同的结果。应该避免其他分割方法,如中位数分割,可能导致统计能力的降低,以及当变量相关时产生假结果(Fitzsimons,2008)。接下来对五分位数进行交叉表格处理,交叉表格能够计算变量之间的联系程度,表明两个变量之间的依赖关系,并描述了它们之间的主效应。任意两个变量的处理结果是一个5×5的表,它显示了样本中两个变量之间所有情况的所有组合(附录 b 图B4) 。左上角和右下角的案例代表主要主效应(例如,关联程度) ,而左下角和右上角的案例则不能用主效应来解释。后者即样本中存在的反向案例。
关于如何进行反向案例分析的所有细节见附录 b,所有变量的反向案例分析结果见附录 c 。研究结果表明,这些变量之间存在着各种各样的与主效应分离的关系,支持进行组态分析的必要性。
(三)校准 Calibration
(1)数据处理 Data treatment
在 fsQCA 中最重要的一步是数据校准。大多数类型的数据都可以被使用(例如,调查回复、点击流、用户/绩效数据和生理数据)。当一个变量或构念用多个题项进行测量时,我们需要为每个构念计算一个值,用作 fsQCA 中的输入。换句话说,对于数据集中的每个案例(行) ,每个构念(列)都需要一个值。最简单的方法是计算所有题项的平均值,以便为每个案例提供一个单一值。
此外,fsQCA 并不测试构念的信度和效度,因为这些测主要用于测量而不是分析方法。如果研究中使用的构念需要测试其信度和效度,那么这是在 fsQCA 分析之前进行的,遵循传统的方法,并且必须相应地报告。
FsQCA 将数据从定序或区间尺度转换为目标集合中的隶属度,这显示了一个案例是否或在多大程度上属于特定的集合。一个模糊集隶属度给一个陈述(statement)赋予了一个真实值,而不是一个概率。例如,可将购买意愿变量编码为”高购买意愿”,我们将探究高购买意愿条件的存在或不存在(”购买意愿”是变量,”高购买意愿”是条件)。
FsQCA 单独计算条件的存在或条件的对立面(即否定)。条件的否定在文献中被称为条件的缺席(absent)(Fiss,2011; Pappas,2018; Ragin,2008b)。缺席这个术语也被用来描述当这种情况在组态中无关紧要的时候(Nagy et al. ,2017; Woodside,2017) ,类似于文献中经常使用的“do not care”(Fiss,2011; Pappas et al. ,2016)。然而,二者是有区别的,研究人员在未来的工作中清楚地定义这些术语(Pappas,2018) 。
(2)将数据转换为模糊集
在 fsQCA 中,需要将案例的某一变量值校准为0至1的模糊集隶属度,从而成为一个集合(Ragin,2008b)。模糊隶属度为1说明该案例完全隶属于该集合(完全在集合中) ,而模糊隶属度为0说明该案例完全不隶属于该集合(完全在集合外)。模糊隶属度为0.5也称交叉点、中间点或最大模糊点,指一个案例既是模糊集的隶属又是非隶属。
校准方法可分为直接和间接两种方式。在直接校准法中,研究人员需要精确地选择3个定性截断点,截断点定义了每个案例在模糊集中的隶属水平(完全隶属,中间点,完全不隶属)。在间接校准法(也叫赋值法)中,需要在定性评价的基础上对测量结果进行重新标定(rescaled)。研究人员可能会根据研究问题,以及研究人员对数据和基本理论的实质性知识,选择不同的校准方法(Rihoux & Ragin,2009)。建议使用直接校准法,这种方法更为常见。此外,清楚地汇报阈值是如何选择的,有助于研究更严谨,可重复和验证。
(3)为直接校准法选择阈值
为了校准数据,我们可以选择值0.95、0.50、0.05作为三个阈值(注意,这里是对应的模糊集隶属度,而非在软件中输入0.95/0.50/0.05) ,把数据转换为0到1之间的值。我们不使用精确的1和0作为断点,因为对于概率对数而言,这两个隶属度分别对应于正无穷和负无穷(Ragin,2008a)。要查找数据集中与0.95、0.50和0.05相对应的值,通常使用百分位数。百分位数允许任何数据类型测量的校准,不管其原始值是多少。具体来说,可以在 SPSS 中使用“百分位数”函数(频率 > 统计数据 > 百分位数)计算95% 、50% 和5% 的值,并使用这些值作为 fsQCA 软件中的三个阈值。尽管如此,阈值应当视情况改变或调整,研究人员不能机械地选择阈值。例如,如果数据不是正态分布,而是倾斜的,那么完全隶属、中间点和完全不隶属的阈值可以分别设置为原始数据的80% 、50% 和20% (Pappas,Mikalef,Giannakos,& Pavlou,2017)。在任何情况下,阈值的选择都应该得到合理的解释和相应的报告,并附上一个表格,列出与每个阈值相对应的原始值(图2)。
对于广泛使用李克特量表,有其独特的校准方式。先前研究表明,对于7点量表,可以用6,4,2作阈值(Ordanini 等人,2014; Pappas 等人,2016)。类似地,对于5点李克特量表,阈值可以为4,3,2。图2所示的例子使用了7点李克特量表。我们注意到,对于大多数变量,百分位数给出的值与我们直接选择6、4和2给出的值相同。然而,并非所有变量都是这样。具体来说,弱负面情绪总体得分最低,95% 、50% 和5% 分别是4.33、2.00和1.00。由于这是一个用7点李克特量表测量的构念,如果我们使用95%作为完全隶属,这意味着分数4.33或更高的用户完全隶属于集合。然而,这将是一个不准确的情况,因为4.33更接近于7点量表的中点。因此,使用阈值6、4、2可以更准确地表示示例。
不管数据倾斜度,对所有的量表采用统一的刻度值。而先前一些使用李克特量表的研究则提出了相反论点,即当数据分布有偏时,校准点也应当调整。例如7点量表使用6,4.5,3(Mikalef和Pateli, 2017);5点量表使用5,3.5,1 (Jacobs和Cambre, 2020)
(4) 在 fsQCA 软件中校准数据
一旦确定了阈值,我们就进入 fsQCA 软件(fsqca3.0版本)中的数据校准(Ragin & Davey,2016)。数据集文件需要使用“comma-separated values” (.csv)格式。校准通过使用软件的Compute > Calibrate 功能来执行,将待校准的变量和3个锚点(从最高值到最低值)作为输入。应该指出的是,研究人员可能会使用其他软件的校准程序,并不是必须使用Logistic校准所有值。相反,也可以使用其他隶属函数(线性或非线性)(Mendel & Korjani,2012年)。此外,fsQCA 软件也存在一个用于 R 的包(Thiem & Dusa,2013)。
在 fsQCA 中,恰好在0.5隶属度的案例被从分析中删除(Ragin,2008b)。为了克服这个问题,Fiss (2011)建议在隶属度为1以下的前因条件中加入0.001的常数。
【补充,一些研究仅将隶属度为0.5的值修改为0.501(Campbell等, 2016),而非修改全部;也有改为0.499(Crilly等, 2012)】
校准后,数据集包括每个变量的两个版本(图3)。 下一步运行模糊集算法和真值表的生成。
选择软件中的“ Analyze > Truth Table Algorithm ”程序。选择要分析的变量(图4)。具体来说,前因条件是自变量,结果是因变量。研究者可以选择计算结果的存在或不存在。通过单击 OK,fsQCA 生成真值表。
真值表计算可能发生的所有可能的组态或组合,一共有2^k行(k 代表前因条件的数量),每一行代表每一种可能的组合。所有真值表行都包含案例频数(即每个可能组合的观测案例数目) 。有几行的频数为零,这意味着它们不能解释样本中的任何案例。随着分析中变量数量的增加,可能的组态数量呈指数增长,因而变量越多,频数为零的真值表行越多。因此,在分析中包括更多的变量可能会受益于更大的样本容量,这在典型的定量分析(例如,MRA,SEM)中是常见的。
接下来,真值表需要按照频数和一致性进行筛选(Ragin,2008b)。由于频数描述了所在组态覆盖的样本数量,为了确保获得用于评估关系的最小个案数,需要设置频数阈值(即column number)(图5)。更高的频数阈值意味着每个组态包含更多的案例,但是结果会降低覆盖样本的百分比(即覆盖度)。另一方面,较低的频数阈值增加了样本的覆盖度,但会包含一些琐碎组态。对于大于150例的样本,频数阈值可设置为3(或更高) ,而对于较小的样本,频数阈值可设置为2(Fiss,2011; Ragin,2008b)。本文样本是582,频数设置为3,并且所有频数较小的组合都从进一步分析中剔除。
筛选频数后,应该设置一致性阈值,最小推荐值为0.75(Rihoux & Ragin,2009)。选择一致性阈值的第一个依据是确定已经获得的一致性中的自然断点,但这并不是绝对的。详细地说,在图6中,我们注意到最低一致性为0.862958, 0.859605, 0.839190, 0.781378, 0.695669。这些值表明,0.781378和0.839190可能是截断点和潜在的频数阈值。因此,研究者需要决定哪一个是适当的阈值,并证明这一选择。为了帮助研究人员,fsQCA 软件计算了 PRI 一致性,它代表“不一致性的比例减少”(Proportional Reduction in Inconsistency),是社会研究中子集关系一致性的替代测量,仅与模糊集相关。PRI被用来避免结果和结果否定中组态的同时子集关系(simultaneous subset relations of configurations)。PRI一致性分数应该接近原始的一致性分数(例如,0.7) ,而 PRI 分数低于0.5的组态表明明显的不一致性(Greckhamer 等人,2018)。因此,本文考虑了 PRI一致性阈值。
【补充,作者并没有汇报采用多少的PRI阈值,但从图6的真值表行来看,最低的PRI值为0.45】
最后,fsQCA 软件计算 SYM 一致性(即,对称一致性) ,这是为模糊集开发的,当研究人员检查结果的存在和否定并希望使用相同的一致性标准进行分析时可以使用。一般来说,大多数论文在分析中都没有呈现真值表,但呈现真值表可以增加研究结果的效度,并加强过程的严格性。应该注意的是,低一致性阈值会导致识别更多的必要条件,减少第二类错误(false negatives) ,但会增加第一类错误(false positives) ,反之亦然(Dul, 2016)。
处理真值表的最后一步是确定每个组合是否解释了结果。研究人员须在结果变量的列中插入1或0的值。选择1或0可以决定一个组合是否能够解释结果。一旦完成,研究人员可以(通过标准化分析)继续获得解(command: Standard Analyses)。
接下来,研究人员需要决定是否一个单独自变量应该在所选择的组态中存在或缺席(图7,这一步即反事实分析) ,有助于中间解(将在下面解释)。除非另有需要(例如,基于理论或文献) ,建议选择“Present or Absent”,以获得所有可能的组态。
(四)获得组态/解
FsQCA 计算出三种解,即复杂解、简约解和中间解。在这里,“解”指的是一个由大量案例支持的组态组合,其中的规则“组合导致结果”是一致的。
复杂解基于传统的逻辑运算提出了所有可能的组合条件(图8)。一般来说,由于确定的组态数量可能非常大,复杂解数量可能非常大,使得解的解释相当困难,在大多数情况下不切实际。由于这个原因,复杂解将进一步简化为简约解和中间解。
简约解是基于简化假设的复杂解的简化形式,它提出了任何解都不能忽略的最重要条件(图9)。这些被称为“核心条件”(Fiss,2011) ,并由 fsQCA 自动识别。简约解和复杂解的主要区别在于,复杂解排除了涉及有限简化的反事实案例,而简约解包括任何可以促成逻辑上更简单的解的反事实组合。
最后,在对复杂而简单的解进行反事实分析时,只包括理论上可信的反事实,从而得到中间解(Liu et al. ,2017; Ragin,2008b)。中间解使用那些用来计算简约解的简化假设的子集,它应该与理论和经验知识一致。基于先前知识,研究人员可以选择每一个的变量是否应视为仅存在,仅缺席,或二者兼有。默认情况下,推荐计算“present or absent”。关于每个前因条件和结果之间联系的任何决定都需要基于理论或实质性知识(Fiss,2011)。
中间解是复杂解的一部分,并包含了简约解。同时出现在简约解和中间解中的为核心条件,但在简约解被消除并且只出现在中间解中的条件被称为“边缘条件”(Fiss,2011)。换句话说,由于中间解同时提供了核心和边缘条件,而边缘条件从简约解中去除,因此确定核心条件的一个简单方法是检查简约解,因为它不包括边缘条件。通常情况下,我们可能会遇到在一个给定的案例中同时出现多个核心条件的情况。假设,如果我们有一个A + BC + BD 的简约解和一个 AcD + BCE + ABF + ABCDf 的中间解,我们报告 AcD + BCE + ABF + ABCDf,用粗体字表示核心条件。
此外,简约解通常比中间解小。然而,它们可能完全相同,这意味着除了简约解之外,没有任何细化是有用的。比较图9,图10,我们看到中间解比简约解的一致性更高。Mendel和Korjani(2012)对反事实分析的步骤进行了更详细、更精确的描述。
【补充:如果选择“present or absent”,复杂解和中间解就会完全一致,即本文中的情况】
(五)解释和呈现解
为了改善研究结果的表现形式,我们可以将 fsQCA 输出的解(图9,图10)转换为一个更容易阅读的表格(表1)。通常,条件的存在用一个黑色的圆圈表示(●) ,缺席/否定用一个划叉的圆圈表示,“do not care”条件用一个空格表示(Fiss,2011)。核心和边缘的区别分别使用大圆和小圆。研究人员需要呈现整体的解的一致性和整体解的覆盖度。整体覆盖度描述了结果在多大程度上可以通过所有组态得到解释,类似于回归方法的R方(Woodside,2013)。在我们的例子中,结果显示整个解的覆盖度为0.84,这表明结果的很大一部分被9个解覆盖。
【补充,整体解的覆盖度和样本量以及数据情况有关,并无推荐标准,有些研究甚至很低,例如0.18(Campbell等, 2016);0.10(Misangyi和Acharya, 2014)等】
fsQCA 的调查结果可做如下阐述。对于高购买意向的出现,解1-3反映了认知和情感知觉的存在与缺失组合。个性化品质和强烈的积极情绪是核心构念,说明这些因素的重要性。具体而言,高质量的个性化与对个性化服务的强烈积极情绪的结合,以及消息质量和两种类型的消极情绪的缺失,导致了高购买意愿,无论个性化的好处和弱积极情绪的水平如何(解1)。为此,当所有的认知知觉都存在时,为了达到高购买意愿,它们可能与(i)强烈的积极情绪、弱积极和弱消极情绪的缺席相结合,无论强消极情绪水平如何(解2)或(ii)与所有类型的情绪相结合(解3)或(iii)消极情绪的缺席相结合,无论积极情绪水平如何(解4)。在所有情绪缺席的情况下,高购买意愿可以通过高度的个性化和信息质量来实现,无论其好处如何(解5) ,或者仅仅通过高个性化好处实现,无论其质量如何(解7)。解6结合了个性化质量和强负面情绪,以及消息质量和其他情绪的缺失。个性化收益在这个解中只起到边缘作用。另一方面,在解8中,利益是与信息质量相结合的一个重要(核心)因素,仅有积极情绪的存在(消极情绪的缺失)会导致高购买意愿。最后,同样结果(高购买意愿)也可以通过弱积极情绪的出现以及所有其他情绪和所有认知知觉的缺失来实现(解9)。
参考引用
[1]fsQCA方法分享——基本操作步骤 - 知乎 (zhihu.com)
更多推荐
所有评论(0)