原文链接:https://www.jianshu.com/p/066d90b556ad

1、微生物β多样性

利用宏基因组、16s rRNA测序等高通量测序技术分析微生物群体结构的时候,常见到有α和β多样性两个指标。α多样性主要反映样本内多样性,而β多样性指的是样本间多样性(Between-sample diversity),它的本质是一个量化的数值,其值的大小反映每个组内各个样本间的群落物种组成差异。我们通过计算样本间距离可以获得样本间的β值,后续一般会利用PCoA、进化树聚类等分析对此数值关系进行图形展示。

以下表为例,表中5个样本通过Unifrac计算出样本间的β值。数值为0时表示两个样本间不存在多样性差异,数值越接近1,表示样本间的β多样性差异越大。

2、样本间距离

样本间距离是指样本之间的相似程度,可以通过数学方法估算。如前所述,样本间越相似,距离数值越小。计算微生物群体样本间距离的方法有多种,例如, Jaccard、Bray-Curtis、Unifrac等。这些距离算法主要分为两大类别:

  1. OTU间是否关联;

  2. OTU是否加权(表2)。



 

  • 基于独立OTU vs 基于系统发生树

二代测序当中,我们对16s rDNA某个区域进行测序后,会根据序列的相似度定义OTU。这个时候,基于独立OTU的计算方式认为OTU之间不存在进化上的联系,每个OTU间的关系平等。而基于系统发生树计算的方法,会根据16s的序列信息对OTU进行进化树分类, 因此不同OTU之间的距离实际上有“远近”之分。

举个如图1的例子,在基于独立的OTU算法中,OTU1和OTU2间的距离与OTU1和OTU10间的距离没有区别。但基于进化树的算法中,相比于OTU10,OTU2和OTU1的距离更近。

  • 加权vs非加权

利用非加权的计算方法,主要考虑的是物种的有无,即如果两个群体的物种类型都一致,表示两个群体的β多样性最小。而加权方法,则同时考虑物种有无和物种丰度两个问题。如果A群体由3个物种a和2个物种b组成,B群体由2个物种a和3个物种b组成,则通过非加权方法计算,因为A群体与B群体的物种组成完全一致,都只由物种a和b组成,因此它们之间的β多样性为0。但通过加权方法计算,虽然A与B群体的组成一致,但物种a和b的数目却不同,因此两个群体的β多样性则并非一致。

3、不同距离计算方法比较

在宏基因组和16s测序的分析中,使用最多的距离算法主要有Bray-Curtis和Weighted 及Unweighted Unifrac。因此,下面我们就这几种常用的微生物多样性算法的特点和应用范围进行简单比较。

unifrac:对于系统发生树种的所有枝,考查其指向的叶节点是否只存在于同一群落,哪些叶节点只存在于同一群落的枝的枝长和,占整个树的值长和的比例,就定义为UniFrac距离。

weight unifrac:如果两个样本有相同的物种,unifrac 区分不出差异,引入weight unifrac。

Bray-Curtis距离:是以该统计指标的提出者J. Roger Bray和John T. Curtis的名字命名的,主要基于OTUs的计数统计,比较两个群落微生物的组成差异。与unifrac距离,包含的信息完全不一样;相比于jaccard距离,Bray-Curtis则包含了OTUs丰度信息。
其中,S_(A,i)和S_(B,i)表示第i个OTU分别在A群落和B群落中的计数。min表示取两者最小值。

jaccard index又称为jaccard similarity coefficient用于比较有限样本集之间的相似性和差异性。在处理离散型(类别型)变量的相识度时非常有用。
给定两个集合A,B jaccard 系数定义为A与B交集的大小与并集大小的比值:


jaccard相似度的缺点是值适用于二元数据的集合。

  • Bray-Curtis距离vs Unifrac距离

Bray-Curtis距离和Unifrac距离的主要区别在于计算β值的时候是否考虑OTU的进化关系。根据表2,显然,只有后者是有考虑。这会影响到它们的:

数值表述意义不同:虽然两种方法的数值都是在0-1之间,但具体所表示的生物学意义却不一样。在Bray-Curtis算法中,0表示两个微生物群落的OTU结构(包括组成和丰度)完全一致;而在Unifrac中,0更侧重于表示两个群落的进化分类完全一致。

实际应用的合理性:在实际微生物研究中,如果样本间物种的近源程度较高(温和处理样本与对照样本,生境相似的不同样本等),利用Bray-Curtis这种把OTU都同等对待的方法,更有利于发现样本间的差异。而Unifrac则更适合用于展示此类样本的重复性。

  • Weighted Unifrac距离 vs Unweighted Unifrac距离

Unifrac除了具有考虑OTU之间的进化关系的特点之外,根据有没有考虑OTU丰度的区别,Unifrac分析可以分为加权(WeightedUunifrac)和非加权(Unweighted Unifrac)两种方法。它们的不同在于:

数值表述意义:Unweighted UniFrac只考虑了物种有无的变化,因此结果中,0表示两个微生物群落间OTU的种类一致。而Weighted UniFrac则同时考虑物种有无和物种丰度的变化,结果中的0则表示群落间OTU的种类和数量都一致。

实际应用的合理性:在环境样本的检测中,由于影响因素复杂,群落间物种的组成差异更为剧烈,因此往往采用非加权方法进行分析。但如果要研究对照与实验处理组之间的关系,例如研究短期青霉素处理后,人肠道的菌落变化情况,由于处理后群落的组成一般不会发生大改变,但群落的丰度可能会发生大变化,因此更适合用加权方法去计算。

4、小结

最后,方法实际上是没有好坏之分,主要是不同的研究目的而采用更为适合的方法进行数据展示。如果实在不知道哪一种方法更适合,有条件的情况下,可以使用同时使用多个方法进行分析,最终挑选最能解释生物学问题的方案。

 

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐