目录

  1. 网络节点的性质
  2. 网络的性质
  3. 网络层次性评价
  4. 动态网络演化——随机图模型
  5. 动态网络演化——有偏好的交友模型

网络分析是数据挖掘中重要的一部分,涉及到的知识和图论有一定的联系,这里讲到的网络分析更倾向于社交网络分析,可以是人与人之间的好友关系,电子邮件的发送关系,也可以推广到互联网网站之间的关系等等。

为什么我们要研究网络分析呢,随着大数据时代的到来,人们积累数据的意识也越来越强烈,那么如何在积累到的数据中获得我们想要的信息,越来越受到人们的关注。社交网络,QQ空间或者朋友圈的公开评价,公司电子邮件的记录,疾病的发展,网站的访问,等等。越来越多的可以连成网络的数据被保存下来,那么学会分析这些数据可以帮助我们在杂乱的连接关系中找到我们所需要的信息。

比如说有人研究一个公司在繁盛时期的邮件发送网络以及工作往来的联系,与其和该公司破产前夕的网络进行对比分析,从中发现在破产前公司的邮件往来变得复杂,而且一个员工开始面对多个上司的指令,进而整个公司的管理开始从一个层次明晰的组织(可以用层次hierarchy度量)发展为一个结构不清晰的组织,而在这时业绩也出现了不断下滑的趋势,因此构成了公司倒闭的重要原因之一。

为了入门网络分析,我们先直观的看一个网络的结构图,下图就是一个经典的网络,其中每个节点(Node)代表着人,而每个边(Edge)代表着朋友关系。
简单社交网络示意图
图分为有向(directed)图无向(undirected)图。所谓的有向图就是连接两个节点之间的边是有方向的,比如说一个代表债务的图,一个人A欠另一个B钱,那么B是债主A是欠债人,这个关系就是单向的,因此边就用带箭头的线来表示。无向图,例如代表婚姻关系的图,那么A是B的配偶,B自然也是A的配偶,因此二者关系平等就用没有箭头或者双向箭头的线来表示。有的时候边也是有权重的,这个权重可以代表二者连接关系的紧密程度,节点为ip地址,你经常访问百度,那么你的ip地址和百度的ip地址的连接更紧密,边的权重也就更大。

下面介绍三个网络中节点的重要的性质。

  1. 度中心性(Degree Centrality): 一个节点直接相连的节点的个数。假如在一个社交网络中,节点代表的是人,边代表的是好友关系,那么一个节点的度中心性越大,就说明这个人的好友越多。这样的人可能是比较有名望的人物,如果需要散布一些消息的话,这样的人最适合,因为他的一条状态可以被很多很多的人看到。
  2. 紧密中心性(Closeness Centrality): 一个节点到其他所有节点的最短距离的加和,或者是加和的倒数。通常来讲紧密中心性是加和的倒数,也就是说紧密中心性的值在0到1之间,紧密中心性越大则说明这个节点到其他所有的节点的距离越近,越小说明越远。在一些定义中不取倒数,就是该节点到其他节点的最短距离加和,这样定义的话紧密中心性越小说明该点到其他点的距离越近。紧密中心性刻画了一个节点到其他所有节点的性质,在社交网络中,一个人的紧密中心性越大说明这个人能快速的联系到所有的人,可能自己认识的不多,但是有很知名的朋友,可以通过他们快速的找到其他人。
  3. 中介中心性(Betweenness Centrality): 一个点位于网络中多少个两两联通节点的最短路径上,就好像“咽喉要道”一样,如果联通两个节点A和B的最短路径一定经过点C,那么C的中介中心性就加一,如果说A和B最短路径有很多,其中有的最短路径不经过C,那么C的中介中心性不增加。中介中心性刻画了一个节点掌握的资源多少,在社交网络中,一个人的中介中心性越大说明这个人掌握了更多的资源而且不可替代(必须经过他,不存在其他的最短路径),就好像房屋中介一样,一边是买房的人一边是卖房的人,买卖双方要想联系就要经过中介。

以上是节点的重要的性质,在下一节中我们会介绍整个网络的性质。

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐