Cora数据集(引文网络)由机器学习论文组成,是近年来图深度学习很喜欢使用的数据集。该数据集共2708个样本点,每个样本点都是一篇科学论文,所有样本点被分为8个类别,类别分别是:
1)基于案例;2)遗传算法;3)神经网络;4)概率方法;5)强化学习;6)规则学习;7)理论

每篇论文都由一个1433维的词向量表示,所以,每个样本点具有1433个特征。词向量的每个元素都对应一个词,且该元素只有0或1两个取值。取0表示该元素对应的词不在论文中,取1表示在论文中。所有的词来源于一个具有1433个词的字典。

每篇论文都至少引用了一篇其他论文,或者被其他论文引用,也就是样本点之间存在联系,没有任何一个样本点与其他样本点完全没联系。如果将样本点看做图中的点,则这是一个连通的图,不存在孤立点。

文件格式:下载的压缩包中有三个文件,分别是cora.cites,cora.content,README。
README是对数据集的介绍;cora.content是所有论文的独自的信息;cora.cites是论文之间的引用记录。
1.cora.content共有2708行,每一行代表一个样本点,即一篇论文。每一行由三部分组成,分别是论文的编号,如31336;论文的词向量,一个有1433位的二进制;论文的类别,如Neural_Networks。
2.cora.cites共5429行, 每一行有两个论文编号,表示第一个编号的论文先写,第二个编号的论文引用第一个编号的论文。

CiteSeer数据集(引文网络)中,论文分为六类:Agents、AI(人工智能)、DB(数据库)、IR(信息检索)、ML(机器语言)和HCI。
共包含3312篇论文,记录了论文之间引用或被引用信息。去除停用词和在文档中出现频率小于10次的词,整理得到3703个唯一词。
CiteSeer数据集包含两个文件:.content文件和.cites文件:
.content文件描述论文信息的格式为:<paper_id> <word_attributes>+<class_label>;每行的第一个条目(paper_id)是每篇论文的唯一编号ID,后续(word_attributes)包含3703个二进制码,表示词汇表中的每个单词在论文中是否存在(由1表示)或不存在(由0表示),最后一个条目(class_label)表示论文的类标签。
.cites文件描述了论文之间的引用信息,格式为: 。每行数据包含了两篇论文的编码ID,第一个条目(ID of cited paper)表示被引用论文的编号,第二个条目(ID of citing paper)表示引用论文的编号。

PubMed数据集(引文网络)包括来自Pubmed数据库的19717篇关于糖尿病的科学出版物,分为三类:
Diabetes Mellitus, Experimental
Diabetes Mellitus Type 1
Diabetes Mellitus Type 2
引文网络由44338个链接组成。数据集中的每个出版物都由一个由500个唯一单词组成的字典中的TF/IDF加权词向量来描述。
数据集包含以下三个文件:
①Pubmed-Diabetes.NODE.paper.tab
内容格式说明如下:<paper_id> +<label=> +
每行数据的第一个条目(paper_id)是每篇论文的唯一编号ID,第二个条目是“label=
”,""表示该论文的所属类别,后续包含500个浮点数TF_IDF值,形式是"word=",“word"表示词汇,”"表示词汇的TF_IDF值。
②Pubmed-Diabetes.GRAPH.pubmed.tab
无用文件,不用关注
③Pubmed-Diabetes.DIRECTED.cites.tab
<
> + paper:* | paper:*
每行数据的第一个条目暂时还没搞明白代表什么意思,第二个条目的数据和表示被引用论文的ID,第三个条目的数据表示引用论文的ID。

PPI(生物化学结构) 网络是蛋白质相互作用(Protein-Protein Interaction,PPI)网络的简称,在GCN中主要用于节点分类任务
PPI是指两种或以上的蛋白质结合的过程,通常旨在执行其生化功能。一般地,如果两个蛋白质共同参与一个生命过程或者协同完成某一功能,都被看作这两个蛋白质之间存在相互作用。多个蛋白质之间的复杂的相互作用关系可以用PPI网络来描述。
PPI数据集共24张图,每张图对应不同的人体组织,平均每张图有2371个节点,共56944个节点818716条边,每个节点特征长度为50,其中包含位置基因集,基序集和免疫学特征。基因本体基作为label(总共121个),label不是one-hot编码。
valid_feats.npy文件保存节点的特征,shape为(56944, 50)(节点数目,特征维度),值为0或1,且1的数目稀少
ppi-class_map.json为节点的label文件,shape为(121, 56944),每个节点的label为121维
ppi-G.json文件为节点和链接的描述信息,节点:{“test”: true, “id”: 56708, “val”: false}, 表示节点id为56708的节点是否为test集或者val集,链接:“links”: [{“source”: 0, “target”: 372}, {“source”: 0, “target”: 1101}, 表示节点id为0的节点和为1101的节点之间有links。
ppi-walks.txt文件中为链接信息
ppi-id_map.json文件为节点id信息

BlogCatalog数据集(社交网络)的结点数为10312,边条数为333983,label维度为39,数据集包含两个文件:
Nodes.csv:以字典的形式存储用户的信息,但是只包含节点id。
Edges.csv:存储博主的社交网络(好友等),以此来构图。

Yelp数据集是一个酒店管理相关的数据集,668+w条评论,19+w个商业机构,20w张图片,10个都市区域,字段包括:营业时间、是否泊车、可用性和环境

Logo

旨在为数千万中国开发者提供一个无缝且高效的云端环境,以支持学习、使用和贡献开源项目。

更多推荐