NCBI、UniProt、RCSB PDB的部分功能使用(蛋白质晶体结构、蛋白质氨基酸序列、基因序列、序列比对等)
NCBI、UniProt、RCSB PDB三个数据库是在生物医学领域非常重要的数据库。本帖主要为自己学习记录,可供大家学习参考。
目录
一、简介与网址
1.NCBI
网址:https://www.ncbi.nlm.nih.gov/
NCBI(National Center for Biotechnology Information)是美国国家生物技术信息中心的简称,存储了分子生物学、生物化学和遗传学等学科的相关数据资料,包括基因测序数据、基因图谱、蛋白质信息等,以及生物医学领域相关研究论文的索引。网站中的一些在线软件,如BLAST等,可以方便分析数据,提高工作效率。
2.UniProt
UniProt(Unified Protein Database)蛋白质信息数据库,是由瑞士生物信息学研究所多个研究团队共同建立并维护的蛋白质序列与注释数据综合资源,也是目前世界上最权威的蛋白质信息数据库。其整合了Swiss-Prot、TrEMBL和PIR三大数据库的数据,包括蛋白质知识库(UniProtKB)、蛋白质引用集群(UniRef)和蛋白质数据归档(UniParc)三个部分。
1)UniProtKB
UniProtKB(UniProt Knowledgebase)是蛋白质序列、功能、分类、交叉引用等信息存取中心。包括以下两部分:
①Swiss-Prot:高质量的、手工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过计算分析结果。有质量保证的数据才被加入该数据库。
②TrEMBL:包含高质量的计算分析结果,一般都在自动注释中富集,主要应对基因组项目获得的大量数据流以人工校验在时间上和人力上的不足。注释所有可用的蛋白序列。在三大核酸数据库(EMBL-Bank/GenBank/DDBJ)中注释的编码序列都被自动翻译并加入该数据库中。它也有来自PDB数据库的序列,以及Ensembl、Refeq和CCDS基因预测的序列
2)UniRef
UniRef(UniProt Non-redundant Reference)将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度。目前,根据序列相似程度形成3个子库:UniRef100、UniRef90和UniRef50。
3)UniParc
UniParc(UniProt Archive)是一个综合性的非冗余数据库,包含了所有主要的、公开的数据库的蛋白质序列。
由于蛋白质可能在不同的数据库中存在,并且可能在同一个数据库中有多个版本,为了去冗余,UniaraParc对每条唯一的序列只存一次,无论是否为同一物种的序列,只要序列相同就被合并为一条,每条序列提供稳定的、唯一的编号UPI。
该数据库含有蛋白质的序列信息,而没有注释数据。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。
3.RCSB PDB
RCSB PDB是世界蛋白质数据库(Worldwide Protein Data Bank,wwPDB)的成员之一,是生物学和医学领域第一个开放访问的数字数据资源库。
其提供了生物大分子,如蛋白质、DNA 和 RNA的3D结构数据,也可以查阅到相关领域的最新进展,为结构生物学、细胞和分子生物学、计算生物学、信息技术等领域的研究提供信息。
二、操作使用
该部分为学习内容记录,学习内容按时间排序
1.PDB中,找蛋白晶体结构
(以TIM-3蛋白为例)
打开PDB网站,在右上方搜索栏中,输入要找的蛋白
页面中会显示相关蛋白的PDB ID,这是在PDB数据库中,每个晶体结构所对应的唯一的编号,如界面中的5DZL,4QXW等
同时,每个PDB ID下,会显示该结构的简述,解析该结构的人、该结构发表的文章、解析时间、解析方法等。这里,我点进5DZL
进入页面后,可以看到左侧图为该蛋白的3D结构图。右侧可以看到蛋白所在种群(Organism(s))为智人(Homo sapiens);该蛋白的表达系统(Expression System)为大肠杆菌(Escherichia coli);此蛋白相对于原有蛋白序列的突变情况(Mutation(s)),为未进行突变
上方菜单栏中,可以查看其详细的3D结构、 蛋白序列等。
再往下就会看到发表该晶体结构的相关文献信息,可以点DOI号查看文献
紧接着的一部分依然是蛋白信息,包括蛋白的氨基酸数量、种属等。下面长条部分为与所属种属的本源蛋白相比,序列情况。
将鼠标放在序列上,可以看到右上方显示目前鼠标所在序列位置,以及该蛋白在本源蛋白P13688中的情况,5DZL是蛋白P13688的35-144位所在位置,与P13688相比,在N末端多了个丝氨酸S。下面还可以看到蛋白的疏水情况等。
注:这里的P13688是原来的蛋白在UniProt中的编号
再接下去,就是蛋白晶体结构相关信息了。
如果需要下载蛋白的序列信息,可以返回最上方,在Download Fiels里进行下载,一般下载FASTA格式即可
如果只需要复制蛋白质的序列,点开其左边的Display Fiels,依然还是选择FASTA格式,就可以进入页面进行复制了
2.蛋白/多肽序列比对
蛋白质或多肽的序列比对,在使用序列时常常非常必要,在这里,简单介绍两种我经常用到的方法。
2.1网页版
欧洲分子生物学实验室(EMBL)下属的网页,这里只介绍序列对比功能。链接:EMBL序列比对
该网站可以输入fasta格式的序列,也可以导入文件进行比对。以输入序列对比为例,
如图,在第一个框格中输入蛋白或多肽序列,要注意输入的为fasta格式的序列,即序列第一行应为大于号>起始的序列描述,第二列起为序列。序列依次输入,点击submit进行比对,等待结果即可。这里使用的是默认参数,如果有特殊需要,可以自行改参。
比对结果如下,P1和P2两个序列分列两行,第三行显示比对结果,相同序列用*号表示,不同序列用.表示。
2.2软件版
一般情况下,网页版已经比较方便,基本可以解决序列比对的问题。如果需要更详细的比对信息,这里再介绍一款软件,DNAMAN。我的是汉化版的,如果有需要可以在网上找相应的安装包,安装也比较简单。界面如下
点击左上角白框,新建序列文件,在出现的框中输入序列
全选序列,将序列加载入通道1中,此时左下角的界面会显示通道1的内容
将通道切换到通道2,同样操作,新建文件,输入序列,全选后加载入通道2
开始比对序列,点击菜单栏中比对序列的按键。
在弹出的框中,选择比对蛋白质,选择需要比对的通道,其他一般默认即可。
软件比对速度比较快,结果显示如图,相同序列会用实线连接起来,不同序列虚线连接。同时也会计算出两序列的相似度,以及gap的比例
更多推荐
所有评论(0)