1、UniprotUniprot蛋白数据库蛋白数据库之前,世界上最广泛使用的蛋白数据库为瑞士的SWISS-PROT计划建立的数据库,NHGRI的项目主任Peter Good介绍说。但由于编辑详细蛋白结构数据库时间紧迫,再加上资金短缺,SWISS-PROT无法跟上基因组学飞速前进的步伐,Good说。这种形势导致了TrEMBL的产生,这是计算机注释的SWISS-PROT分支数据库,目的是暂时储存日益增多的蛋白质结构信息。另外,美国的蛋白信息资源(Protein Information Resource ,PIR)也独立编辑其自己的数据库。后来,这三个计划的领导人将展开合作,将三大数据库合并为一个。联合
2、起来的力量将“减少重复工作,由此也可以节省不必要的费用。”SWISS-PROT的领导人、英国剑桥欧洲生物信息研究院的Rolf Apweiler说道。,UniProt将是将是SWISS-PROT、TrEMBL和和PIR三大数据库的最佳整三大数据库的最佳整合 一个集中化的数据库十分重要,密歇根大学的肿瘤学家Samir Hanash对此表示同意。他同时也是人类蛋白组组织(Human Proteome Organisation)的主席。然而,Hanash提醒说,UniProt只是一个开始,还需要建立其它的数据库来储存有关蛋白质何时何处在机体中活动的信息,他说。(2002年)这句话不仅代表了Unipor
3、t数据库,也是代表了整个生物信息学,科研本就是站在巨人的肩膀上发展的,那么这个肩膀也得与时俱进了!Uniport的前世今生的前世今生UniProt(全称(全称Universal Protein),它整合了三个老字号数据库(),它整合了三个老字号数据库(Swiss-Prot、 TrEMBL 和和 PIR-PSD )的数据。是目前信息最丰富、资源最广的免费蛋白质数据库(注意没有之一哦!)。的数据。是目前信息最丰富、资源最广的免费蛋白质数据库(注意没有之一哦!)。UniProt知识库(知识库(UniProtKB)是收集蛋白质功能信息的中心枢纽,具有准确,一致和丰富的注释。除了捕)是收集蛋白质功能信息
4、的中心枢纽,具有准确,一致和丰富的注释。除了捕获每个获每个UniProtKB条目强制的核心数据(主要是氨基酸序列,蛋白名称或描述,分类数据和引用信息)外,条目强制的核心数据(主要是氨基酸序列,蛋白名称或描述,分类数据和引用信息)外,还会添加尽可能多的还会添加尽可能多的注释注释信息。这包括广泛接受的生物本体论,分类和交叉引用,以及以实验数据和计算信息。这包括广泛接受的生物本体论,分类和交叉引用,以及以实验数据和计算数据的证据归属形式的注释质量的明确指示。数据的证据归属形式的注释质量的明确指示。蛋白质序列从哪里来?蛋白质序列从哪里来?由UniProtKB提供的超过95的蛋白质序列来源于已经提交给公
5、共核酸数据库,EMBL-Bank / GenBank / DDBJ数据库(INSDC)的编码序列(CDS)的翻译。所有这些序列以及作者提交的相关数据都自动整合到UniProtKB / TrEMBL中。 除翻译的除翻译的CDS之外,之外,UniProtKB蛋白质序列可以来自:蛋白质序列可以来自:1、在PDB数据库。2、通过直接蛋白质测序实验获得的序列,通过Edman降解或MS / MS实验并提交给UniProtKB / Swiss-Prot。只有约5的UniProtKB / Swiss-Prot条目包含通过直接蛋白质测序获得的序列数据(具有关键字的条目列表Direct protein seque
6、ncing)。3、从文献(ig PRF或其他期刊扫描项目)扫描的序列。4、从基因预测,没有提交的序列EMBL-Bank / GenBank登录/ DDBJ。5、序列来源于内部基因预测,在非常特殊的情况下。Uniprot主要功能主要功能查询蛋白质序列以及其他多种信息查询蛋白质序列以及其他多种信息查询蛋白质组查询蛋白质组找相似的蛋白质找相似的蛋白质对比多种蛋白质序列对比多种蛋白质序列查询蛋白质相关文献查询蛋白质相关文献 网站的网站的网址为网址为http:/www.uniprot.org/,先来看看全景图吧!这个,先来看看全景图吧!这个数据库数据库可以大致分为可以大致分为6个主题部分,如上图红框所示
7、个主题部分,如上图红框所示1、UniProtKB;2、UniRef;3、UNIParc;4、Proteomics;5、Supporting data。6、检索区、检索区 这次我们先游览第一个主题,也是最经典的部分。(其实其他的主题我自己还没有完全搞明白)这次我们先游览第一个主题,也是最经典的部分。(其实其他的主题我自己还没有完全搞明白)1、UniProtKB(Universal Protein Knowledge base)它是经过专家校验的数据集,又分成两部分(绿框部分,不)它是经过专家校验的数据集,又分成两部分(绿框部分,不用担心,这些都是免费的,不是那种滥收费园中园)用担心,这些都是免费
8、的,不是那种滥收费园中园) 1.1、Swiss-Prot (经过人工检查、校验的条目经过人工检查、校验的条目) 高质量的、人工注释的、非冗余的数据集;主要来自文献中的研究成果和高质量的、人工注释的、非冗余的数据集;主要来自文献中的研究成果和E-value校验过的计算分析结果。校验过的计算分析结果。 截止到昨天截止到昨天Swiss-Prot 包含包含556,196条记录,(条记录,( 2010年年8月月10日有日有519,348 条记录,条记录,7年后增加了年后增加了3万多条记录,万多条记录,评价每天大约评价每天大约10几条记录,速度还是比较慢的。)几条记录,速度还是比较慢的。) 1.2、TrE
9、MBL (计算机自动注释的、未经人工校验的条目计算机自动注释的、未经人工校验的条目)该数据主要是利用计算机对大量基因组数据流进行分析注释(人工校验速度暂时无法跟上数据的产生速度)。该数据主要是利用计算机对大量基因组数据流进行分析注释(人工校验速度暂时无法跟上数据的产生速度)。 截止到昨天截止到昨天2017年年03月月19日日TrEMBL 包含包含98,705,220条记录,(条记录,( 2010年年8月月10日有日有110,636,205 条记录,条记录,7年后年后数据量减少了很多,估计是去掉了很多重复的数据)另外大家会注意到这里的数据是数据量减少了很多,估计是去掉了很多重复的数据)另外大家会
10、注意到这里的数据是Swiss-Pro数据的数据的100多倍。多倍。进入方式多种多样,进入方式多种多样,1、主页默认的入口就是、主页默认的入口就是UniProt;2、可以直接点击红框、可以直接点击红框1区域进入;区域进入;3、也可以通过点击红框、也可以通过点击红框6,系统会弹出下拉菜单如图系统会弹出下拉菜单如图2所示,选择所示,选择UniProt红框红框1即可进入。即可进入。 检索区主要是为了让有经验同学快速找到自己感兴趣的蛋白质,可以按照蛋白质的名称、序列,检索区主要是为了让有经验同学快速找到自己感兴趣的蛋白质,可以按照蛋白质的名称、序列,ID号等方式检索。号等方式检索。 红框红框1区是对这个
11、主题区域的简要介绍区是对这个主题区域的简要介绍 红框红框2区可以让游客根据自己的喜好来显示蛋白质数据,比如可以只显示经过人工校验的条目;可以只看专属于某个物区可以让游客根据自己的喜好来显示蛋白质数据,比如可以只显示经过人工校验的条目;可以只看专属于某个物种的蛋白质;还可以检索物种分类;还有直接快速进入种的蛋白质;还可以检索物种分类;还有直接快速进入UniRef的通道以及视频化的帮助,演示文件的通道以及视频化的帮助,演示文件 红框红框3区是主题区,这里列出了所有区是主题区,这里列出了所有UniProt数据库的蛋白质条目,因为数据太多数据库的蛋白质条目,因为数据太多(这个数字其实是这个数字其实是S
12、wiss-Pro与与TrEMBL两部分的总和),每页显示两部分的总和),每页显示25条(您可以自己选择每页的显示数目条(您可以自己选择每页的显示数目 10、25、50、100或或200),),Entry:是:是UniProt的给每个蛋白质赋予的独一无二的的给每个蛋白质赋予的独一无二的ID号号Entry name: 是蛋白是蛋白ID简要名字简要名字Protein names: 蛋白质的名字蛋白质的名字Gene names: 编码这个蛋白的编码这个蛋白的Gene名字名字Organism:蛋白质的种属来源:蛋白质的种属来源Length: 氨基酸长度氨基酸长度首先sp表示,Swiss-Prot数据库是
13、注释精炼的蛋白序列库,它的所有序列都经过了科学家的查阅文献核实(reviewed, manually annotated) 。P02769是蛋白在uniprot上的ID号,即蛋白的身份证号。ALBU_BOVIN是蛋白在uniprot上的登录名,跟P02769是一个作用。Serum albumin是蛋白名称,即蛋白的姓名啦。OS表示Organism,也就是物种名称,数据库中的物种名称一般为拉丁名称,牛血清白蛋白Bostaurus当然是牛的拉丁。GN表示gene name,即基因名称PE表示ProteinExistence,即蛋白的可靠性,PE=1、2、3、4、5分别对应如下,可以看出数字越小可靠
14、性越高:分别对应如下,可以看出数字越小可靠性越高:1. Experimental evidence at protein level 蛋白质水平实验证据2. Experimental evidence at tran level 转录水平实验证据3. Protein inferred from homology 从同源蛋白质推断4. Protein predicted 蛋白质预测5. Protein uncertain 蛋白质不确定SV表示SequenceVersion,即序列版本,即蛋白的身份证第二代,第三代这里需要指出的是,除了这里需要指出的是,除了sp,有时还会出现,有时还会出现TR。红
15、框红框2区只看专属于某个物种的蛋白质区只看专属于某个物种的蛋白质红框红框3区第一行区第一行t BLAST: 这个按钮可以让你用感兴趣的蛋白质序列做这个按钮可以让你用感兴趣的蛋白质序列做BLAST分析(就是查一下在分析(就是查一下在UniProt数据库中,还有哪些蛋白质数据库中,还有哪些蛋白质的氨基酸序列与你感兴趣的蛋白质相同或相似),别小瞧这个功能,知道哪些蛋白与目的蛋白序列相似,就有可能知道的氨基酸序列与你感兴趣的蛋白质相同或相似),别小瞧这个功能,知道哪些蛋白与目的蛋白序列相似,就有可能知道这个蛋白具有哪些生物系功能,如果恰好还有其他相似蛋白的结构信息,就能帮助你大致知道这个蛋白的空间结构
16、。使这个蛋白具有哪些生物系功能,如果恰好还有其他相似蛋白的结构信息,就能帮助你大致知道这个蛋白的空间结构。使用这个功能必须先选中,只能选中一个蛋白质。用这个功能必须先选中,只能选中一个蛋白质。i Align: t BLAST是对单个蛋白序列与数据库数据进行比对,是对单个蛋白序列与数据库数据进行比对,i Align可以让你对多个蛋白质的序列之间进行相似性比对,可以让你对多个蛋白质的序列之间进行相似性比对,这种分析可以让你找到这些蛋白之间的结构保守区域,还可以根据蛋白质的相似性,分析这些蛋白之间的亲缘关系,进这种分析可以让你找到这些蛋白之间的结构保守区域,还可以根据蛋白质的相似性,分析这些蛋白之间
17、的亲缘关系,进化的先后顺序等。化的先后顺序等。基本局部比对搜索工具= Download:这个容易理解,您可以下载蛋白的序列数据,可以下载选中的蛋白,也可以下载全部蛋白(做蛋白质组:这个容易理解,您可以下载蛋白的序列数据,可以下载选中的蛋白,也可以下载全部蛋白(做蛋白质组学分析的人经常用,否则没有必要全部下载,不过有时候最好定期下载更新一下,还是很有必要的)下载的格式也多种学分析的人经常用,否则没有必要全部下载,不过有时候最好定期下载更新一下,还是很有必要的)下载的格式也多种多样,比如多样,比如FASTA,Text,Excel,XML,List等,如果数据量大,还可以选择压缩以后下载。等,如果数
18、据量大,还可以选择压缩以后下载。b Add to basket: 这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用,最多可以加这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用,最多可以加400条数条数据,呵呵,这个不是超市的购物篮,是不收费的。据,呵呵,这个不是超市的购物篮,是不收费的。e Columns: 这个可以让您定制蛋白数据列信息,就是自己定制显示哪些列信息,这个内容非常多,包括名称和分类学这个可以让您定制蛋白数据列信息,就是自己定制显示哪些列信息,这个内容非常多,包括名称和分类学信息,序列信息(氨基酸长度,分子量,信息,序列信息(氨基酸长度,分
19、子量,SNP等),功能信息(等),功能信息(EC number, 信号通路,活性位点,各种结合位点等),信号通路,活性位点,各种结合位点等),相互作用信息,表达信息,亚细胞定位信息,相互作用信息,表达信息,亚细胞定位信息, 翻译后修饰,结构,家族及结构域信息,翻译后修饰,结构,家族及结构域信息, 序列信息序列信息.太多了,感兴趣太多了,感兴趣的自己进去看吧!的自己进去看吧!b Add to basket: 这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用,最多可以加这个按钮的功能是可以随时将你感兴趣的蛋白质条目加入购物篮以备后期使用,最多可以加400条数条数据,呵呵,这个不
20、是超市的购物篮,是不收费的据,呵呵,这个不是超市的购物篮,是不收费的UniProt参考群集(参考群集(UniRef)提供来自)提供来自UniProt知识库知识库(包括(包括同种型同种型)和选定的)和选定的UniParc记录的序列集合集合,以便以多记录的序列集合集合,以便以多种分辨率获得对序列空间的全面覆盖,同时从视图中隐藏冗余序列(但不包括其描述)。种分辨率获得对序列空间的全面覆盖,同时从视图中隐藏冗余序列(但不包括其描述)。与与UniParc不同,序列片段被不同,序列片段被合并到合并到UniRef中:中:UniRef100数据库将具有来自任何生物体的数据库将具有来自任何生物体的11个或更多残
21、基的相同序列和亚片段组合成单个个或更多残基的相同序列和亚片段组合成单个UniRef条目,显示代表性蛋白质的序列,所有合并的登录号条目和链接到相应的条目,显示代表性蛋白质的序列,所有合并的登录号条目和链接到相应的UniProtKB和和UniParc记录记录。UniRef90是通过是通过用用UniRef100序列对序列对11个或更多残基进行聚类而构建的个或更多残基进行聚类而构建的CD-HIT算法算法(Li W.和和Godzik A.,Bioinformatics,22:1658-1659,2006),使得每个簇由与最长序列(),使得每个簇由与最长序列(aka)具有至少)具有至少90序列同一性和序列
22、同一性和80种子序列)。同样,种子序列)。同样,UniRef50是通过是通过对对UniRef90种子序列进行聚类构建的,这些序列与聚类中最长的序列具有至少种子序列进行聚类构建的,这些序列与聚类中最长的序列具有至少50的序列同一性,并且具有至少的序列同一性,并且具有至少80的重叠性。在的重叠性。在2013年之前,没有重叠阈值,所以簇的长度更加不均匀。年之前,没有重叠阈值,所以簇的长度更加不均匀。UniRef90和和UniRef50产生的数据库大小分别减产生的数据库大小分别减少约少约58和和79,提供显着更快的序列相似性搜索。,提供显着更快的序列相似性搜索。种子序列是群集中最长的成员。然而,最长的
23、序列并不总是最丰富种子序列是群集中最长的成员。然而,最长的序列并不总是最丰富的。其他集群成员往往有更多的生物相关信息(名称,功能,交叉引用)的。其他集群成员往往有更多的生物相关信息(名称,功能,交叉引用)UniParc是一个主要的序列库,是一个全面的存储库,它反映了所有蛋白质序列的历史。联合研究中心为所有来自不同来源的新的和经过修改的蛋白质序列提供了所有的信息,以确保完整的覆盖在一个单一的站点。它包括不仅UniProtKB还翻译从EMBL-Bank / DDBJ基因库核苷酸序列数据库,运用数据库的真核基因组,H-Invitational数据库(H-Inv),国际蛋白质指数(IPI),蛋白质数据
24、库(PDB),蛋白质研究基金会(脉冲),NCBI年代的参考序列集合(RefSeq),数据库模式,SGD,TAIR拟南芥和WormBase TROME和蛋白质序列。为了避免冗余,序列被作为字符串处理,所有序列在整个长度上都是完全相同的,不管源组织是什么。新的和更新的序列每天都被加载,交叉引用源数据库的加入号,并提供一个序列版本,在对底层序列的更改上增加。每个UniParc条目中存储的基本信息是标识符、序列、循环冗余检查号、源数据库(s)和添加和版本号,以及时间戳。UniProt提供了几组被认为由其基因组已被完全测序的有机体表达的蛋白质,被称为“蛋白质组”。在过去,这些集合是基于生物分类学,结合关
25、键词完整蛋白质组,但随着越来越多的同一生物体的基因组正在测序,我们引入了独特的蛋白质组标识符来区分个体蛋白质组。这些蛋白质组可以从UniProt网站的Proteomes部分查询和下载。作为蛋白质组的一部分的UniProtKB条目与其蛋白质组相互参照。文献引用文献引用分类分类亚细胞定位亚细胞定位 亚细胞定位是指某种蛋白或表达产物在细胞内的具体存在部位。例如在核内、胞质内或者细胞膜上存在。GFP是绿色荧光蛋白,在扫描共聚焦显微镜的激光照射下会发出绿色荧光,从而可以精确地定位蛋白质的位置。交叉引用数据库:交叉引用数据库:UniProtKB条目的交叉引用部分显示数据库的显式和隐式链接,例如核苷酸序列数
26、据库,模型生物数据库以及基因组学和蛋白质组学资源。一个条目可以交叉引用几十个不同的数据库,并有几百个单独的链接。疾病:涉及蛋白质的人类疾病疾病:涉及蛋白质的人类疾病关键词关键词讨论与展望讨论与展望UniProt 是一个集中收录蛋白质资源并能与其它资源相 互联系的数据库 , 也是目前为止收录蛋白质序列目录最广泛 、 功能注释最全面的一个数据库 。 UniProt 是由欧洲生物信息学研究所(European Bioinformatics Institute)、美国蛋白质信息资源(Prontein Information Resource)以及瑞士生物信息研究所(Swiss Institute of
27、 Bioinformatics)等机构共同组成的UniProt协会(UniProt Consortium)编辑、制作的一个信息资源,旨在为从事现代生物研究的科研人员提供一个有关蛋白质序列及其相关功能方面的广泛的、高质量的并可免费使用的共享数据库。它的功能有很多,基本可以满足做蛋白的需求(目前我是这么看的因为,我没做我也不知道还有啥需要补充的),但是由于功能的繁多,导致真的很难明白,特别是初学者,希望这个网站以后能出一些针对初学者的教学文章。对于生物信息学的思考对于生物信息学的思考生物信息学并不是一个足以乐观的领域,究竟原因,是由于其是基于分子生物学与多种学科交叉而成的新学科,现有的形势仍表现为各种学科的简单堆砌,相互之间的联系并不是特别的紧密。在处理大规模数据方面,没有行之有效的一般性方法;而对于大规模数据内在的生成机制也没有完全明了,这使得生物信息学的研究短期内很难有突破性的结果。那么,要得到真正的解决,最终不能从计算机科学得到,真正地解决可能还是得从生物学自身,从数学上的新思路来获得本质性的动力。毫无疑问,正如Dulbecco1986年所说:人类的DNA序列是人类的真谛,这个世界上发生的一切事情,都与这一序列息息相关。但要完全破译这一序列以及相关的内容,我们还有相当长的路要走。谢谢观看谢谢观看