1、1蛋白质数据库蛋白质数据库蛋白质数据库具备的功能蛋白质数据库具备的功能Protein function prediction Analysis of protein sequences(key issue is discovering functional motifs or domains that are conserved across evolution,and using these motifs or domains to functionally classify novel sequences).Structure prediction(Sequence-Structure-F
2、unction)Protein(Gene)network (2D gel)Based on sequence!35PIR(Protein Information Resource)在在1960年左右,年左右,Dayhoff和其同事们搜集了当时所和其同事们搜集了当时所有已知的氨基酸序列,编著了有已知的氨基酸序列,编著了蛋白质序列与结蛋白质序列与结构图册构图册。从这本图册中的数据,演化为后来的蛋白质信息从这本图册中的数据,演化为后来的蛋白质信息资源数据库。资源数据库。6PIR的功能的功能 PIR是一个集成了关于是一个集成了关于蛋白质功能预测数据蛋白质功能预测数据的公共资源的的公共资源的数据库,其目
3、的是支持基因组数据库,其目的是支持基因组/蛋白质组研究。蛋白质组研究。它是一个全面的、经过注释的、它是一个全面的、经过注释的、非冗余非冗余的蛋白质序列数据的蛋白质序列数据库。帮助研究者鉴别和解释蛋白质序列信息。库。帮助研究者鉴别和解释蛋白质序列信息。所有序列数据都经过整理,所有序列数据都经过整理,超过超过99%的序列已按蛋白质家的序列已按蛋白质家族分类族分类,一半以上还按蛋白质超家族一半以上还按蛋白质超家族进行了分类。进行了分类。7除了蛋白质序列数据之外,除了蛋白质序列数据之外,PIR还包含以下信息:还包含以下信息:(1)蛋白质名称、蛋白质的蛋白质名称、蛋白质的分类分类、蛋白质的、蛋白质的来源
4、来源;(2)关于关于原始数据的参考文献原始数据的参考文献;(3)蛋白质功能和蛋白质的一般蛋白质功能和蛋白质的一般特征特征,包括基因,包括基因表达、翻译后处理等;表达、翻译后处理等;(4)序列中相关的序列中相关的位点、功能区域。位点、功能区域。8u一是基于文本的交互式查询一是基于文本的交互式查询 用户通过用户通过关键字关键字进行数据查询。进行数据查询。u二是标准的序列二是标准的序列相似性相似性搜索搜索 包括包括BLAST、FastA等。等。u三是结合序列相似性、注释信息和蛋白质家族三是结合序列相似性、注释信息和蛋白质家族信息的信息的高级搜索高级搜索 包括按注释分类的相似性搜索、结构域搜索包括按注
5、释分类的相似性搜索、结构域搜索等。等。PIR提供三种类型的检索服务提供三种类型的检索服务PIR主主 5 PIR-NREF-非冗余的蛋白质参考资料数据库非冗余的蛋白质参考资料数据库数据交叉和同步更新数据交叉和同步更新1516171819UniProt databases.20212223序列物种来源拉序列物种来源拉丁名(常用名)丁名(常用名)记录注册、修改日期记录注册、修改日期注册号及参考来源注册号及参考来源物种分类型物种分类型序列长度序列长度序列顺序序列顺序文献发表作者文献发表作者/刊名刊名/发发表时间表时间/文章名文章名/文献数文献数据库记录号据库记录号标题标题/序列名称序列名称Entry
6、name练习一练习一 利用利用PIR查询查询KCNJ2的信息。的信息。24UniProt:(Universal Protein Resource)http:/www.uniprot.org/“the worlds most comprehensive catalog of information on proteins!”收录所有收录所有UniProt 数据库子库中的蛋白质序列,很大,信息比较粗糙。既包括重复数据库子库中的蛋白质序列,很大,信息比较粗糙。既包括重复的序列也包括的序列也包括未加注释未加注释的序列。的序列。UniRef(UniProt Reference Clusters)归纳归纳
7、UniProt几个主要数据库并将重复的序列去除后的数据库(几个主要数据库并将重复的序列去除后的数据库(非冗余非冗余)。)。UniProtKB(UniProt Knowledgebase)有详细注释并与其他数据库及文献有链接的数据库。分为有详细注释并与其他数据库及文献有链接的数据库。分为UniProtKB/SWISS-PROT 与与UniProtKB/TrEMBL两部分。两部分。有三个层次的数据库:有三个层次的数据库:UniParc(UniProt Archive)Kir2.1 or KCNJ2UniProtKB/Swiss-Prot在在UniProtKB中,注释包括:中,注释包括:蛋白质功能蛋
8、白质功能酶学特性酶学特性生物学意义的相关结构域及位点生物学意义的相关结构域及位点翻译后修饰情况翻译后修饰情况亚细胞定位亚细胞定位组织特异性组织特异性发育阶段特异性发育阶段特异性结构、相互作用结构、相互作用相关疾病信息的注释相关疾病信息的注释27UniProtKB/TrEMBLUniProtKB/TrEMBL收录的是高质量的经计算机收录的是高质量的经计算机分析后进行自动注释和分类的序列。分析后进行自动注释和分类的序列。UniProtKB/TrEMBL还收录了所有还收录了所有EMBL-Bank/GenBank/DDBJ核酸序列数据库中的编码序列的核酸序列数据库中的编码序列的翻译后蛋白质序列和人类翻
9、译后蛋白质序列和人类Ensembl数据库中序列数据库中序列的翻译后蛋白质序列。的翻译后蛋白质序列。28Kir2.1 or KCNJ2Kir2.1蛋白名;作者名一、基本信息一、基本信息二、功能注释二、功能注释三、序列特征三、序列特征http:/www.uniprot.org/uniprot/P10962四、蛋白质结构域组成和蛋白质家族四、蛋白质结构域组成和蛋白质家族http:/www.uniprot.org/uniprot/P10962五、其他特征:结构、参与的蛋白质互作五、其他特征:结构、参与的蛋白质互作练习二:练习二:利用利用SWISS-PROT,查看人类查看人类KCNA5对应蛋白的对应蛋白
10、的相关信息。相关信息。Prosite Prosite(regular expressionregular expression),表示该位置可以是,表示该位置可以是 中出现的氨基酸的任意一个。中出现的氨基酸的任意一个。ALT 表示可以是表示可以是 Ala or Leu or Thr X,表示该位置可以是任意一个氨基酸,表示该位置可以是任意一个氨基酸 ,表示该位置是除了,表示该位置是除了 中氨基酸以外的其他氨基酸。中氨基酸以外的其他氨基酸。AM是除了是除了 Ala or Met 的任意氨基酸。的任意氨基酸。x(3)表示表示 x-x-x,重复出现次数用数值来表示。,重复出现次数用数值来表示。x(2
11、,4)表表示示 x-x or x-x-x or x-x-x-x.F-GSTV-P-R-Lhttp:/prosite.expasy.org/Given an alignment.HOW TO READ THEM?Motif nameSequences运用蛋白质二级数据库运用蛋白质二级数据库PROSITEPROSITE分别预测分别预测:KCNA5KCNA5野生型野生型三个突变型三个突变型:KCNA5T527M:KCNA5T527M,KCNA5A576VKCNA5A576V和和KCNA5E610KKCNA5E610K序列中包含的功能位点。序列中包含的功能位点。例子例子:缬氨酸缬氨酸 丙氨酸丙氨酸 苏
12、氨酸苏氨酸 蛋氨酸蛋氨酸 甘氨酸甘氨酸 谷氨酸谷氨酸 Pfam(http:/pf/练习三:练习三:利用利用Prosite,Pfam,查看人类查看人类KCNA5对应的相关信对应的相关信息。息。酵母蛋白质相互作用图酵母蛋白质相互作用图人类蛋白质相互作用图人类蛋白质相互作用图http:/www.pathguide.org/http:/www.ebi.ac.uk/intact/main.xhtmlP53 http:/thebiogrid.org/蛋白质组学数据库蛋白质组学数据库55基因组计划的局限基因组计划的局限大规模基因表达检测技术如:大规模基因表达检测技术如:DNADNA芯片芯片“mRNA”“mR
13、NA”无法反映蛋白质的质与量。无法反映蛋白质的质与量。v基因组是唯一的,但蛋白表达是变化的基因组是唯一的,但蛋白表达是变化的(时时,空空)19941994年年WilliamsWilliams提出测定有机体的基因组所表达的全部蛋白提出测定有机体的基因组所表达的全部蛋白19951995年年WilkinsWilkins正式提出正式提出ProteomeProteome(蛋白质组)一词(蛋白质组)一词后基因组后基因组功能基因组功能基因组(转录组、蛋白质组)的研究是转录组、蛋白质组)的研究是2121世世纪生命科学的主要任务(纪生命科学的主要任务(Wilkins MR et al 1997)Wilkins
14、MR et al 1997)什么是蛋白质组?什么是蛋白质组?蛋白质组蛋白质组 “proteome”一一词源于词源于“PROTEin”与与genOME 的杂合的杂合。什么是蛋白质组学?什么是蛋白质组学?与传统蛋白质研究的区别与传统蛋白质研究的区别 个体个体-整体整体 分析静态性质分析静态性质-比较动态变化比较动态变化 孤立个体孤立个体-相互作用相互作用 小规模、非连续小规模、非连续-高通量、自动化高通量、自动化 功能蛋白质组学是指功能蛋白质组学是指蛋蛋白质间、蛋白质白质间、蛋白质-DNA/RNA间间的相互作的相互作用的研究。以细胞内与用的研究。以细胞内与某个功能有关或某种条某个功能有关或某种条件
15、下的一群蛋白质为主件下的一群蛋白质为主要研究内容,由此建立要研究内容,由此建立细胞内外信号传递的复细胞内外信号传递的复杂网络。杂网络。Challenge I sequence,structure and function Structure spaceFunction space20,000 30,000(function by GO)Sequence space2,000,000面临挑战面临挑战Challenge II the building blocksDomain Interaction?Domain and Function?Challenge IIIP2PPathway and N
16、etworks?Yarmush&Jayaraman,2002Generalized Proteomics SchemeGeneralized Proteomics SchemeTotal Proteins(Proteome)SeparationIdentification大肠杆菌全蛋白提取液双向电泳凝胶染色后照片大肠杆菌全蛋白提取液双向电泳凝胶染色后照片SWISS-2DPAGE http:/www.expasy.org/ch2d SWISS-2DPAGETwo-dimensional polyacrylamide gel electrophoresis database 全基因组二维凝胶电泳图
17、谱全基因组二维凝胶电泳图谱 描述相对分子质量、等电点和蛋白的序列快速检描述相对分子质量、等电点和蛋白的序列快速检索。提供索。提供2D图谱。比较图谱。比较2D图图。GELBANKhttp:/gelbank.anl.gov现在已经完成了现在已经完成了131个物种个物种,大多数微生物的蛋白质组可以从,大多数微生物的蛋白质组可以从NCBI上获得。上获得。图像是按物种、组织、分离方法、样品类型、染色方法分类的。图像是按物种、组织、分离方法、样品类型、染色方法分类的。注册用户可以上传二维凝胶电泳图谱和其注释,根据分子量和等电点进行相注册用户可以上传二维凝胶电泳图谱和其注释,根据分子量和等电点进行相关查询。
18、可获得相关二维凝胶电泳图谱的链接。关查询。可获得相关二维凝胶电泳图谱的链接。Predictome http:/predictome.bu.edu 可视化界面:可视化界面:VisANT http:/visant.bu.edu/预测蛋白质间功能关系的数据库预测蛋白质间功能关系的数据库练习四:练习四:利用利用VisANT查看查看P53功能关系网络。功能关系网络。Integr8:http:/www.ebi.ac.uk/integr8蛋白质组分析数据库蛋白质组分析数据库练习五:练习五:利用利用Integr8查看查看P53蛋白信息。蛋白信息。Protein secondary structure data
19、base蛋白质二级蛋白质二级 结构数据库结构数据库PHD-蛋白质结构预测(蛋白质结构预测(PredictProtein)预测预测 蛋白质蛋白质:二级结构(二级结构(Secondary structure)残基可溶性(残基可溶性(Residue solvent accessibility)跨膜螺旋区定位(跨膜螺旋区定位(Location of transmembrane helices)。http:/www.predictprotein.org/DIP数据库及数据介绍数据库及数据介绍 DIP(Database of Interacting Proteins,蛋白互相作用数据库,蛋白互相作用数据库
20、)于于1999年在年在UCLA的的David Elsenberg实验室建立。实验室建立。主旨:是把关于蛋白互作的多样的实验信息整合成一个容易主旨:是把关于蛋白互作的多样的实验信息整合成一个容易进行查询的专一数据库。进行查询的专一数据库。互作指的是两个氨基酸链在实验上证实相互结合。互作指的是两个氨基酸链在实验上证实相互结合。它转化了它转化了MEDLINE文献中关于蛋白互作的实验结果文献中关于蛋白互作的实验结果,储存,储存和组织了多种观察和实验技术下得到的蛋白互作信息。和组织了多种观察和实验技术下得到的蛋白互作信息。DIP发展了全基因组范围的数据质量监测工具,保证了发展了全基因组范围的数据质量监测
21、工具,保证了数据数据的可信性的可信性。DIP收集的互作蛋白数据不仅有利于研究某一具体互作蛋白收集的互作蛋白数据不仅有利于研究某一具体互作蛋白的关系,还对的关系,还对信号转导、蛋白相互作用细胞网络的组织和信号转导、蛋白相互作用细胞网络的组织和复杂性复杂性研究起推动作用。研究起推动作用。DIP数据库及数据介绍数据库及数据介绍1.Protein部分为部分为PROTEIN表格,包括了蛋白在表格,包括了蛋白在SWISS-PROT、PIR和和GenBank中的识别号码,中的识别号码,蛋白的基本信息如基因名称、简单描述、酶号码蛋白的基本信息如基因名称、简单描述、酶号码和细胞定位和细胞定位主要分为主要分为Pr
22、otein、Interaction和和Experiment三三个部分,分别储存蛋白信息、互作信息和相个部分,分别储存蛋白信息、互作信息和相关实验信息关实验信息。注:关于蛋白蛋白相互作用的信息储存在注:关于蛋白蛋白相互作用的信息储存在INTERACTION和和INT_PRT表格中,如果是两个蛋白相互作用,则表格中,如果是两个蛋白相互作用,则INT_PRT中有两个条目而中有两个条目而INTERACTION只有一个,这样可以用于只有一个,这样可以用于描述两个或多个的相互作用。描述两个或多个的相互作用。2.Interaction部分包括了对相互作用蛋白的描述,蛋白部分包括了对相互作用蛋白的描述,蛋白相互作用区域、结构域,解离常数等信息相互作用区域、结构域,解离常数等信息注:注:EVIDENCE表格提供相关实验的具体细节表格提供相关实验的具体细节SOURCE表格提供了相关实验的来源,包括表格提供了相关实验的来源,包括MEDLINE标标准的文献号码(准的文献号码(PMID/UID)和文献的作者、题目、刊物和)和文献的作者、题目、刊物和出版年份等出版年份等3.Experiment部分包括了对实验细节的介绍和相关文部分包括了对实验细节的介绍和相关文献的链接献的链接