1、.蛋白质的序列分析及结构预测蛋白质的序列分析及结构预测.DNA sequenceProtein sequenceProtein structureProtein function.一、蛋白质数据库介绍一、蛋白质数据库介绍二、蛋白质序列分析二、蛋白质序列分析三、蛋白质结构预测三、蛋白质结构预测四、应用四、应用 分子设计分子设计.一、蛋白质数据库介绍一、蛋白质数据库介绍蛋白质的结构主要分为四级蛋白质的结构主要分为四级, 一级结构、二级结构、三级结构一级结构、二级结构、三级结构以及四级结构。依据这种结构层次以及四级结构。依据这种结构层次, 将蛋白质数据库分为将蛋白质数据库分为: 如如PIR、SWIS
2、S-PROT、NCBI , 这些这些数据库的数据主要以蛋白质的序列为主数据库的数据主要以蛋白质的序列为主, 并赋予相应的注释并赋予相应的注释; 如如PROSITE、Pfam, 这些数这些数据库主要收集了蛋白质的保守结构域和功能域的特征序列据库主要收集了蛋白质的保守结构域和功能域的特征序列; 如如PDB 等等, 这些数据库主要以蛋白质这些数据库主要以蛋白质的结构测量数据为主的结构测量数据为主; 如如SCOP、CATH、FSSP 等等, 这其中这其中有以序列比较为基础的序列分类数据库以及以结构比较为基础有以序列比较为基础的序列分类数据库以及以结构比较为基础的结构分类数据库之分。的结构分类数据库之分
3、。.蛋白质数据库蛋白质数据库 这些数据库种类有差别, 但内部是相互联系的. 每个数据库都有指针指向其他数据库, 而且数据库之间的序列以及相应的结构是共享的, 同一种蛋白质依次会出现在不同的数据库. 这样的数据沟通有助于更深层地挖掘蛋白质的内在生物信息, 这些数据库是融序列信息的索取、处理、存储、输出于一身的。.(1)PIR(protein information resource, PIR)和和PSD (protein sequence database, PSD) http:/pir.georgetown.edu/pirwww PIR-PSD 是一个综合全面的、非冗余的、专业注释的、分类完整
4、的蛋白质序列数是一个综合全面的、非冗余的、专业注释的、分类完整的蛋白质序列数据库。据库。PIR-PSD 的序列来自于将的序列来自于将GenBank/ EMBL/ DDBJ 三大数据库的编码序三大数据库的编码序列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。列的翻译而成的蛋白质序列、发表的文献中的序列和用户直接提交的序列。(2)SWISS-PROT/ TrEMBL数据库数据库 www.expasy.org/swissprot数据库由蛋白质序列条目构成数据库由蛋白质序列条目构成, 每个条目包含蛋白质序列、引用文献信息、每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等分类学
5、信息、注释等, 注释中包括蛋白质的功能、转录后修饰位点、特殊位点注释中包括蛋白质的功能、转录后修饰位点、特殊位点和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、和区域、二级结构、四级结构、与其他序列的相似性、序列残缺与疾病的关系、序列变异体等信息。序列变异体等信息。.模体数据库模体数据库(1)PROSITE 蛋白质家族及结构域数据库蛋白质家族及结构域数据库( www.expasy.org/prosite/ ) PROSITE 数据库收集了有显著生物学意义的蛋白质位点序列、蛋白质特征序列谱库以及序列模型, 并能依据这些特征属性快速可靠地鉴定出一个未知功能蛋白质序列属于哪个蛋
6、白质家族, 即使在蛋白质序列相似性很低的情况下, 也可以通过搜索隐含的功能结构模体(motif)来鉴定, 因此是有效的序列分析数据库。 PROSITE 中涉及的序列模式包括酶的催化位点、配体结合位点、金属离子结合位点、二硫键、小分子或者蛋白质结合区域等, 此外PROSITE 还包括由多序列比对构建的序列表谱( profile) , 能更敏感地发现序列中的信息。.PROSITE同时数据库提供了序列分析工具同时数据库提供了序列分析工具: ScanProsite 是用于搜索所提交的序列数据是否包是用于搜索所提交的序列数据是否包含含 PROSITE 数据库中的序列模式或者数据库中的序列模式或者SWIS
7、S-PROT 数据库中已提交的序列模式数据库中已提交的序列模式; MotifScan 用于查找未知序列中所有可能的已知结用于查找未知序列中所有可能的已知结构组件构组件, 数据库包括数据库包括PROSITE序列表谱、序列表谱、PROSITE 模式、模式、Pfam 收集的隐马尔可夫模式收集的隐马尔可夫模式( HMM)。.(2) PRINTS Fingerprint Database www.bioinf.man.ac.uk/dbrowser/PRINTS/ 这个数据库包含1 500 个蛋白质指纹图谱, 编码9 136 个单一模体。(3) BLOCKS ( www.blocks.fhcrc.org/
8、 )BLOCKS 是通过一些高度保守的蛋白质区域比对出来的无空位的片段。模体数据库模体数据库.蛋白质结构域数据库蛋白质结构域数据库 (1 ) 蛋白质家族序列比对以及隐马尔可夫模式数据库蛋白质家族序列比对以及隐马尔可夫模式数据库Pfam( protein families database of alignments and HMMs)Pfam 是蛋白质家族序列比对以及隐马尔可夫模式数据库,其网址是: www.sanger.ac.uk/Software/Pfam/index.shtml。 (2) 蛋白质结构域数据库蛋白质结构域数据库ProDom http:/prodes.toulouse.inr
9、a.fr/prodom/doc/prodom.html (3) SMART SMART 是一个简单的结构研究工具, 可对可转移的遗传因子进行鉴定和注解, 以及分析结构域结构, 可以检测出500 多个参与信号传导、胞外和染色体相关蛋白质的结构域家族, 对这些结构域又在系统进化树分布、功能分类、三级结构和重要的功能残基方面做了注解。 http:/smart.embl-heidelberg.de/.PDB( protein data bank , PDB) http:/www.rcsb.org/pdb/PDB 包括了蛋白质、核酸、蛋白质-核酸复合体以及病毒等生物大分子结构数据, 主要是蛋白质结构数据
10、, 这些数据来源于几乎全世界所有从事生物大分子结构研究的研究机构, 并由RCSB 维护和注释。.(1) CATH 数据库数据库 www.biochem.ucl.ac.uk/bsm/cathnew/index.html(2) SCOP 蛋白质结构分类数据库蛋白质结构分类数据库( structural classification of protein database,SCOP) scop.mrclmb.cam.ac.uk/scop/index.html.二、蛋白质的序列分析二、蛋白质的序列分析1. 蛋白质序列信息的获取蛋白质序列信息的获取 2. 蛋白质序列分析蛋白质序列分析 .(1) 直接测序
11、直接测序(2) 翻译编码的翻译编码的DNA序列序列 ORF Finder(3)在数据库中搜索)在数据库中搜索 运用运用ID 号、入口号、条目号等搜索。号、入口号、条目号等搜索。 运用关键词搜索运用关键词搜索 其他方式搜索。如可以通过引用序列的文献、其他方式搜索。如可以通过引用序列的文献、序列的作者、序列提交的日期等进行搜索。序列的作者、序列提交的日期等进行搜索。.(1 1)直接测序)直接测序e.g. Protein Sequencing and Identificationby Tandem Mass Spectrometry,即用串联质谱仪测序.串联质谱及其作用串联质谱及其作用 两个或更多的
12、质谱连接在一起,称为串联质谱。最简单的串联质谱(MS|MS)由两个质谱串联而成,其中第一个质量分析器(MS1)将离子预分离或加能量修饰,由第二级质量分析器(MS2)分析结果。 . 串联质谱仪的组合方式:串联质谱仪的组合方式: (1) 磁分析器-静电分析器-磁分析器(2) 静电分析器-磁分析器-静电分析器(3) 三重四极滤质器质谱仪(4) 混合式串联质谱仪,如MA-ESA-Q-Q。实现串联质谱有空间串联和时间串联两种方式。 . 优点:优点: 可以避免底物分子产生的干扰,大大降低背景噪音。 其次,可使分子离子通过与反应气的碰撞来产生断裂。 因此能提供更多的结构信息,所以串联质谱特别适合于复杂组分体
13、系且干扰严重的样品中低含量组分分析测定,具有比GC-MS和LC-MS等一级质谱更高的选择性和灵敏度。.Masses of Amino Acid Residues.Protein backboneH.-HN-CH-CO-NH-CH-CO-NH-CH-CO-OHRi-1RiRi+1AA residuei-1AA residueiAA residuei+1N-terminusC-terminus.Breaking Protein into Peptides and Peptides into Fragment Ions Proteases, e.g. trypsin(胰蛋白酶), break pro
14、tein into peptides. A Tandem Mass Spectrometer(串联式质谱仪) further breaks the peptides down into fragment ions and measures the mass of each piece.General for sequencing.Breaking Protein into Peptides and Peptides into Fragment Ions Mass Spectrometer accelerates the fragmented ions; heavier ions acceler
15、ate slower than lighter ones. Mass Spectrometer measure mass/charge ratio of an ion.General for sequencing.Peptide Fragmentation Peptides tend to fragment along the backbone. Fragments can also loose neutral chemical groups like NH3 and H2O.H.-HN-CH-CO . . . NH-CH-CO-NH-CH-CO-OHRi-1RiRi+1H+Prefix Fr
16、agmentSuffix FragmentCollision Induced Dissociation.N- and C-terminal PeptidesN-terminal peptidesC-terminal peptides.Terminal peptides and ion typesPeptideMass (D) 57 + 97 + 147 + 114 = 415PeptideMass (D) 57 + 97 + 147 + 114 18 = 397without.N- and C-terminal PeptidesN-terminal peptidesC-terminal pep
17、tides415 486 30115457 71185332429.N- and C-terminal PeptidesN-terminal peptidesC-terminal peptides415 486 30115457 71185332429.Peptide Fragmentationy3b2y2y1b3a2a3 HO NH3+ | | R1 O R2 O R3 O R4 | | | | | | |H - N - C - C - N - C - C - N - C - C - N - C - COOH | | | | | | | H H H H H H H b2-H2O y3 -H2
18、Ob3- NH3y2 - NH3.Mass SpectraGVDLKmass057 Da = G 99 Da = VLK DVG The peaks in the mass spectrum: Prefix Fragments with neutral losses (-H2O, -NH3) Noise and missing peaks.and Suffix Fragments.DH2O.Protein Identification with MS/MSGVDLKmass0Intensitymass0MS/MSPeptide Identification: .Tandem Mass-Spec
19、trometry.Breaking Proteins into PeptidespeptidesMPSERGTDIMRPAKIDHPLCTo MS/MSMPSERGTDIMRPAKID.protein.Mass SpectrometryRelative AbundanceMatrix-Assisted Laser Desorption/Ionization (MALDI)基质辅助激光解吸质谱基质辅助激光解吸质谱 .基质辅助激光解吸飞行时间质谱仪基质辅助激光解吸飞行时间质谱仪 MALDI-TOF-MS MALDI-TOF-MS是近年来发展起来的一种软电离新型有机质谱。近年来已成为检测和鉴定多肽、
20、蛋白质、多糖、核苷酸、糖蛋白、高聚物以及多种合成聚合物的强有力工具。 原理:原理:当用一定强度的激光照射样品与基质形成的共结晶薄膜,基质从激光中吸收能量,基质-样品之间发生电荷转移使得样品分子电离,电离的样品在电场作用下加速飞过飞行管道,根据到达检测器的飞行时间不同而被检测,即测定离子的质量电荷之比与离子的飞行时间成正比来检测离子。 MALDI-TOF-MS的中心技术就是依据样品的质荷比(m/z)的不同来进行检测,并测得样品分子的分子量。 .Tandem Mass SpectrometryS#: 1708 RT: 54.47 AV: 1 NL: 5.27E6T: + c d Full ms2
21、638.00 165.00 - 1925.00200400600800100012001400160018002000m/z05101520253035404550556065707580859095100Relative Abundance850.3687.3588.1851.4425.0949.4326.0524.9589.21048.6397.1226.91049.6489.1629.0S#: 1707 RT: 54.44 AV: 1 NL: 2.41E7F: + c Full ms 300.00 - 2000.00200400600800100012001400160018002000
22、m/z05101520253035404550556065707580859095100Relative Abundance638.0801.0638.91173.8872.31275.3687.6944.71884.51742.112 2.0783.31048.31413.91617.7Scan 1708LCScan 1707MSMS/MSIonSourceMS-1collisioncellMS-2.多肽片段指纹图谱多肽片段指纹图谱(PFF) 步骤:用酶专一性酶解蛋白质,经过分离,得到的肽段在质谱中被选择和破碎后得到MS/MS谱图,与数据库中的谱图比较进行鉴定 代表方法: LC-ESI-MS
23、/MS 2D-LC-MS/MS(shotgun) .(2 2)翻译编码的)翻译编码的DNADNA序列序列 e.g.用“ORF Finder”程序找到DNA的开放阅读框。网址:ncbi.nlm.nih.gov/gorf/gorf.html.(3 3)在数据库中搜索)在数据库中搜索e.g. PIR-PSD database: pir.georgetown.edu/pirwww SWISS-PROT/TrEMBL database www.expasy.org/swissprot.目前大部分蛋白质序列是通过目前大部分蛋白质序列是通过DNA DNA 人工翻译人工翻译过来的过来的, , 实际上很少有人能
24、获得真正的蛋白实际上很少有人能获得真正的蛋白质质, , 因而实验证据就很难直接获得因而实验证据就很难直接获得, , 因此对因此对蛋白质序列初始分析是很有价值的。蛋白质序列初始分析是很有价值的。 比如,通过一些序列分析工具进行蛋白质比如,通过一些序列分析工具进行蛋白质理化特性的预测、修饰位点的预测等。理化特性的预测、修饰位点的预测等。2. 蛋白质序列分析蛋白质序列分析.1.1.蛋白质序列的基本性质分析蛋白质序列的基本性质分析 理化性质分析,疏水性分析,跨膜区分析,信号肽理化性质分析,疏水性分析,跨膜区分析,信号肽预测,预测,CoilCoil区分析,亚细胞定位区分析,亚细胞定位2.2.序列数据库搜
25、索序列数据库搜索 相似性搜索,模体的搜索相似性搜索,模体的搜索3.3.结构域定位结构域定位4.4.空间结构预测空间结构预测 二级结构及三级结构预测,结构预测方法评价二级结构及三级结构预测,结构预测方法评价 蛋白质序列分析主要内容:蛋白质序列分析主要内容:.1. 蛋白质序列的基本性质分析蛋白质序列的基本性质分析(1 1)理化性质分析)理化性质分析 分子质量、分子式、理论等电点、氨基酸组成、分子质量、分子式、理论等电点、氨基酸组成、消光系数、稳定性等理化特性。消光系数、稳定性等理化特性。例,利用例,利用ProtParamProtParam工具工具http:/us.expasy.org/tools/
26、protparam.html .理化指标理化指标CLCLCLAPCLAP分子式分子式C C16151615H H24202420N N428428O O535535S S1616C C12111211H H19511951N N319319O O364364S S3 3分子量分子量36904.436904.426899.926899.9理论等电点理论等电点pIpI4.474.476.206.20总原子数总原子数5014501438483848消光系数(消光系数(280nm280nm)754557545559605960半衰期半衰期(小时)(小时)哺乳动物,哺乳动物,体外体外30 30 3030
27、酵母,体内酵母,体内20202020大肠杆菌,大肠杆菌,体内体内10101010不稳定性指数不稳定性指数31.7231.7229.5929.59脂肪族指数脂肪族指数63.7363.73105.18105.18总体亲水性总体亲水性-0.542-0.5420.1090.109CLCL和和CLAPCLAP的理化性质预测结果的理化性质预测结果 CL:组织蛋白酶:组织蛋白酶L CLAP:组织蛋白酶:组织蛋白酶L相关蛋白相关蛋白 .(2 2) 疏水性分析疏水性分析 氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水氨基酸侧链的疏水性用从各氨基酸减去甘氨酸疏水性之值来表示,蛋白质的疏水性在保持蛋白质三级结性之值来
28、表示,蛋白质的疏水性在保持蛋白质三级结构的形成和稳定中起着重要作用。构的形成和稳定中起着重要作用。e.g.e.g.利用利用ProtScaleProtScale工具工具http:/web.expasy.org/protscale/http:/web.expasy.org/protscale/利用利用BioEditBioEdit软件分析软件分析.海参溶菌酶亲水性海参溶菌酶亲水性/疏水性分析疏水性分析Score 0,表示疏水性; Score 30的序列模拟比较有效,最常用的方法的序列模拟比较有效,最常用的方法 SWISS-MODEL, CPHmodels 串线法串线法/折叠识别法折叠识别法 (Thr
29、eading/Fold recognition)“穿穿”入已知的各种蛋白质折叠骨架内,入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量适于对蛋白质核心结构进行预测,计算量大大THREADER,3D-PSSM从头预测法从头预测法( Ab initio/De novo methods )基于分子动力学,寻找能量最低的构象,基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测计算量大,只能做小分子预测HMMSTR/ ROSSETA.方法一:同源模建方法一:同源模建 comparative modelingcomparative modeling 1. 1.同源模建的基础同
30、源模建的基础 蛋白质的三级结构比一级结构更保守。研究表明蛋白质的三级结构比一级结构更保守。研究表明 如果两个蛋白质的同源性达到如果两个蛋白质的同源性达到50%50%,二者,二者90%90%的的CaCa的的RMSRMS 小于小于1 1埃。埃。 2.2.原理:原理: 序列高度相似的蛋白质具有相似的三维结构。序列高度相似的蛋白质具有相似的三维结构。 同源蛋白质之间具有保守的结构内核,差异仅存在同源蛋白质之间具有保守的结构内核,差异仅存在分子表面的回折区。分子表面的回折区。 当一个蛋白质的序列与一个已知结构的蛋白质序列当一个蛋白质的序列与一个已知结构的蛋白质序列相似的时候,该蛋白质的结构可以被模建。相
31、似的时候,该蛋白质的结构可以被模建。. 3.3.同源模建的前提和条件:同源模建的前提和条件: 要模建的目标蛋白必须有一个或多个已知结构的与要模建的目标蛋白必须有一个或多个已知结构的与 之同源(同源性不低于之同源(同源性不低于2525)的蛋白。)的蛋白。 数据库:蛋白质结构、序列数据数据库:蛋白质结构、序列数据 计算机:工作站计算机:工作站 分子模拟系统:软件系统分子模拟系统:软件系统 4. 4.同源模建的发展历史同源模建的发展历史 19691969年,年,BrowneBrowne利用溶菌酶的结构手工模建了牛乳白利用溶菌酶的结构手工模建了牛乳白蛋白的结构。八十年代,蛋白的结构。八十年代,Blun
32、delBlundel发展了利用多种同源蛋白发展了利用多种同源蛋白质进行结构预测的方法。随着计算机技术的发展、结构测质进行结构预测的方法。随着计算机技术的发展、结构测定数据的增加,同源模建技术也在快速发展。定数据的增加,同源模建技术也在快速发展。.5.5.同源模建的主要算法同源模建的主要算法 刚体装配模建(刚体装配模建(modeling by rigid body assembly ) 片段匹配模建(片段匹配模建(modeling by segment matching) 空间制约模建(空间制约模建(modeling by satisfaction of spatial restraints).
33、(1 1)刚体装配模建)刚体装配模建 从一些刚体包括核心区、环区和侧链来构造模型,这些从一些刚体包括核心区、环区和侧链来构造模型,这些刚体都来自分解的相关结构(参考蛋白)。模型的装配涉及刚体都来自分解的相关结构(参考蛋白)。模型的装配涉及计算一个框架,这个框架定义为折叠模式的保守区域的模板计算一个框架,这个框架定义为折叠模式的保守区域的模板原子的平均,并把刚体装进框架。原子的平均,并把刚体装进框架。(2 2)片段匹配模建)片段匹配模建 依赖于从模板蛋白的保守原子的相近位置来计算其它原依赖于从模板蛋白的保守原子的相近位置来计算其它原子的坐标。它可以通过使用蛋白质结构的短片数据库、能量子的坐标。它
34、可以通过使用蛋白质结构的短片数据库、能量或几何规则、以及这些标准的某些联合来完成。或几何规则、以及这些标准的某些联合来完成。(3 3)空间制约满足:)空间制约满足: 首先从参考蛋白结构中抽取出一些空间制约条件,将这首先从参考蛋白结构中抽取出一些空间制约条件,将这些制约条件用几率密度函数来表示,然后根据氨基酸类型、些制约条件用几率密度函数来表示,然后根据氨基酸类型、等位残基的主链构象和序列之间局部的相似程度而对空间制等位残基的主链构象和序列之间局部的相似程度而对空间制约条件施加以不同的权重因子。模建时将几率密度函数应用约条件施加以不同的权重因子。模建时将几率密度函数应用到未知结构蛋白质序列上,通
35、过优化分子的几率密度函数使到未知结构蛋白质序列上,通过优化分子的几率密度函数使制约条件有最小的冲突而得到目标蛋白的三维结构,整个优制约条件有最小的冲突而得到目标蛋白的三维结构,整个优化过程通过分子力学和分子动力学模拟来实现化过程通过分子力学和分子动力学模拟来实现 。 .6. 同源建模法分析步骤:同源建模法分析步骤: 多序列比对多序列比对 与已有晶体结构的蛋白质序列比对与已有晶体结构的蛋白质序列比对 确定是否有可以使用的模板确定是否有可以使用的模板 序列相似度序列相似度30% 序列相似度序列相似度30%,结合功能,蛋白质一级序列、二级结,结合功能,蛋白质一级序列、二级结构或结构域信息构或结构域信
36、息 构建三维模型构建三维模型 三维模型准确性检验三维模型准确性检验 Whatcheck 程序程序 Ramachandran plot计算检验计算检验 手工调整多序列比对,重新拟和,构建新的模型手工调整多序列比对,重新拟和,构建新的模型.常用数据库常用数据库数据库数据库网站网站备注备注PDBhttp:/www.rcsb.org/pdb/home/home.do主要的蛋白质三维结构数据主要的蛋白质三维结构数据库库MMDBhttp:/www.ncbi.nlm.nih.gov/Structure/MMDB/mmdb.shtmlNCBI维护的蛋白质结构数据维护的蛋白质结构数据库库Psdbhttp:/ww
37、w.psc.edu/deerfiel/PSdb/从从PDB和和NRL-3D数据库中衍数据库中衍生出的数据库,含二级结构生出的数据库,含二级结构和三维结构信息和三维结构信息3DinSighthttp:/gibk26.bse.kyutech.ac.jp/jouhou/3dinsight/3DinSight.html整合了结构、性质(氨基酸整合了结构、性质(氨基酸组成、热力学参数等)、生组成、热力学参数等)、生物学功能(突变点,相互作物学功能(突变点,相互作用等)的综合数据库,用等)的综合数据库,FSSPhttp:/www.ebi.ac.uk/dali/fssp/根据结构比对的蛋白质结构根据结构比对
38、的蛋白质结构分类数据库分类数据库SCOPhttp:/scop.mrc-lmb.cam.ac.uk/scop/蛋白质结构分类数据库,将蛋白质结构分类数据库,将已知结构蛋白进行有层次地已知结构蛋白进行有层次地分类分类CATHhttp:/www.cathdb.info/latest/index.html另一个有名的蛋白质结构和另一个有名的蛋白质结构和结构域主要结构分类库结构域主要结构分类库MODBASEhttp:/pbio.ucsf.edu/modbase-cgi/index.cgi用同源比对法生成的模型结用同源比对法生成的模型结构数据库构数据库Enzyme Structureh t t p : /
39、 / w w w. e b i . a c . u k / t h o r n t o n -srv/databases/enzymes/从从PDB数据库中整理已知结数据库中整理已知结构的酶蛋白数据库构的酶蛋白数据库HSSPhttp:/www.sander.ebi.ac.uk/hssp/根据同源性到处的蛋白质结根据同源性到处的蛋白质结构数据库构数据库.模板搜索与比对模板搜索与比对工具工具网站网站备注备注PSI-BLASThttp:/www.ncbi.nlm.nih.gov/BLAST/位置特异性叠代位置特异性叠代BLAST,可,可用来搜索远源家族序列用来搜索远源家族序列FASTA3http:/
40、www.ebi.ac.uk/fasta33/位于位于EBI的序列比对工具的序列比对工具SSEARCHhttp:/rs.fr/bin/ssearch-guess.cgi采用采用Smith/Waterman法来进法来进行序列比对行序列比对ClustalWhttp:/www.ebi.ac.uk/Tools/clustalw/index.html多序列比对工具,位于多序列比对工具,位于EBIT-Coffeehttp:/www.ebi.ac.uk/t-coffee/用多种方法(如用多种方法(如ClustalW、DIalign等)来构建多序列比等)来构建多序列比对对Multalinh t t p : /
41、/ b i o i n f o . g e n o p o l e -toulouse.prd.fr/multalin/multalin.html一个老牌的多序列比对工具一个老牌的多序列比对工具Dalihttp:/www.ebi.ac.uk/dali/三维结构比对网络服务器三维结构比对网络服务器VASThttp:/www.ncbi.nlm.nih.gov/Structure/VAST/vast.shtml基于向量并列分析算法的三基于向量并列分析算法的三维结构比对工具维结构比对工具SAM-T99http:/www.soe.ucsc.edu/research/compbio/sam.html用用H
42、MM法搜索蛋白质远源同法搜索蛋白质远源同源序列源序列.同源建模法同源建模法工具工具网站网站备注备注SWISS-MODELhttp:/swissmodel.expasy.org/完整建模程序,采用同源性完整建模程序,采用同源性鉴定来确定模板蛋白,用户鉴定来确定模板蛋白,用户也可以自定义模板进行分析也可以自定义模板进行分析CPHmodelshttp:/www.cbs.dtu.dk/services/CPHmodels/基于神经网络的同源建模工基于神经网络的同源建模工具,用户只需提交序列,无具,用户只需提交序列,无高级选项高级选项EsyPred3Dhttp:/www.fundp.ac.be/urbm
43、/bioinfo/esypred/采用神经网络来提高同源建采用神经网络来提高同源建模准确性的预测工具模准确性的预测工具3Djigsawhttp:/www.bmm.icnet.uk/servers/3djigsaw/根据同源已知结构蛋白来建根据同源已知结构蛋白来建模的预测工具模的预测工具MODELLERhttp:/www.salilab.org/modeller/一个广泛使用的同源建模软一个广泛使用的同源建模软件,需要用户对脚本有一定件,需要用户对脚本有一定的了解的了解.串线法串线法工具工具网站网站备注备注3D-PSSMhttp:/www.sbg.bio.ic.ac.uk/3dpssm/inde
44、x2.html第一个运用第一个运用1D-3D序列序列profile来预测蛋白质折叠结构的网来预测蛋白质折叠结构的网络服务器络服务器Fuguehttp:/www-cryst.bioc.cam.ac.uk/fugue/以序列以序列结构比对搜索数据结构比对搜索数据库来预测蛋白质折叠库来预测蛋白质折叠HHpredhttp:/toolkit.tuebingen.mpg.de/hhpred基于基于HMM-HMM比对搜索多比对搜索多个数据库来预测给定序列的个数据库来预测给定序列的的折叠结构的折叠结构LOOPPhttp:/cbsuapps.tc.cornell.edu/loopp.aspx学习、观察和输出蛋白
45、质模学习、观察和输出蛋白质模式和结构工具式和结构工具THREADERhttp:/bioinf.cs.ucl.ac.uk/threader/一个老牌的线索分析软件,一个老牌的线索分析软件,对搜索远源蛋白序列较敏感对搜索远源蛋白序列较敏感PROSPECThttp:/compbio.ornl.gov/structure/prospect/index.html蛋白质结构预测和评价工具蛋白质结构预测和评价工具包,能以一种非常简单的方包,能以一种非常简单的方式运行,对于高级用户,也式运行,对于高级用户,也提供了很多的可选项提供了很多的可选项123D+http:/123d.ncifcrf.gov/123D+
46、.html结合了序列概形,二级结构结合了序列概形,二级结构信息和接触势能来将待测蛋信息和接触势能来将待测蛋白白“穿入穿入”一系列结构来预一系列结构来预测结构测结构SAM-T02http:/www.soe.ucsc.edu/research/compbio/HMM-apps/T02-query.html基于基于HMM方法的蛋白质结构方法的蛋白质结构预测预测GenThreaderhttp:/bioinf.cs.ucl.ac.uk/psipred/psiform.html使用结构评分和基于神经网使用结构评分和基于神经网络序列比对来也测蛋白折叠络序列比对来也测蛋白折叠结构结构.蛋白质三维结构预测蛋白质
47、三维结构预测 SWISS-MODEL工具工具 http:/www.expasy.ch/swissmod/SWISS-MODEL.html 同源建模方法 与PDB数据库已知结构的蛋白质序列比对进行预测.主要参数主要参数/ /选项选项粘贴粘贴protein.txt中中一条蛋白质序列一条蛋白质序列输入用户输入用户Email(选填)(选填) 比对比对e值值参照模板序列数目参照模板序列数目.输出结果输出结果下载下载pdbpdb格式文件格式文件.与模板序列与模板序列比对结果,比对结果,并显示二级并显示二级结构区域结构区域.方法二:折叠识别方法二:折叠识别/ 穿线方法穿线方法 对蛋白质结构的预测对蛋白质结构
48、的预测背景:背景:序列比对后所击中的相似序列不是完整的而是一段一段的结构域,也可以通过二级结构预测和折叠识别(fold recognition)找到合适的折叠子,再以这些已知结构的折叠子为模板来构建模型。.折叠识别折叠识别/ 穿线方法穿线方法 观察:观察:有限的蛋白质折叠种类(有限的蛋白质折叠种类(1,000?) 与与“从头开始从头开始”来预测蛋白质结构不同,我们可以从有限来预测蛋白质结构不同,我们可以从有限的蛋白质折叠条目中得到正确的结果。的蛋白质折叠条目中得到正确的结果。 基于序列技巧可以做到这一点,或者通过穿线法将序列按基于序列技巧可以做到这一点,或者通过穿线法将序列按顺序投到模板上,并
49、评价每一个匹配好坏程度顺序投到模板上,并评价每一个匹配好坏程度.折叠识别折叠识别/ 穿线方法穿线方法 原理:原理:将序列将序列“穿穿”入已知的各种蛋白质折叠子骨架内,入已知的各种蛋白质折叠子骨架内,通过目的蛋白序列与已知折叠子的逐一比对,计算出通过目的蛋白序列与已知折叠子的逐一比对,计算出未知结构序列折叠成各种已知折叠子的可能性;未知结构序列折叠成各种已知折叠子的可能性; 折叠子一般包括一个或多个蛋白质超家族;折叠子一般包括一个或多个蛋白质超家族; 每个折叠子的结构内核有确定的结构特征;每个折叠子的结构内核有确定的结构特征; 基于序列同源性很低的蛋白质都可能存在结构相同的基于序列同源性很低的蛋
50、白质都可能存在结构相同的 折叠子进行预测。折叠子进行预测。例如,通过例如,通过PHYRE系统进行折叠识别预测系统进行折叠识别预测http:/www.sbg.bio.ic.ac.uk/phyre/index.cgi.折叠识别或穿线法目标序列目标序列SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQ可能折叠的库(哪些具有已知序列和结构):可能折叠的库(哪些具有已知序列和结构):.序列结构比对序列结构比对目标序列目标序列SHPALTQLRALRYCKEIPALDPQLLDWLLLEDSMTKRFEQQt1t2t3t4t5tn已知折叠结构的序列s1s2s3s4s5s n
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。