1、蛋白质结构预测与建模 一维信息预测 跨模蛋白预测 特殊的超二级结构预测(coiled-coils)二级结构预测 溶剂可接近性预测 三维结构预测 比较建模 折叠识别 从头预测结构预测的原理物理假设:蛋白质天然结构自由能最低自由能最低的结构-天然结构进化:同源蛋白有相似的结构物理原理和进化原理结合:目前可回答的问题 比较建模:以高同源性蛋白的空间结构为模板,可以建立高分辨的三维结构模型-分子设计 可以利用结构信息建立更准确的序列比对 可以利用结构信息找出仅根据序列难以发现的相似性膜的物理化学特性:表面:极性、带电内部:疏水氨基酸侧链的疏水指数(Kyte and Doolittle hydropho
2、bicity scale)Ala1.8Arg-4.5Asn-3.5Asp-3.5Cys2.5Gln-3.5Glu-3.5Gly-0.4His-3.4Ile-4.5Leu3.8Lys-3.9Met1.9Phe2.8Pro-1.6Ser-0.8Thr-0.7Trp-0.9Try-1.3Val4.2跨膜蛋白的拓扑结构:positive-inside 规则跨膜蛋白跨膜区、拓扑结构预测 疏水指数(Kyte and Doolittle)疏水矩(两亲性)(Eisenberg)内正规则 利用多序列比对信息方法与程序:PHDhtm(利用神经网络和多序列比对)DAS:Consensus profile use a
3、lignment of known TM proteinsHMMTOP,TMHMM跨膜螺旋:侧链的水-脂性溶剂的转移自由能必须有利长度:19个残基左右程序/服务器 HMMTOP http:/www.enzim.hu/hmmtop(无法连接)TopPred http:/bioweb.pasteur.fr/seqanal/interfaces/toppred.htmlCoiled-coils COILS http:/www.ch.embnet.org/software/COILS_form.htmlOther programs:paircoil multicoil程序二级结构预测 为什么进行二级结
4、构预测 结构单元划分 功能位点预测 比较建模与折叠识别二级结构预测的基本原理 不同氨基酸残基在不同二级结构中出现的倾向性不同。由于二级结构上氨基酸的环境可能周期性变化,使不同类型氨基酸排列呈现一定周期性。二级结构的起始/终止位置有常见模式。进化过程中的上述规律的保守性。Protein secondary structure predictionChou-Fasman method三态:alpha-helix,beta-strands,turns:1.氨基酸残基的二级结构倾向性 probability of a in secondary structure s probability of an
5、y residue in structure s 2.for alpha and beta,find short“core”based on propensity extend the prediction until the prediction for 4 residues drop below 1.3.Turns are predicted as tetrapeptide,GOR methodUse score matrices 17residuesC20 amino-acid types)(/)|(log);(SPaSPaSIS:structure;a:amino acids);()(
6、1)();(1);()(/)(1log);(1/);(log);();();(aSIeSPSPaSPaSPSPSPaSPaSPaSnotIaSIaSIThe program combines several explicit parameters in order to get a meaningfull prediction.It runs the GOR3 algorithm(Gibrat et al.,(1987),based on information theory applied to local interactions)on every sequences,to provide
7、s mean potentials for the three states.In addition,DSC uses the presence of insertions/deletions,the distance from the end of the chain,the moment of conservation and the moment of hydrophobicity(the two last parameters given an a-helical structure and a b-strand structure).A linear combination of t
8、hese different attributes gives an output which is subsequently filtered.DSCNeural net work methodinput layerhidden layerhidden layers are used to identifypossible higher order correlationsbetween positions in input layersNearest neighbor MethodsLibrary of fragments of sequences with known secondary
9、 structuresQuery match the fragments,prediction based on most similar fragments二级结构预测 应用多序列信息,正确率可以达到80%以上 但是不同蛋白的预测正确率差别很大 很多方法不但给出定性预测结果,还给出能在一定程度上反映结果可靠性的记分值。将分值对氨基酸位置作图常常能够使你对预测结果进行更为客观的判断。采用多种方法,选择一致预测 人工观察Mannual InterventionConsensus picture of predictionshttp:/www.predictprotein.org/Predict
10、proteinType MethodsPrediction server PredictProtein Databases searched for homologues SWISS-PROT TrEMBL PDB BIG(SWISS+TrEMBL+PDB)Alignment and database searching methods MaxHom BLASTP PSIblast Sequence motif searching methods ProSite ProDom SEG PredictNLS Prediction of protein structure PHD PHDsec P
11、HDacc PHDhtm PROF PROFsec PROFacc GLOBE TOPITS COILS DISULFIND ASP Tools used for PP MView Tools available with PP output ESPript 比较建模已知蛋白的三分之一以上有已知结构的同源蛋白结构基因组:测定所有有代表性的模板结构(10%的蛋白)比较建模的基本步骤1.模板辨识2.模板与目标序列的比对3.建立并修正目标序列的三维结构模型4.模型评估每一步的难度和对结果精度的影响在很大程度上取决于目标序列与模板的同源程度、loop区的比例、插入缺失情况等sequences of k
12、nown structuressequences of known proteinstarget sequence模板识别(容易:BLAST搜索 困难:见折叠识别部分)known structures(1)通过序列比对的数据库检索(blasp、fasta)sequences of known structuressequences of known proteinstarget sequenceidentify templatesknown structures(2)database search based on multiple sequence alignment:PSI-blastse
13、quences of known structuressequences of known proteinstarget sequenceidentify templatesknown structures(2)通过序列profile搜索(psiblast)profileprofileThreading 方法已知结构threading目标序列基于结构特征的残基替换矩阵 已知结构比对(e.g.Dali、CE)按位点的结构特征进行分类(如二级结构、包埋于暴露程度)对不同类型的位点构建残基替换矩阵 Example:FUQUE另一类方法:用二级结构预测程序如PHD对目标序列的二级结构、溶剂暴露程度等进
14、行预测。根据预测结果进行比对。既用于折叠识别,也用于比较建模。模板识别可靠性依赖于模板与目标序列同源程度即使是低精度的模型也可能对实验有所帮助可以通过对多个可能模板建模等建立多个可能模型。在模型评估或实验检验中选择出正确模型。模板与序列的比对高同源序列(40%identity):相对统一低同源性:(30%identity):误差较大 (序列比对的结果与结构比对结果不一致)是目前比较建模中误差较大的一步。目前最好的方法:利用结构信息的比对方法 这在一些自动的比较建模程序中(如modeller)已经得以实现。建立初始模型刚性片段组装坐标重构约束修正比较建模的误差/错误来源Wrong templat
15、eWrongly aligned regionsRegions cannot be aligneddistortions of correctly aligned regionsErrors in side-chain packing精度依赖于目标与模板的同源程度40%:90%main chain atoms 1angstrom RMSD30%40%:80%main chain atoms,1.5 angstrom RMSD3 A RMSD 模型评估PROCHECK:可以检查稽核构型、空间堆积等有无明显错误。检查二面角分布是否在容许区域。多个模型:可以尝试用经验的能量函数进行区分。折叠类型识别
16、给予序列profile比对的方法 建立目标序列与同源序列的多序列比对及序列profile 建立模板序列与同源序列的多序列比对及序列profile 通过比较profile识别目标序列的蛇叠类型基于能量函数的方法基本假设:蛋白质的天然结构对应于自由能最低的折叠状态 通过threading找出将目标序列“映射”到模板的最低自由能的映射方式 比较threading到不同模板的能量,找出能量最低的模板 计算量较大目前绝大多数程序均采用杂合的方法。问题:给定蛋白质序列(目标序列)蛋白质空间结构模板(模板库)目标序列折叠成与模板库中哪个蛋白类似的结构?3D-shotgunhttp:/bioinfo.pl/m
17、eta/http:/bioinfo.pl/meta/livebench.plLivebench:对网上服务器的动态评测结果Meta server:根据其他服务器返回的最优预测结果选择/组合三维预测。从头预测?Rosetta 基于能量函数、片段组装、Monte Carlo优化。对少数小的蛋白结构域(小于100个残基)从头预测方法得到的较好结果。但同样的方法只对约1/5的测试集合得到了正确结果。小结 二级结构等结构信息的预测 目前最好的方法均以多序列比对为基础。正确率依赖于蛋白质 PredictProtein结构预测 比较建模 折叠识别 从头预测能够实际应用的折叠识别、比较建模比较建模的步骤、折叠识别的基本原理软件:modeller fuque 3D-shotgun metaserver,livebench