1、第9讲 蛋白质结构分析和预测生物信息学DNA sequenceProtein sequenceProtein structureProtein function蛋白质序列分析蛋白质序列分析蛋白质一级序列蛋白质一级序列蛋白质基本理化性质分析蛋白质基本理化性质分析蛋白质亲疏水性分析蛋白质亲疏水性分析跨膜区结构预测跨膜区结构预测卷曲螺旋预测卷曲螺旋预测翻译后修饰位点预测翻译后修饰位点预测蛋白质二级结构蛋白质二级结构蛋白质二级结构预测蛋白质二级结构预测蛋白质序列信号位点分析蛋白质序列信号位点分析蛋白质超二级结构蛋白质超二级结构蛋白质结构域分析蛋白质结构域分析蛋白质三级结构蛋白质三级结构蛋白质三维结构模
2、拟蛋白质三维结构模拟蛋白质分类蛋白质分类蛋白质家族分析蛋白质家族分析蛋白质序列分析主要内容蛋白质序列分析主要内容ExPASy(Expert Protein Analysis System)Tools(http:/expasy.org/tools/)蛋白质理化性质是蛋白质研究的基础蛋白质理化性质是蛋白质研究的基础 蛋白质的基本性质:蛋白质的基本性质:相对分子质量相对分子质量 氨基酸组成氨基酸组成等电点(等电点(PIPI)消光系数消光系数半衰期半衰期 不稳定系数不稳定系数总平均亲水性总平均亲水性 实验方法:实验方法:相对分子质量的测定、等电点实验、沉降实验相对分子质量的测定、等电点实验、沉降实验
3、缺点:费时、耗资缺点:费时、耗资基于实验经验值的计算机分析方法基于实验经验值的计算机分析方法1.1.蛋白质基本理化性质分析蛋白质基本理化性质分析 基于一级序列的组分分析基于一级序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考氨基酸亲疏水性等分析为高级结构预测提供参考 Expasy 开发的针对蛋白质基本理化性质的分析:开发的针对蛋白质基本理化性质的分析:Protparam 工具工具 http:/www.expasy.org/tools/protparam.html相对分子质量相对分子质量 氨基酸组成氨基酸组成等电点(等电点(PI)消光系数消光系数半衰期半衰期 不稳定系数不稳定系数总平均亲
4、水性总平均亲水性 工具网站备注AACompldenthttp:/expasy.org/tools/aacomp/利用未知蛋白质的氨基酸组成确认具有相同组成的已知蛋白Compute pI/Mwhttp:/expasy.org/tools/pi_tool.html计算蛋白质序列的等电点和分子量ProtParamhttp:/expasy.org/tools/protparam.html对氨基酸序列多个物理和化学参数(分子量、等电点、吸光系数等)进行计算PeptideMasshttp:/expasy.org/tools/peptide-mass.html计算相应肽段的pI和分子量SAPSh t t p
5、:/w w w.i s r e c.i s b-sib.ch/software/SAPS_form.html利用蛋白质序列统计分析方法给出待测蛋白的物理化学信息蛋白质理化性质分析工具蛋白质理化性质分析工具AACompIdent PeptideMass蛋白质理化性质分析蛋白质理化性质分析 Protparam 工具 http:/www.expasy.org/tools/protparam.html计算以下物理化学性质:计算以下物理化学性质:相对分子质量 理论 pI 值 氨基酸组成 原子组成 消光系数 半衰期 不稳定系数 脂肪系数 总平均亲水性主要选项主要选项/参数参数序列在线提交形式:如果分析SW
6、ISS-PORT和TrEMBL数据库中序列 直接填写Swiss-Prot/TrEMBL AC号(accession number)如果分析新序列:直接在搜索框中粘贴氨基酸序列输入输入Swiss-Prot/TrEMBL AC号号打开打开protein.txt,将蛋白质序列将蛋白质序列粘贴在搜索框中粘贴在搜索框中 输入Swiss-Prot/TrEMBL AC号分不同的功能域肽段输出结果输出结果 功能域功能域用户自定义区段用户自定义区段点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果点击不同功能域或是以直接粘贴氨基酸序列的方式得到以下结果氨基酸数目氨基酸数目相对分子质量相对分子质量理论理论
7、pI 值值氨基酸组成氨基酸组成正正/负电荷残基数负电荷残基数14消光系数消光系数半衰期半衰期原子组成原子组成分子式分子式总原子数总原子数不稳定系数不稳定系数脂肪系数脂肪系数总平均亲水性总平均亲水性40 unstable(a)-Type I membrane protein(b)-Type II membrane protein(c)-Multipass transmembrane proteins(d)-Lipid chain-anchored membrane proteins(e)-GPI-anchored membrane proteins蛋白质亲疏水性蛋白质亲疏水性/跨膜区分析跨膜区分
8、析17蛋白质亲疏水性分析蛋白质亲疏水性分析 疏水作用是蛋白质折叠的主要驱动力 分析蛋白质氨基酸亲疏水性是了解蛋白质折叠的第一步 氨基酸疏水分析为蛋白质二级结构预测提供佐证 可用于分析蛋白质相互作用位点-抗原位点预测(预测准确率达56%)是分析蛋白质跨膜区重要一步 螺旋跨膜区主要是由螺旋跨膜区主要是由20-30个疏水性氨基酸个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成等)组成 亲水残基往往出现在疏水残基之间,对功能有亲水残基往往出现在疏水残基之间,对功能有重要的作用重要的作用 基于亲基于亲/疏水量和蛋白质膜区每个氨基酸的统疏水量和蛋白质膜区每个氨基酸的统计学分布偏好性量
9、计学分布偏好性量 TMpred-http:/www.ch.embnet.org/software/TMPRED_form.html SOSUI-http:/bp.nuap.nagoya-u.ac.jp/sosui/蛋白质跨膜区分析蛋白质跨膜区分析常用蛋白质跨膜区域分析工具常用蛋白质跨膜区域分析工具工具工具网站网站备注备注DAShttp:/www.sbc.su.se/miklos/DAS/用用 D e n s e A l i g n m e n t Surface(DAS)算法来预)算法来预测无同源家族的蛋白跨膜区测无同源家族的蛋白跨膜区HMMTOPhttp:/www.enzim.hu/hmmt
10、op/由由Enzymology研究所开发研究所开发的蛋白质跨膜区和拓扑结构的蛋白质跨膜区和拓扑结构预测程序预测程序SOSUIhttp:/bp.nuap.nagoya-u.ac.jp/sosui/由由Nagoya大学开发一个具大学开发一个具有图形显示跨膜区的程序有图形显示跨膜区的程序TMAPhttp:/bioinfo.limbo.ifm.liu.se/tmap/基于多序列比对来预测跨膜基于多序列比对来预测跨膜区的程序区的程序TMHMMhttp:/www.cbs.dtu.dk/services/TMHMM-2.0基于基于HMM方法的蛋白质跨方法的蛋白质跨膜区预测工具膜区预测工具TMpredhttp
11、:/www.ch.embnet.org/software/TMPRED_form.html基于对基于对TMbase数据库的统数据库的统计分析来预测蛋白质跨膜区计分析来预测蛋白质跨膜区和跨膜方向和跨膜方向TopPredhttp:/bioweb.pasteur.fr/seqanal/interfaces/toppred.html是一个位于法国的蛋白质拓是一个位于法国的蛋白质拓扑结构预测程序扑结构预测程序TMHMM ProtScale工具工具 http:/ca.expasy.org/tools/protscale.html 氨基酸标度氨基酸标度 表示氨基酸在某种实验状态下相对其他氨基酸在某些性表示氨
12、基酸在某种实验状态下相对其他氨基酸在某些性质的差异,如疏水性、亲水性等质的差异,如疏水性、亲水性等 收集收集56多个文献中提供的氨基酸标度多个文献中提供的氨基酸标度 默认值以默认值以Hphob.Kyte&Doolittle做疏水性分析做疏水性分析 特异性氨基酸标度,如特异性氨基酸标度,如Hopp&Woods(1981)针对抗原片)针对抗原片段定位;段定位;Accessible residues(1979)针对氨基酸溶剂可及)针对氨基酸溶剂可及性定位;性定位;Chou&Fasman(1978)针对氨基酸二级结构疏)针对氨基酸二级结构疏水性分析水性分析蛋白质亲疏水性分析蛋白质亲疏水性分析主要选项主
13、要选项/参数参数序列在线提交形式:序列在线提交形式:如果分析如果分析SWISS-PORT和和TrEMBL数据库中序列数据库中序列 直接填写直接填写Swiss-Prot/TrEMBL AC号号(accession number)如果分析新序列:如果分析新序列:直接在搜索框中粘贴氨基酸序列直接在搜索框中粘贴氨基酸序列输入输入Swiss-Prot/TrEMBL AC号号打开打开protein.txt,将一条蛋白质序列将一条蛋白质序列粘贴在搜索框中粘贴在搜索框中计算窗口(计算窗口(7-11)相对权重值相对权重值 权重值变化趋势权重值变化趋势 氨基酸标度氨基酸标度是否归一化是否归一化输出结果输出结果 输
14、入Swiss-Prot/TrEMBL AC号分不同的功能域肽段功能域功能域用户自定义区段用户自定义区段所用氨基酸所用氨基酸标度信息标度信息分析所用参分析所用参数信息数信息输出结果输出结果图形结果图形结果 文本结果文本结果 序列序列 参数参数 每个位置每个位置 的得分的得分跨膜区分析跨膜区分析 TMpred工具工具:http:/www.ch.embnet.org/software/TMPRED_form.html 预测跨膜区和跨膜方向 依靠跨膜蛋白数据库Tmbase主要参数主要参数/选项选项 序列在线提交形式:直接贴入蛋白序列 填写SwissProt/TrEMBL/EMBL/EST的ID或AC输
15、出格式输出格式最短和最长的跨膜螺旋疏水区长度最短和最长的跨膜螺旋疏水区长度输入序列名(可选)输入序列名(可选)选择序列的格式选择序列的格式贴入贴入protein.txt蛋白蛋白质序列质序列输出结果输出结果 包含四个部分 可能的跨膜螺旋区 相关性列表可能的跨膜螺旋区可能的跨膜螺旋区相关性列表相关性列表位置位置分值分值 片段中点位置片段中点位置 跨膜拓扑模型及图示建议的跨膜拓扑模型建议的跨膜拓扑模型每一位置计算分值每一位置计算分值最优拓最优拓扑结构扑结构 SOSUI工具工具:-http:/bp.nuap.nagoya-u.ac.jp/sosui/以图形方式返回结果,需要Java Applet程序输
16、入氨基酸单字母输入氨基酸单字母运行运行平均疏水值平均疏水值预测的跨模螺旋区域预测的跨模螺旋区域两种跨膜两种跨膜Helix预测区域的螺旋示意图预测区域的螺旋示意图平均疏水值平均疏水值预测的跨模螺旋区域预测的跨模螺旋区域两种跨膜两种跨膜Helix33亲疏水轮廓亲疏水轮廓跨膜蛋白序列跨膜蛋白序列“边界边界”原则原则 -Landolt Marticorena et al.,1993 胞外末端Asp、Ser和Pro 胞外-内分界区域Trp 跨膜区Leu、Ile、Val、Met、Phe、Trp、Cys、Ala、Pro和Gly 胞内-外分界区域Tyr、Trp和Phe 胞内末端Lys和Arg 两股或两股以上螺
17、旋相互缠绕而形成超螺旋结构 存在于多种天然蛋白质中,如转录因子、结构蛋白、膜蛋白中,在生物体内执行着代谢调控、分子运动、膜通道、分子识别等重要的生物功能,37蛋白质卷曲螺旋域分析蛋白质卷曲螺旋域分析 典型的有亮氨酸拉链,存在7残基 重复结构(heptad repeat),以a,b,c,d,e,f,g位置表示,其中a和d位置为疏水性氨基酸,而其他位置 残 基为亲水性 COILS-http:/www.ch.embnet.org/software/COILS_form.html PEPCOIL-http:/bioweb.pasteur.fr/seqanal/interfaces/pepcoil.ht
18、ml蛋白质卷曲螺旋域分析蛋白质卷曲螺旋域分析工具工具网站网站备注备注Coils http:/www.ch.embnet.org/software/COILS_form.html主流的预测螺旋卷曲工具主流的预测螺旋卷曲工具Paircoil2http:/groups.csail.mit.edu/cb/paircoil2/paircoil2.html由由MIT大学开发的基于残大学开发的基于残基配对概率算法的预测工基配对概率算法的预测工具具PEPCOILhttp:/bioweb.pasteur.fr/seqanal/interfaces/pepcoil.html由由EMBOSS维护的预测卷维护的预测卷
19、曲螺旋程序,同曲螺旋程序,同Coils类似类似S O C K E T serverhttp:/www.lifesci.sussex.ac.uk/research/woolfson/html/coiledcoils/socket/server.html一个分析蛋白质结构中卷一个分析蛋白质结构中卷曲螺旋的工具,其输入数曲螺旋的工具,其输入数据格式为蛋白质结构数据据格式为蛋白质结构数据TRESPASSER http:/comp.chem.nottingham.ac.uk/cgi-bin/trespasser/trespasser.cgi由由Nottingham大学开发的大学开发的亮氨酸拉链结构识别工
20、具亮氨酸拉链结构识别工具2ZIPhttp:/2zip.molgen.mpg.de/index.html预测蛋白质序列中潜在的预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺亮氨酸拉链结构和卷曲螺旋旋 蛋白质卷曲螺旋预测工具蛋白质卷曲螺旋预测工具 COILS-http:/www.ch.embnet.org/software/COILS_form.htmlCOILS蛋白质卷曲螺旋预测方法基于蛋白质卷曲螺旋预测方法基于Lupas算法,是目前主流的算法,是目前主流的卷曲区域预测算法卷曲区域预测算法一般滑动窗口的大小采用一般滑动窗口的大小采用7的倍数的倍数蛋白质卷曲螺旋分析蛋白质卷曲螺旋分析选择滑动窗口大小
21、选择滑动窗口大小选择打分矩阵选择打分矩阵和权重和权重选择输入格式,选择选择输入格式,选择“SwissProtID or AC”查 询 内 容,输 入查 询 内 容,输 入“GO45_HUMAN”图形结果图形结果2.蛋白质二级结构预测1.Chou-Fasman predictions:Empirical2.Garnier,Osguthorpe and Robson(GOR):HMM3.David T.Jones:PSSM4.Frishman,Argos:Nearest neighbor methods 5.Sujun Hua:Support vector machine Chou-Fasman1
22、.预测三种主要的二级结构:预测三种主要的二级结构:-helix,b-sheet,Coils2.训练数据:训练数据:15个已知构象的蛋白质结构,共个已知构象的蛋白质结构,共2473个氨基酸残基个氨基酸残基3.定义:蛋白质构象参数定义:蛋白质构象参数(protein conformational parameters):氨基酸残基在二级结构中的重要性氨基酸残基在二级结构中的重要性 P,P,Pc氨基酸在各种二级结构中的频率Inner Helix:Included in HelixP,P,Pc的计算P=fifj20P&P-helixb b-sheet经验规则与预测性能1.规则一:对于给定一个规则一:对
23、于给定一个6aa的片段,的片段,P均值均值 1.03,并且,并且P的的均值均值 P的均值,则判定为的均值,则判定为-Helix2.规则二:对于给定一个规则二:对于给定一个6aa的片段,的片段,P的均值的均值 1.05,并且,并且 P的均值的均值 P的均值,则判定为的均值,则判定为-sheet3.预测性能:准确性预测性能:准确性50-60%;对于;对于-sheet性能较差性能较差准确性准确性65%65%Garnier,Osguthorpe and Robson(GOR):HMMDavid T.Jones:PSSMPSIPRED:PSSM+Neural Network准确性准确性76.5%78.3
24、%Frishman,Argos:Nearest neighbor methods准确性准确性72%Sujun Hua:Support vector machine准确性准确性76.2%3.蛋白质三级结构预测(1)结构基因组学结构基因组学(2)蛋白质折叠的动力学蛋白质折叠的动力学(3)蛋白质三级结构的预测:蛋白质三级结构的预测:具有最小自由能的构象具有最小自由能的构象 A.Homology modeling B.Threading C.Ab inito Prediction结构基因组学 1.人的基因组中包含人的基因组中包含22,00个基因个基因2.细胞内:通常细胞内:通常3,000种蛋白质种蛋白
25、质3.序列与结构序列与结构 2 million sequences in UniProt 33,000 protein structures in the PDB4.目标:通过实验或者计算的手段解析所有蛋白质在自然条目标:通过实验或者计算的手段解析所有蛋白质在自然条件下的三级结构件下的三级结构55蛋白质折叠的动力学1.蛋白质的折叠:蛋白质的折叠:细胞内:自发的;酶的介导;伴侣蛋白的介导细胞内:自发的;酶的介导;伴侣蛋白的介导 体外:许多蛋白质不能自发折叠体外:许多蛋白质不能自发折叠2.动态:蛋白质的结构在自然条件下并不是固定的动态:蛋白质的结构在自然条件下并不是固定的 蛋白质的功能常常依赖其构
26、象的改变蛋白质的功能常常依赖其构象的改变3.自然条件下与变性之后的能量差非常小自然条件下与变性之后的能量差非常小(5-15 kcal/mol)大约等于大约等于1-2个氢键的能量个氢键的能量4.折叠过程中,熵与焓都发生改变折叠过程中,熵与焓都发生改变56Protein Folding Code 1.蛋白质结构预测蛋白质结构预测/“蛋白质折叠蛋白质折叠”给定一个蛋白质的氨基酸序列,预测其三给定一个蛋白质的氨基酸序列,预测其三级结构级结构 2.“反向折叠反向折叠 给定一个蛋白质的结构,找出所有符合这给定一个蛋白质的结构,找出所有符合这个结构的氨基酸序列个结构的氨基酸序列Homology Modeli
27、ngp 1.搜索已知三级结构的同源蛋白质序列搜索已知三级结构的同源蛋白质序列(模板模板)PSI-BLAST multiple sequence alignment(MSA)p 2.选取与给定序列相似性最高的结构作为模板选取与给定序列相似性最高的结构作为模板p 3.将氨基酸残基替换到结构模板中对应的位置上,将氨基酸残基替换到结构模板中对应的位置上,降低自由能降低自由能p 4.准确性好准确性好 序列相似性高序列相似性高 模型可靠性高模型可靠性高 30%sequence identity5.常用工具:常用工具:MODELLER,Swiss-model 58Homology Modeling:Work
28、 WellThreading-Fold Recognition1.“搭积木搭积木”2.实验发现:实验发现:蛋白质折叠的类型有限蛋白质折叠的类型有限(1,000)3.问题:问题:能否根据不同的模版,预测给定蛋白质的折叠类型,并进一步拼装成三级结构?能否根据不同的模版,预测给定蛋白质的折叠类型,并进一步拼装成三级结构?4.计算要求:计算要求:能量函数能量函数 模版库模版库(template library)5.计算方法计算方法 将给定序列与每一个模板的序列匹配,打分将给定序列与每一个模板的序列匹配,打分 将模板连接起来,氨基酸残基替代将模板连接起来,氨基酸残基替代 优化模型:能量函数优化模型:能量
29、函数6.计算性能:不定计算性能:不定 序列相似性高序列相似性高 模型可靠性高模型可靠性高60Threading1.将给定序列与模板库做序列比较将给定序列与模板库做序列比较(fold library)2.评分准则:给定序列是否与模板的结构吻合评分准则:给定序列是否与模板的结构吻合(1D-3D profile)3.根据打分结果对模板适用性给予排序根据打分结果对模板适用性给予排序 Target SequenceStructure Templates ALKKGFHFDTSEAb Initio Prediction1.能量函数能量函数 键能键能(bond energy)键的转角能键的转角能(bond
30、angle energy)二面角能二面角能(dihedral angle energy)范德华力范德华力(van der Waals energy)静电力静电力(electrostatic energy)2.根据能量函数计算结构的最小自由能:根据能量函数计算结构的最小自由能:Molecular Dynamics or Monte Carlo methods)3.计算量大计算量大ROSETTA1.David Baker,U.Washington,Seattle2.“小积木小积木”:短的肽段:短的肽段(3-9 residues)库能够充分反映库能够充分反映各种肽段在局部范围内的三级结构各种肽段在局部范围内的三级结构3.肽段库的构建:肽段库的构建:PDB4.针对给定蛋白质,寻找各种肽段组合,并以能量函数针对给定蛋白质,寻找各种肽段组合,并以能量函数予以优化予以优化思考题1、根据理化性质,蛋白质序列分析包括哪些内容?、根据理化性质,蛋白质序列分析包括哪些内容?2、蛋白质二级预测的依据是什么?目前能达到的准备率是、蛋白质二级预测的依据是什么?目前能达到的准备率是多少?多少?3、蛋白质三级结构预测方法有哪些?、蛋白质三级结构预测方法有哪些?4、同源模建的基本原理是什么?、同源模建的基本原理是什么?5、说说蛋白质结构预测的意义。、说说蛋白质结构预测的意义。