1、蛋白质结构与功能预测1蛋白质结构与功能预测蛋白质结构与功能预测蛋白质结构与功能预测2实习一实习一基因组数据注释和功能分析基因组数据注释和功能分析实习二实习二核苷酸序列分析核苷酸序列分析实习三实习三芯片的基本数据处理和分析芯片的基本数据处理和分析实习四实习四蛋白质结构与功能分析蛋白质结构与功能分析实习五实习五蛋白质组学数据分析蛋白质组学数据分析实习六实习六系统生物学软件实习系统生物学软件实习实习课程内容实习课程内容基因组学基因组学转录物组学转录物组学蛋白质组学蛋白质组学系统生物学系统生物学蛋白质结构与功能预测3DNA sequenceProtein sequenceProtein structu
2、reProtein function蛋白质结构与功能预测4蛋白质序列分析蛋白质序列分析蛋白质一级序列蛋白质一级序列蛋白质基本理化性质分析蛋白质基本理化性质分析蛋白质亲疏水性分析蛋白质亲疏水性分析跨膜区结构预测跨膜区结构预测翻译后修饰位点预测翻译后修饰位点预测蛋白质二级结构蛋白质二级结构蛋白质二级结构预测蛋白质二级结构预测蛋白质序列信号位点分析蛋白质序列信号位点分析蛋白质超二级结构蛋白质超二级结构蛋白质结构域分析蛋白质结构域分析蛋白质三级结构蛋白质三级结构蛋白质三维结构模拟蛋白质三维结构模拟蛋白质序列分析主要内容蛋白质序列分析主要内容蛋白质结构与功能预测5蛋白质结构预测过程ORF翻译实验数据蛋白
3、质序列蛋白质理化性质和一级结构数据库搜索结构域匹配已知结构的同源蛋白?三维结构模型可用的折叠模型?同源建模有二级结构预测无串线法有从头预测无蛋白质结构与功能预测6ExPASy(Expert Protein Analysis System)Tools()()蛋白质结构与功能预测7 一、蛋白质理化性质分析 使用工具:Protparam 二、跨膜区分析 使用工具:Tmpred 三、二级结构分析 使用工具:PredictProtein Server 四、结构域分析 使用工具:InterProScan 五、蛋白质三级结构分析 使用工具:SWISS-MODEL/SWISS-PdbViewer数据: C:Z
4、CNIshixi4protein.txt 课程安排课程安排蛋白质结构与功能预测8一、蛋白质基本理化性质分析一、蛋白质基本理化性质分析 蛋白质理化性质是蛋白质研究的基础蛋白质的基本性质:相对分子质量 氨基酸组成等电点(PI) 消光系数半衰期 不稳定系数总平均亲水性 实验方法: 相对分子质量的测定、等电点实验、沉降实验 缺点:费时、耗资基于实验经验值的计算机分析方法蛋白质结构与功能预测9工具工具网站网站备注备注AACompldent利用未知蛋白质的氨基酸组成确认具有相同组成的已知蛋白Compute pI/Mw计算蛋白质序列的等电点和分子量ProtParam对氨基酸序列多个物理和化学参数(分子量、等
5、电点、吸光系数等)进行计算PeptideMass计算相应肽段的pI和分子量SAPS利用蛋白质序列统计分析方法给出待测蛋白的物理化学信息蛋白质理化性质分析工具蛋白质理化性质分析工具蛋白质结构与功能预测10AACompIdent PeptideMass蛋白质结构与功能预测11ProtparamProtparam基于蛋白质序列的组分分析氨基酸亲疏水性等分析为高级结构预测提供参考 Expasy 开发的针对蛋白质基本理化性质的分析: Protparam 工具 http:/计算以下物理化学性质:计算以下物理化学性质:相对分子质量 氨基酸组成等电点(PI) 消光系数半衰期 不稳定系数总平均亲水性 蛋白质结构
6、与功能预测12主要选项主要选项/ /参数参数 如果分析SWISS-PORT和TrEMBL数据库中序列 直接填写Swiss-Prot/TrEMBL AC号(accession number) 如果分析新序列: 直接在搜索框中粘贴氨基酸序列输入输入Swiss-Prot/TrEMBL AC号号打开打开protein.txt,将蛋白质序列将蛋白质序列粘贴在搜索框中粘贴在搜索框中蛋白质结构与功能预测13 输入Swiss-Prot/TrEMBL AC号分不同的功能域肽段输出结果输出结果 功能域功能域用户自定义区段用户自定义区段蛋白质结构与功能预测14返回结果返回结果氨基酸数目氨基酸数目相对分子质量相对分子
7、质量理论理论 pI 值值氨基酸组成氨基酸组成正正/负电荷残基数负电荷残基数蛋白质结构与功能预测15消光系数消光系数半衰期半衰期原子组成原子组成分子式分子式总原子数总原子数蛋白质结构与功能预测16不稳定系数不稳定系数脂肪系数脂肪系数总平均亲水性总平均亲水性40 unstable蛋白质结构与功能预测17练习一:练习一:ProtparamProtparam数据:C:ZCNIshixi4protein.txt蛋白质结构与功能预测18(a)-Type I membrane protein(b)-Type II membrane protein(c)-Multipass transmembrane pro
8、teins(d)-Lipid chain-anchored membrane proteins(e)-GPI-anchored membrane proteins二、蛋白质跨膜区分析二、蛋白质跨膜区分析蛋白质结构与功能预测19 螺旋跨膜区主要是由20-30个疏水性氨基酸(Leu、Ile、Val、Met、Gly、Ala等)组成 亲水残基往往出现在疏水残基之间,对功能有重要的作用 基于亲/疏水量和蛋白质膜区每个氨基酸的统计学分布偏好性量蛋白质跨膜区特性蛋白质跨膜区特性蛋白质结构与功能预测20跨膜蛋白序列跨膜蛋白序列“边界边界”原则原则 -Landolt Marticorena et al., 19
9、93 胞外末端Asp(天冬氨酸)、Ser(丝氨酸)和Pro(脯氨酸) 胞外-内分界区域Trp(色氨酸) 跨膜区Leu(亮氨酸)、Ile(异亮氨酸)、Val(缬氨酸)、Met(甲硫氨酸)、Phe(苯丙氨酸)、Trp(色氨酸)、Cys(半胱氨酸)、Ala(丙氨酸)、Pro(脯氨酸)和Gly(甘氨酸) 胞内-外分界区域Tyr(络氨酸)、Trp(色氨酸)和Phe(苯丙氨酸) 胞内末端Lys(赖氨酸)和Arg(精氨酸)蛋白质结构与功能预测21常用蛋白质跨膜区域分析工具常用蛋白质跨膜区域分析工具工具工具网站网站备注备注DAS用Dense Alignment Surface(DAS)算法来预测无同源家族的蛋
10、白跨膜区HMMTOP由Enzymology研究所开发的蛋白质跨膜区和拓扑结构预测程序SOSUI由Nagoya大学开发一个具有图形显示跨膜区的程序TMAP基于多序列比对来预测跨膜区的程序TMHMM基于HMM方法的蛋白质跨膜区预测工具TMpred基于对TMbase数据库的统计分析来预测蛋白质跨膜区和跨膜方向TopPred是一个位于法国的蛋白质拓扑结构预测程序蛋白质结构与功能预测22TMpredTMpred TMpredTMpred工具工具: 依靠跨膜蛋白数据库Tmbase 预测跨膜区和跨膜方向蛋白质结构与功能预测23主要参数主要参数/ /选项选项 序列在线提交形式: 直接贴入蛋白序列 填写Swis
11、sProt/TrEMBL/EMBL/EST的ID或AC输出格式输出格式最短和最长的跨膜螺旋疏水区长度最短和最长的跨膜螺旋疏水区长度输入序列名(可选)输入序列名(可选)选择序列的格式选择序列的格式贴入贴入protein.txt蛋白蛋白质序列质序列蛋白质结构与功能预测24输出结果输出结果 包含四个部分 可能的跨膜螺旋区 相关性列表可能的跨膜螺旋区可能的跨膜螺旋区相关性列表相关性列表位置位置分值分值 片段中点位置片段中点位置蛋白质结构与功能预测25 跨膜拓扑模型及图示跨膜拓扑模型及图示建议的跨膜拓扑模型建议的跨膜拓扑模型每一位置计算分值每一位置计算分值最优拓最优拓扑结构扑结构蛋白质结构与功能预测26
12、TMHMM蛋白质结构与功能预测27蛋白质结构与功能预测28练习二:练习二:TMpredTMpred数据:C:ZCNIshixi4protein.txt蛋白质结构与功能预测29三、蛋白质二级结构预测三、蛋白质二级结构预测 基本的二级结构 螺旋,折叠, 转角,无规则卷曲(coils)以及模序(motif)等蛋白质局部结构组件 分析方法: 基于统计和机器学习方法进行预测Chou-Fasman算法GOR算法多序列列线预测基于神经网络的序列预测基于已有知识的预测方法(knowledge based method)混合方法(hybrid system method)蛋白质结构与功能预测30工具工具网站网站
13、备注备注BCM SearchLauncher 包括了常见的蛋白质结构分析程序入口,一般分析可以以此服务器作为起点HNN基于神经网络的分析工具,含序列到结构过程和结构到结构处理Jpred基于Jnet神经网络的分析程序,并采用PSI-BLAST来构建序列Profile进行预测,对于序列较短、结构单一的蛋白预测较好nnPredict预测蛋白质序列中潜在的亮氨酸拉链结构和卷曲螺旋NNSSP基于双层前反馈神经网络为算法,还考虑到蛋白质结构分类信息PREDATOR预测时考虑了氨基酸残基间的氢键蛋白质二级结构分析工具蛋白质二级结构分析工具蛋白质结构与功能预测31工具工具网站网站备注备注PredictProt
14、ein提供多项蛋白质性质分析,并有较好准确性Prof基于多重序列比对预测工具PSIpred提供跨膜蛋白拓扑结构预测和蛋白profile折叠结构识别工具SOPMA可以比较各种分析方法得到的结果,也可输出 “一致性结果”SSPRED基于数据库搜索相似蛋白并构建多重序列比对蛋白质二级结构分析工具蛋白质二级结构分析工具蛋白质结构与功能预测32蛋白质结构与功能预测33PredictProteinPredictProtein PredictProteinPredictProtein 可以获得功能预测、二级结构、基序、二硫键结构、结构域等许多蛋白质序列的结构信息 该方法的平均准确率超过72%,最佳残基预测准
15、确率达90%以上。因此,被视为蛋白质二级结构预测的标准蛋白质结构与功能预测34PredictProteinPredictProtein提交界面提交界面可展开可展开选项选项蛋白质结构与功能预测3535PredictProteinPredictProtein提交界面详解提交界面详解提交邮件提交邮件地址(必填)地址(必填)蛋白名称蛋白名称(可选)(可选)分析方法分析方法蛋白质结构与功能预测361D序列预测PROFsec(默认)基于轮廓(profile)的神经网络算法预测蛋白质二级结构PROFacc(默认)基于轮廓(profile)的神经网络算法预测残基溶剂可及性PHDhtm(默认)基于多序列比对预测
16、跨膜区位置和拓扑结构ASP(默认)识别二级结构中构型变化的氨基酸COILS(默认)识别卷曲螺旋PROFtmb识别革兰氏阴性菌膜Beta桶蛋白结构序列基序识别ProSite(默认)搜索序列中保守基序SEG(默认)过滤序列中低复杂区域PredictNLS(默认)基于实验数据预测序列核定位区域二硫键识别DISULFIND(默认)识别序列中二硫键位置折叠子识别AGAPE基于折叠结构识别远源蛋白序列残基接触预测PROFcon预测单链中原子残基接触性结构域预测ProDom(默认)基于序列同源性来预测蛋白质结构域CHOP预测蛋白质结构域结构表面识别ConSeq预测蛋白质表面结构功能关键区域分析方法程序详解分
17、析方法程序详解蛋白质结构与功能预测3737跨膜螺旋预测(跨膜螺旋预测(PHDhtm)高级选项)高级选项Ambivalent序列识别(序列识别(ASP)高级选项)高级选项CHOP结构域分析工具高级选项结构域分析工具高级选项蛋白质结构与功能预测3838比对内容比对内容从从SWISS-PROT数据库返回数据库返回BLAST搜索结果搜索结果MaxHom参数选项参数选项最低序列比最低序列比对一致性对一致性空位间隔罚分空位间隔罚分空位延伸罚分空位延伸罚分比对矩阵比对矩阵最大击中值最大击中值蛋白质结构与功能预测3939选择保存分析结果选择保存分析结果是否返回多序列比对结果是否返回多序列比对结果HTML结果形
18、式结果形式AGAPE结果结果PROF/PHD结果形式结果形式以下拉框中所指定的输入格以下拉框中所指定的输入格式将待测序列粘贴此提交栏式将待测序列粘贴此提交栏蛋白质结构与功能预测40服务器运行程序信息服务器运行程序信息ProSite模体搜索结果模体搜索结果低复杂区域过滤程序低复杂区域过滤程序ProDom结构域搜索结果结构域搜索结果二硫键识别结果二硫键识别结果PHD程序信息程序信息PHD预测结果预测结果PROF预测结果预测结果球状蛋白预测结果球状蛋白预测结果Ambivalent序列识别结果序列识别结果PredictProtein分析结果分析结果蛋白质结构与功能预测41PredictProteinP
19、redictProtein分析结果分析结果PROSITE中的中的ID号号简单描述简单描述Motif模式模式提交序列中出现该提交序列中出现该Motif的位置的位置蛋白质结构与功能预测42PredictProteinPredictProtein分析结果分析结果蛋白质结构与功能预测43PredictProtein分析结果分析结果跨膜区跨膜区非跨膜区非跨膜区LoopHelixSheet蛋白质结构与功能预测44四、结构域分析四、结构域分析 结构域是蛋白序列的功能、结构和进化单元 分析方法 序列比对蛋白质结构与功能预测45基本类型 : 折叠折叠/折叠+折叠蛋白质结构与功能预测46工具工具网站网站备注备注C
20、DD通过比较目标序列和一组位置特异性打分矩阵进行RPS-BLAST来确定目标序列中的保守结构域HAMAP通过专家预测系统产生的微生物家族同源蛋白数据InterPro蛋白质家族、结构域和功能位点的联合资源数据库,整合了多个数据库和工具的结果,并提供相应的链接Pfam每个蛋白家族包含了多序列比对、pro和注释文件ProDom从SWISS-PROT/TrEMBL数据库中的非片段蛋白序列数据构成,每条记录包含一个同源结构域多重比对和家族保守一致性序列SMART由EMBL建立,集成了大部分已知蛋白功能域数据,注释包括了功能类型、三维结构、分类信息模体、结构域数据库模体、结构域数据库蛋白质结构与功能预测4
21、7工具工具网站网站备注备注TIGRFAMs由TIGR实验室维护的蛋白质家族和结构域数据库PRINTS蛋白质模体指纹数据库,提供了FingerPRINTScan、FPScan和GRAPHScan等指纹识别工具DOMO同源蛋白结构域家族数据库,有多个镜像网站BLOCKS收录了通过高度保守蛋白区域比对出的无空位片段eMOTIF由 斯 坦 福 大 学 维 护 。 从BLOCKS+数据库和PRINTS数据库中收集了生物功能高度保守的高特异性蛋白序列模体、结构域数据库模体、结构域数据库蛋白质结构与功能预测48选择需要的分析程序选择需要的分析程序结果返回形式结果返回形式序列提交框序列提交框InterProS
22、canInterProScan-蛋白质结构与功能预测49Picture View其他数据库中的其他数据库中的AC号号保守区示意图保守区示意图ID名名蛋白质结构与功能预测50InterPro蛋白家族信息AC号,家族名称号,家族名称家族蛋白家族蛋白其他数据库中的收录情况其他数据库中的收录情况相关的其他家族相关的其他家族条目类型条目类型蛋白质结构与功能预测51InterPro蛋白家族信息生物体内的信息生物体内的信息说明说明结构链接结构链接数据库链接数据库链接蛋白质结构与功能预测52InterPro蛋白家族信息该家族蛋白在不该家族蛋白在不同种类生物体中同种类生物体中出现情况出现情况其他家族与该其他家族
23、与该家族的重叠情家族的重叠情况况蛋白质结构与功能预测53练习四:练习四:InterProScan数据:C:ZCNIshixi4protein.txt蛋白质结构与功能预测54五、蛋白质三维结构预测五、蛋白质三维结构预测方法方法特点特点工具工具同源建模法( Homology/Comparative modelling )基于序列同源比对,对于序列相似度30的序列模拟比较有效,最常用的方法 SWISS-MODEL, CPHmodels 串线法/折叠识别法 (Threading/Fold recognition)“穿”入已知的各种蛋白质折叠骨架内,适于对蛋白质核心结构进行预测,计算量大THREADER
24、,3D-PSSM从头预测法( Ab initio/De novo methods )基于分子动力学,寻找能量最低的构象,计算量大,只能做小分子预测HMMSTR/ ROSSETA蛋白质结构与功能预测55蛋白质结构预测精度蛋白质结构预测精度蛋白质结构与功能预测56 同源建模法分析步骤: 多序列比对多序列比对 与已有晶体结构的蛋白质序列比对 确定是否有可以使用的模板确定是否有可以使用的模板 序列相似度30% 序列相似度30%,结合功能,蛋白质一级序列、二级结构或结构域信息 构建三维模型 三维模型准确性检验 Whatcheck 程序 Ramachandran plot计算检验 手工调整多序列比对,重新
25、拟和,构建新的模型蛋白质结构与功能预测57蛋白质结构与功能预测58常用数据库常用数据库数据库数据库网站网站备注备注PDB主要的蛋白质三维结构数据库MMDBNCBI维护的蛋白质结构数据库Psdb从PDB和NRL-3D数据库中衍生出的数据库,含二级结构和三维结构信息3DinSight整合了结构、性质(氨基酸组成、热力学参数等)、生物学功能(突变点,相互作用等)的综合数据库,FSSP根据结构比对的蛋白质结构分类数据库SCOP蛋白质结构分类数据库,将已知结构蛋白进行有层次地分类CATH另一个有名的蛋白质结构和结构域主要结构分类库MODBASE用同源比对法生成的模型结构数据库Enzyme Structu
26、re从PDB数据库中整理已知结构的酶蛋白数据库HSSP根据同源性到处的蛋白质结构数据库蛋白质结构与功能预测59模板搜索与比对模板搜索与比对工具工具网站网站备注备注PSI-BLAST位置特异性叠代BLAST,可用来搜索远源家族序列FASTA3位于EBI的序列比对工具SSEARCH采用Smith/Waterman法来进行序列比对ClustalW多序列比对工具,位于EBIT-Coffee用多种方法(如ClustalW、DIalign等)来构建多序列比对Multalin一个老牌的多序列比对工具Dali三维结构比对网络服务器VAST基于向量并列分析算法的三维结构比对工具SAM-T99用HMM法搜索蛋白质
27、远源同源序列蛋白质结构与功能预测60同源建模法同源建模法工具工具网站网站备注备注SWISS-MODEL完整建模程序,采用同源性鉴定来确定模板蛋白,用户也可以自定义模板进行分析CPHmodels基于神经网络的同源建模工具,用户只需提交序列,无高级选项EsyPred3D采用神经网络来提高同源建模准确性的预测工具3Djigsaw根据同源已知结构蛋白来建模的预测工具MODELLER一个广泛使用的同源建模软件,需要用户对脚本有一定的了解蛋白质结构与功能预测61串线法串线法工具工具网站网站备注备注3D-PSSM第一个运用1D-3D序列profile来预测蛋白质折叠结构的网络服务器Fugue以序列结构比对搜
28、索数据库来预测蛋白质折叠HHpred基于HMM-HMM比对搜索多个数据库来预测给定序列的的折叠结构LOOPP学习、观察和输出蛋白质模式和结构工具THREADER一个老牌的线索分析软件,对搜索远源蛋白序列较敏感PROSPECT蛋白质结构预测和评价工具包,能以一种非常简单的方式运行,对于高级用户,也提供了很多的可选项123D+结合了序列概形,二级结构信息和接触势能来将待测蛋白“穿入”一系列结构来预测结构SAM-T02基于HMM方法的蛋白质结构预测GenThreader使用结构评分和基于神经网络序列比对来也测蛋白折叠结构蛋白质结构与功能预测62SWISS-MODEL/SWISS-PdbView SW
29、ISS-MODELSWISS-MODEL工具工具 同源建模方法 与PDB数据库已知结构的蛋白质序列比对进行预测蛋白质结构与功能预测63一步模式一步模式比对模式比对模式优化模式优化模式蛋白质结构与功能预测64主要参数主要参数/ /选项选项粘贴粘贴protein.txt中中一条蛋白质序列一条蛋白质序列输入用户输入用户Email(选填)(选填)蛋白质结构与功能预测65输出结果输出结果下载下载pdbpdb格式文件格式文件蛋白质结构与功能预测66与模板与模板序列比序列比对结果,对结果,并显示并显示二级结二级结构区域构区域比对结果比对结果蛋白质结构与功能预测67模型评估模型评估蛋白质结构与功能预测68练习
30、五:SWISS-MODEL数据:C:ZCNIshixi4SWISS-MODEL.txt参考:蛋白质结构与功能预测69工具工具网站网站备注备注S w i s s -PdbViewer一个界面非常友好的工具,可以分析蛋白质的结构性质,比较活性位点或突变点Jmol一个基于Java语言开发的三维观察工具,大多是作为一个内嵌式网页工具快速游览结构数据库数据MolMol免费的PDB三维分子观察软件,可以通过处理生成很漂亮的图形文件PyMol一个基于开源的三维观察工具,有很多额外的插件来提升功能Rasmol很有名的三维观察软件,操作界面简介,用命令行实现多种功能VMD用内建的脚本来浏览、分析三维结构,还可以
31、以动画的形式模拟蛋白质结构Chime网络游览器插件,可以在网页中直接观察PDB格式的文件Chimera免费分子模拟显示程序,还包括结构比对、药物筛选等功能ICM-Browser三维分子游览工具,有序列比对显示功能,由MolSodt公司免费推出常用蛋白质三维结构观察和修改工具常用蛋白质三维结构观察和修改工具蛋白质结构与功能预测70SWISS-PdbViewerSWISS-PdbViewer观察三维模型观察三维模型 SWISS-PdbViewer工具蛋白质结构与功能预测71具有以下功能:(1)使用同源建模的方法预测蛋白质结构;(2)计算电荷分布,估算易受影响的表面;(3)计算并显示不合理的原子接触
32、、氢键、角度;(4)人工编辑序列,如氨基酸突变、loop区域重建、旋转指定的化 学键,并通过能量最小化(energy minimization)调整修饰后蛋白质的结构;(5)测量原子之间距离和角度;(6)利用Ramachandran plot观察蛋白质结构的合理性。 蛋白质结构与功能预测72菜单栏菜单栏/ /工具栏工具栏图层窗口图层窗口主窗口主窗口 序列联配窗口序列联配窗口控制面板控制面板软件界面蛋白质结构与功能预测73Ramachandran图图结构叠加结构叠加蛋白质结构与功能预测74应用:药物设计中的蛋白质-配体对接 将对接算法应用于虚拟筛选,从小分子库中寻找潜在的配体分子。这样的分子可作
33、为药物的先导物。蛋白质结构与功能预测75常用分子对接软件软件软件网站网站备注备注AutoDock一组自动化的免费对接工具,由AutoDock,AutoGrid,AutoTors三部分组成。DOCK最早的分子对接软件,免费。以搜索合适距离许可匹配为基础。Surflex-DockTripos公司产品。高效虚拟筛选。GOLD基于遗传算法,预测柔性分子与蛋白质的对接问题。可免费试用LIGINGlide 用于快速虚拟筛选和精确对接计算,评价较好。FlexX基于增长构建法,预测蛋白质与配体复合物的几何结构以及亲和力评估。蛋白质结构与功能预测76常用小分子数据库数据库数据库网站网站备注备注ZINC用于虚拟筛选的小分子数据库,该数据库中的分子都可以购买得到。TCMD传统中医药数据库系统。9127 种化合物及 3922种草药。CCDC剑桥晶体结构数据中心CNPD中国天然产物数据库。收录12000种中国天然产物及其结构。ChemACX收编210家服务于研究领域的化学产品提供商的产品信息。MDL(symyx)Specs提供约230000种化合物蛋白质结构与功能预测77蛋白质结构与功能预测78