1、h1生物大分子结构模拟生物大分子结构模拟Introduction to Molecular Modeling王适群王适群医学生物结构中心医学生物结构中心2010.11.22h2有机小分子:单糖;脂肪酸;氨基酸;核苷酸。有机小分子:单糖;脂肪酸;氨基酸;核苷酸。生物大分子:多糖;脂类;蛋白质;核酸。生物大分子:多糖;脂类;蛋白质;核酸。生物分子概述生物分子概述h3六碳糖:如葡萄糖,是细胞内能源物质。六碳糖:如葡萄糖,是细胞内能源物质。五碳糖:五碳糖:核核 糖糖 脱氧核糖脱氧核糖是核酸的组成成分是核酸的组成成分(CH2O)n 碳水化合物碳水化合物:含:含3 十几个糖分子,是构成细胞膜的成分十几个糖
2、分子,是构成细胞膜的成分糖原糖原淀粉淀粉 h4 h5分子模拟定义分子模拟定义 Molecular modeling is the application of computational structural biology to the challenge of biomolecular structure prediction.Its aim is to determine the three-dimensional structure from their sequences.h6主要内容第一部分第一部分 蛋蛋 白白 分分 子子 结结 构构 模模 拟拟第二部分第二部分 核核 酸酸 分分
3、子子 结结 构构 模模 拟拟h7蛋蛋 白白 分分 子子 结结 构构 模模 拟拟 第一部分第一部分h8蛋白质的分子结构蛋白质的分子结构基本结构基本结构空间结构空间结构一级结构一级结构二级结构二级结构三级结构三级结构四级结构四级结构h9蛋白质的一级结构蛋白质的一级结构(primary structure)h10蛋白质的二级结构蛋白质的二级结构(secondary structure)h11 定义定义 蛋白质的二级结构指蛋白质分子中某一段肽链蛋白质的二级结构指蛋白质分子中某一段肽链的局部空间结构,即该段肽链主链骨架原子的相的局部空间结构,即该段肽链主链骨架原子的相对空间位置,并不涉及氨基酸残基侧链的
4、构象。对空间位置,并不涉及氨基酸残基侧链的构象。主链与侧链主链与侧链 由由肽键和肽键和-碳原子构成的多肽链骨架称碳原子构成的多肽链骨架称为为主链主链,伸展在外的,伸展在外的R R基团称为基团称为侧链侧链。主要形式主要形式-螺旋螺旋 -折叠折叠 -转角转角 无规则卷曲无规则卷曲主要化学键:主要化学键:氢键氢键h12 参与肽键的参与肽键的6个原子个原子C 1、C、O、N、H、C 2位于同一平面,位于同一平面,C 1和和C 2在平面上所处的位置为反式在平面上所处的位置为反式(trans)构型,此同一构型,此同一平面上的平面上的6个原子构成了所谓的个原子构成了所谓的肽单元肽单元(peptide uni
5、t)。(一)肽单元(一)肽单元h13 (二)二)蛋白质二级结构的主要形式蛋白质二级结构的主要形式u -螺旋螺旋 (-helix)u -折叠折叠 (-pleated sheet)u -转角转角 (-turn)u 无规卷曲无规卷曲 (random coil)h14h15-螺旋螺旋结构特点:结构特点:右手螺旋右手螺旋 每每3.6个氨基酸残基螺旋上升一个氨基酸残基螺旋上升一圈,螺距为圈,螺距为0.54nm 氢键维系(形成于每个肽键的氢键维系(形成于每个肽键的N-H和第四个肽键的羰基氧之和第四个肽键的羰基氧之间)。间)。氨基酸侧链伸向螺旋外侧。氨基酸侧链伸向螺旋外侧。A.-螺旋中的全部肽键都可形成螺旋中
6、的全部肽键都可形成氢键,氢键的方向与螺旋长轴氢键,氢键的方向与螺旋长轴基本平行。基本平行。h16h17 -折叠折叠(pleated sheet)h18 -折叠的特点:折叠的特点:与与-螺旋结构完全不同,螺旋结构完全不同,呈折纸状。呈折纸状。-折叠多肽链折叠多肽链充分伸展,每个肽单元以充分伸展,每个肽单元以C 为旋转点,依次折叠为为旋转点,依次折叠为锯齿状结构,氨基酸侧链锯齿状结构,氨基酸侧链交替地位于锯齿状结构上交替地位于锯齿状结构上下方下方 在两条相邻的肽链之间形在两条相邻的肽链之间形成氢链。成氢链。h19 -折叠折叠有平行和反平行的两种形式有平行和反平行的两种形式:h20 -转角(转角(-
7、turn)和无规卷曲)和无规卷曲-转角转角:是多肽链是多肽链180 回折部分所形成的一种二回折部分所形成的一种二级结构,通常有级结构,通常有4个氨基酸残基组成个氨基酸残基组成,其第其第1个残个残基的羰基氧基的羰基氧(O)与第与第4个残基的氨基个残基的氨基(H)可形成氢可形成氢键。键。.h21无规则卷曲无规则卷曲是用来阐述没有确定规律性的是用来阐述没有确定规律性的那部分肽链结构,但许多蛋白质的功能部位常常那部分肽链结构,但许多蛋白质的功能部位常常埋伏在这里。埋伏在这里。h22(三)(三)模体模体(motif)模体或超二级结构模体或超二级结构是是1973年年Rossmann提出的,它是提出的,它是
8、指二级结构的基本结构单位(指二级结构的基本结构单位(-螺旋,螺旋,-折叠等)相折叠等)相互聚集,形成有规律的二级结构的聚集体。主要有互聚集,形成有规律的二级结构的聚集体。主要有、等。等。细胞色素细胞色素C的的结构结构 细胞核抗原的细胞核抗原的结构结构 纤溶酶原的纤溶酶原的结构结构 h23蛋白质的三级结构蛋白质的三级结构(tertiary structure)h24整条肽链中全部氨基酸残基的相对空间位置。整条肽链中全部氨基酸残基的相对空间位置。即肽链中所有原子即肽链中所有原子或基团或基团在三维空间的排布位置。在三维空间的排布位置。定义定义 主要化学键:主要化学键:疏水作用、离子键、氢键和疏水作用
9、、离子键、氢键和 范德华力等范德华力等(一)三级结构(一)三级结构h25三级结构的主要特点:三级结构的主要特点:含多种二级结构单元含多种二级结构单元B.B.有明显的折叠层次有明显的折叠层次 是紧密的球状或椭球状实体是紧密的球状或椭球状实体 分子表面有一空穴分子表面有一空穴(活性部位活性部位)疏水侧链埋藏在分子内部疏水侧链埋藏在分子内部亲水侧链暴露在分子表面亲水侧链暴露在分子表面h26u三级结构形成后,蛋白质分子才形成固有的分子形状;三级结构形成后,蛋白质分子才形成固有的分子形状;u才具有亲水胶体的特性;才具有亲水胶体的特性;a.功能蛋白质的活性部位得以形成并表现出相应的生物学活性。功能蛋白质的
10、活性部位得以形成并表现出相应的生物学活性。三级结构的重要性三级结构的重要性N 端端 C端端肌红蛋白的三级结构肌红蛋白的三级结构h27(二)结构域(二)结构域(domain)定义:定义:大分子蛋白质的三级结构常可分割成大分子蛋白质的三级结构常可分割成一个或数个结构紧密的球状或纤维状的区域,折一个或数个结构紧密的球状或纤维状的区域,折叠得较为紧密,各行使其功能,称为结构域。叠得较为紧密,各行使其功能,称为结构域。最常见的结构域约含最常见的结构域约含100200个氨基酸残基,个氨基酸残基,少至少至40个左右,多至个左右,多至400个以上。个以上。纤连蛋白分子的结构域纤连蛋白分子的结构域 h28结构域
11、结构域(domain)在空间上相对独立在空间上相对独立免疫球蛋白结构域免疫球蛋白结构域重链重链轻链轻链结构域结构域h29蛋白质的四级结构蛋白质的四级结构(quaternary structure)h30亚基之间的结合力亚基之间的结合力主要是疏水作用,其次是氢键主要是疏水作用,其次是氢键和离子键。和离子键。蛋白质的四级结构:蛋白质的四级结构:蛋白质分子中各亚基的空间蛋白质分子中各亚基的空间排布及亚基接触部位的布局和相互作用,称为排布及亚基接触部位的布局和相互作用,称为蛋白质蛋白质的四级结构的四级结构亚基亚基(subunit):有些蛋白质分子含有二条或多条有些蛋白质分子含有二条或多条多肽链,每一条
12、多肽链都有完整的三级结构,此多肽链多肽链,每一条多肽链都有完整的三级结构,此多肽链就是蛋白质分子的就是蛋白质分子的亚基亚基 。一般来说亚基不具有生物活。一般来说亚基不具有生物活性,只有当这些亚基聚合成一个完整的蛋白质分子后,性,只有当这些亚基聚合成一个完整的蛋白质分子后,才具有生物活性。才具有生物活性。(一)具有四级结构形式的蛋白质由多亚基(一)具有四级结构形式的蛋白质由多亚基组成组成h31(二二)亚基通过亚基间相互作用联系在一起亚基通过亚基间相互作用联系在一起 链链链链血红素血红素h32从一级结构到四级结构从一级结构到四级结构h33h341912:Discovery of X-ray dif
13、fraction1934:Bernal&Hodgkin found the crystal structure of pepsin which yielded a discrete diffraction pattern under an X-ray beam1980:NMR is used to solve 3D structuresh35Christian B.Anfinsen Ribonuclease Anfinsens Experiment 1961(Nobel 1972)Lesson learned from Anfinsen:3D structures are coded in t
14、he 1D sequence.h36 Two Conserved sequences similar structures Two Similar structures conserved sequences?There are cases of proteins with the same structure but no clear sequence similarity.h37Principles of Protein StructureTodays proteins reflect millions of years of evolution.3D structure is bette
15、r conserved than sequence during evolution.Similarities among sequences or among structures may reveal information about shared biological functions of a protein family.h38The Levinthal paradoxAssume a protein is comprised of 100 AAs and that each AA can take up 10 different conformations.Altogether
16、 we get:10100 conformations.If each conformation were sampled in the shortest possible time(time of a molecular vibration 10-13 s)it would take an astronomical amount of time(1077 years)to sample all possible conformations,in order to find the Native State.h39 X-rays crystallography.NMR.Others(e.g.,
17、neutron diffraction).h40(一)(一)X 射线衍射法射线衍射法 首先将蛋白质制成晶体。但是由于糖蛋白质分首先将蛋白质制成晶体。但是由于糖蛋白质分子中糖基化位点和某些位点的糖链结构存在不均子中糖基化位点和某些位点的糖链结构存在不均一性,则很难获得糖蛋白晶体。一性,则很难获得糖蛋白晶体。X X射线射到蛋白质晶体上,可产生不同方向的射线射到蛋白质晶体上,可产生不同方向的衍射。衍射。X X光片则接受衍射光束,形成衍射图。这光片则接受衍射光束,形成衍射图。这种衍射图也即种衍射图也即X X射线穿过晶体的一系列平行剖面射线穿过晶体的一系列平行剖面所表示的电子密度图。然后借助计算机绘制出
18、所表示的电子密度图。然后借助计算机绘制出三维空间的电子密度图。三维空间的电子密度图。h41X-ray crystallographyObtain an ordered protein crystal.Check x-ray diffraction.h42X-ray crystallography 3.Analyze diffraction pattern and produce an electron density map.4.Thread the known protein sequence into the density map.h43X-ray crystallography The
19、 molecules must be very pure in order to produce perfect and stable crystals.The method is time-consuming and difficult.h44(二)核磁共振(二)核磁共振(nuclear magnetic resonance,NMR)核磁共振技术可以直接研究溶液和活细胞中核磁共振技术可以直接研究溶液和活细胞中相对分子质量较小相对分子质量较小(20,000 道尔顿以下道尔顿以下)的蛋白质、的蛋白质、核酸以及其它分子的结构,核酸以及其它分子的结构,这更接近于蛋白质在这更接近于蛋白质在生物细胞中的
20、自然状态。生物细胞中的自然状态。此外,通过改变溶液的性质,还可以模拟出此外,通过改变溶液的性质,还可以模拟出生物细胞内的各种生理条件,即蛋白质分子所处生物细胞内的各种生理条件,即蛋白质分子所处的各种环境,以观察这些周围环境的变化对蛋白的各种环境,以观察这些周围环境的变化对蛋白质分子空间结构的影响。,因此质分子空间结构的影响。,因此,NMR方法为蛋方法为蛋白质与蛋白质、蛋白质与底物或小分子的相互作白质与蛋白质、蛋白质与底物或小分子的相互作用提供了一个有效的观察手段。用提供了一个有效的观察手段。h45NMR-Nuclear Magnetic Resonance A sample is immers
21、ed in a magnetic field and bombarded with radio waves.The molecules nucleus resonate(spin).This motion is determined and is specific for each molecule type.h46Principles of NMRh47NMR-Nuclear MagneticResonance The NMR technique is very time consuming and expensive,and the sample has to be in a concen
22、trated solution,and is limited to small and soluble molecules.h48PDB:Protein Data Bank Holds 3D models of biological macromolecules(protein,RNA,DNA).All data are available to the public.Obtained by X-Ray crystallography(84%)or NMR spectroscopy(16%).Submitted by biologists and biochemists from around
23、 the world.h49PDB Protein Data Bankhttp:/www.rcsb.org/pdb/h50Molecular Modeling DataBase Comparative databaseNCBI Molecular Modeling DataBase(MMDB)subset of PDB,excludes theoretical structures,with native.asn format.asn=single-coordinate per-atom molecules,explicit bonding and SS remarks suited for
24、computation,such as homology modeling and structure comparisonh51蛋白结构预测方法h52h53 通过同源序列分析或者模式匹配预测蛋白质的空通过同源序列分析或者模式匹配预测蛋白质的空间结构或者结构单元(如锌指结构、螺旋间结构或者结构单元(如锌指结构、螺旋-转角转角-螺螺旋结构、旋结构、DNADNA结合区域等)。结合区域等)。同源模型方法:最可靠的方法同源模型方法:最可靠的方法 每一个自然蛋白质具有一个特定的结构,但许多每一个自然蛋白质具有一个特定的结构,但许多不同的序列会采用同一个基本的折叠,也就是说,不同的序列会采用同一个基本的折
25、叠,也就是说,具有相似序列的蛋白质倾向于折叠成相似的空间具有相似序列的蛋白质倾向于折叠成相似的空间结构。一对自然进化的蛋白质,如果它们的序列结构。一对自然进化的蛋白质,如果它们的序列具有具有2525 30%30%的等同部分或者更多,则可以假设这的等同部分或者更多,则可以假设这两个蛋白质折叠成相似的空间结构。两个蛋白质折叠成相似的空间结构。如果一个未如果一个未知结构的蛋白质与一个已知结构的蛋白质具有足知结构的蛋白质与一个已知结构的蛋白质具有足够的序列相似性,那么可以根据相似性原理给未够的序列相似性,那么可以根据相似性原理给未知结构的蛋白质构造一个近似的三维模型知结构的蛋白质构造一个近似的三维模型
26、 。h54注意 同源模建技术给我们带来了更多选择和探索新领域的机会,但是有一点请大家注意,如果你的蛋白同源性不高,波动性过大,关键位点差异显著的话,要谨慎的选择同源模建,因为这样构造出来的蛋白很可能误导你后面的工作,因为往往同源模建在我们这里都是一个课题的第一步,决定了后面这个课题是否成功的关键。h55同源模建 同源模建是利用已知的蛋白质三级结构为参照,分析氨基酸序列相近的新蛋白的三级结构。利用蛋白质分析软件来预测,例如SWISS-MODEL是一项预测蛋白质三级结构的服务,它利用同源建模的方法实现对一段未知序列的三级结构的预测。很多软件中都提供了相应的功能,做的最好的商业软件是INSIGHTi
27、i和modeller,免费的有spdbvierwer和一些在线服务器。h56步骤 以生物信息学方法做同源模建法预测蛋白质三级结构一般由四步完成:1.从待测蛋白质序列出发,搜索蛋白质结构数据库(如PDB,SWISS-PROT等),得到许多相似序列(同源序列),选定其中一个(或几个)作为待测蛋白质序列的模板;2.待测蛋白质序列与选定的模板进行再次比对,插入各种可能的空位使两者的保守位置尽量对齐;3.建模:调整待测蛋白序列中主链各个原子的位置,产生与模板相同或相似的空间结构待测蛋白质空间结构模型;4.利用能量最小化原理,使待测蛋白质侧链基团处于能量最小的位置。h57 Use the unknown
28、sequence as a query to search for known protein structures.Identify homologous sequences in PDB Align query sequence with homologues Find Structurally Conserved Regions(SCRs)Identify Structurally Variable Regions(SVRs)Generate coordinates for core region Generate coordinates for loops Add side chain
29、s(Check rotamer library)Refine structure using energy minimization Validate structureStepsh58Step 1:ID Homologues in PDBPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQNCEQWERYTRASDFHGTREWQIYPASDFGHKLMCNASQERWWPRETWQLKHGFDSADAMNCVCNQWERGFDHSDASFWERQWKQuery SequencePDBPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQNCEQWERY
30、TRASDFHGTREWQIYPASDFGHKLMCNASQERWWPRETWQLKHGFDSADAMNCVCNQWERGFDHSDASFWERQWKPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQNCEQWERYTRASDFHGTREWQIYPASDFGPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQNCEQWERYTRASDFHGTREWQIYPASDFGPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQNCEQWERYTRASDFHGTREWQIYPASDFGTREWQIYPASDFGPRTEINSEQENCEPRTE
31、INSEQUENCEPRTEINSEQNCEQWERYTRASDFHGTREWQPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQQWEWEWQWEWEQWEWEWQRYEYEWQWNCEQWERYTRASDFHGTREWQIYPASDWERWEREWRFDSFGPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQNCEQWERYTRASDFHGTREWQIYPASDFGHKLMCNASQERWWPRETWQLKHGFDSADAMNCVCNQWERGFDHSDASFWERQWKPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQNC
32、EQWERYTRASDFHGTREWQIYPASDFGPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQNCEQWERYTRASDFHGTREWQIYPASDFGPRTEINSEQENCPRTEINSEQENCEPRTEINSEQUENCEPRTEINSEQQWEWEWQWEWEQWEWEWQRYEYEWQWNCEQWERYTRASDFHGTRHit#1Hit#2h59Step 2:Align SequencesGENETICSG10 0000000E010 010 0000N0010 00000E00010 0000S000000010I0000010 00S00000
33、0010GENETICSG60 40 30 20 20 010 0E40 50 30 30 20 010 0N30 30 40 20 20 010 0E20 20 20 30 20 10 10 0S20 20 20 20 20 010 10I10 10 10 10 10 20 10 0S000000010Dynamic Programmingh60Sequence-Sequence Alignment Methods Pairwise Sequence alignment methods BLAST,FASTA,WU-BLAST,SSEARCH-available on www compare
34、s target sequence with sequences in DB pairwise alignment scans the sequences for words(three character in length)any statistically significant alignment would have a high scoring pair of words-hit counts how many such hits are present finds good homologs(for 30%sequence identities)h61Step 2:Align S
35、equencesACDEFGHIKLMNPQRST-FGHQWERT-TYREWYEGASDEYAHLRILDPQRSTVAYAYE-KSFAPPGSFKWEYEAMCDEYAHIRLMNPERSTVAGGHQWERT-GSFKEWYAAQueryHit#1Hit#2Hit#1Hit#2h62Alignment Key step in Homology Modelling Global(Needleman-Wunsch)alignment is absolutely required Small error in alignment can lead to big error in struc
36、tural model Multiple alignments are usually better than pairwise alignmentsh63How to select templates Choose template that is closest to the target in terms of subfamilies-high overall sequence similarity template environment like pH,ligands,etc.,same as target quality of the experimental template s
37、tructure-the resolution,R-factor etc.choosing a template for protein-ligand model-template preferably has same ligand modeling an active site-high resolution structure with ligandh64Hit#1Hit#2Step 3:Find SCRsACDEFGHIKLMNPQRST-FGHQWERT-TYREWYEGASDEYAHLRILDPQRSTVAYAYE-KSFAPPGSFKWEYEAMCDEYAHIRLMNPERSTV
38、AGGHQWERT-GSFKEWYAAHHHHHHHHHHHHHCCCCCCCCCCCCCCCCCCBBBBBBBBBQueryHit#1Hit#2SCR#1SCR#2h65Structurally Conserved Regions(SCRs)Corresponds to the most stable structures or regions(usually interior)of protein Corresponds to sequence regions with lowest level of gapping,highest level of sequence conservat
39、ion Usually corresponds to secondary structuresh66Hit#1Hit#2Step 4:Find SVRsACDEFGHIKLMNPQRST-FGHQWERT-TYREWYEGASDEYAHLRILDPQRSTVAYAYE-KSFAPPGSFKWEYEAMCDEYAHIRLMNPERSTVAGGHQWERT-GSFKEWYAAHHHHHHHHHHHHHCCCCCCCCCCCCCCCCCCBBBBBBBBBQueryHit#1Hit#2SVR(loop)h67Structurally Variable Regions(SVRs)Corresponds
40、 to the least stable or most flexible regions(usually exterior)of protein Corresponds to sequence regions with highest level of gapping,lowest level of sequence conservation Usually corresponds to loops and turnsh68Insight II简介 Accelrys公司的Insight II三维图形环境软件包,集成了从生物分子结构功能研究到基于靶点药物设计的全套工具,是生物学家从事理论研究和
41、具体实验方案设计的助手。InsightII针对生命科学应用,提供生物分子及有机小分子建模和显示工具,功能分析工具,结构改造工具,动力学模拟工具等,帮助研究人员在实验前全面了解生物分子的结构与功能,从而有针对性的设计实验方案,提高实验效率,降低科研成本。InsightII在揭示蛋白质结构功能关系、生物分子结构模拟与动力学计算、基于靶点药物设计、抗体设计、酶工程、生物分子间的相互作用(包括蛋白质与蛋白质、蛋白质与肽、蛋白质与核酸、蛋白质与有机小分子)、生物分子核磁共振、功能基因组以及蛋白质组等方面有着广泛的应用。h69h70第二部分第二部分 核酸分子结构模拟核酸分子结构模拟h71RNA 结构(以tRNA为例)h72RNARNA二级结构的预测方法二级结构的预测方法 基于热力学的预测方法基于热力学的预测方法 基于系统发生学的预测方法基于系统发生学的预测方法 h73常用分析软件h74