1、1第十章第十章 分子对接分子对接2What is docking?Docking:finding the binding orientation of two molecules with known structures Goals of Docking Fitting a small molecular(drug molecule)into a protein Docking two proteins together&calculate Binding Free Energy3To perform a docking Structures of protein/small molecul
2、eMolecule Databases MethodProtein/DNA PDB xray/NMRSmall Molecules CSD xray/neutron diffraction Software Program to do docking:Dock,AutoDock,Gold,FlexX,etc.Powerful Computers CPU,diskspaceCambridge Structural Database 4Classification According to the molecules involved:Protein-Ligand docking Protein-
3、Protein docking Docking calculations are used for many purposes Search for drug design lead compounds Study conformational possibilities of compounds known to interact Find binding determinants 5Protein-Protein DockingBoth molecules are relatively rigidLarge search spaceUses steric constraints and e
4、nergetics of potential binding conformation to reduce search spaceRequires good representation of docking surface6Protein-Protein Docking7Protein-Ligand Docking Identify interacting sites between a protein with known(rigid)structure and a flexible ligand(usually small molecule)EXTREMELY large search
5、 space Many possible binding sites for potential interactions8Protein-Ligand DockingGbinding=Gcomplex Gprotein GligandTaskComparesConstant termsStructurePose1 vs.Pose2Gprotein,GligandEnrichmentLigand1 vs.Ligand2GproteinSpecificityDifferent ligands in different proteinsNone9The Docking Process Severa
6、l algorithms can be used to do the docking Molecular Dynamics Monte Carlo Simulated Annealing Genetic Algorithms Fragment-based Methods Distance Geometry Methods10From Structure to LigandEnergy minimize structures of target and ligand Molecular dynamics simulation time averaged structuresCreate pseu
7、do-intercalation binding site11 Dock ligand into pseudo-intercalation siteManual,automatic,and flexible ligand docking Energy minimize to determine G complex,G protein Determine Gligand=interaction energy of ligand with surroundings when explicitly solvatedDocking12 Visual inspection of compound 1 d
8、ocking Compounds 3 and 4 Similarly docked 13Docking results Attempts at docking compound 2 were unsuccessfulDistorted the quadraplex structure due to bulky side chains14Models of Docking Rigid Docking Assume the configurations of protein and ligand cannot change rigid Most commonly used model Partia
9、l Flexibility Protein and ligand assumed to be flexible only at the binding site Can be modeled by adding a few DOF in the protein binding site to the combined protein/ligand C-space Full Flexibility All DOF of the ligand and the protein are taken into accountWe chose a model and then simulate how a
10、 ligand behaves around a receptor and see if it bindBUT FIRST we need some kind of a guiding/scoring function.15Scoring Function We would like to have a function which:-given a configuration of protein and the ligand-returns a number representing goodness or energy of the configuration.Desired prope
11、rties:(Ideally)Lowest value when the ligand is naturally docked Higher value everywhere else Should be able to distinguish between correctly and incorrectly docked structures.Should be fast!to compute.16Scoring Function:Examples Quantum mechanical models Takes 5 days per configuration on a super dup
12、er computer Van der Waals+Electrostatic Potential energy(very popular)Hydrogen bonding Surface Area Combination of above17Solvation Effect18 式中式中A和和B分别表示受体分子和底物分子,分别表示受体分子和底物分子,为气态下分子对接过程的自由能变为气态下分子对接过程的自由能变化,约为对接过程的焓变化,约为对接过程的焓变;分别为受体分子,底物分子以及复分别为受体分子,底物分子以及复合物分子的溶剂化自由能;合物分子的溶剂化自由能;则表示对接过程中的熵变。则表示对
13、接过程中的熵变。实际上不能采用严格的自由能计算方法来准确评价靶酶分子和每个底物分子之间的结合自由能。只能采用较为简单的自由能评价方法,即:只考虑非键相互作用能和用基于分子表面的溶剂化来考虑分子对接过程中溶剂化能的变化。,ABABsolvsolvsolvGGGABABbindgassolvsolvsolvABABgasPBSAPBSAPBSAGGGGGHT SGGG gasGT S19Types of Scoring Functions Force field based:non-bonded interaction terms as the score,sometimes in combina
14、tion with solvation terms Empirical:multivariate regression methods to fit coefficients of physically motivated structural functions by using a training set of ligand-receptor complexes with measured binding affinity Knowledge-based:statistical atom pair potentials derived from structural databases
15、as the score Consensus scoring functions approach Other:scores and/or filters based on chemical properties,pharmacophore,contact,shape complementary20Force Field Based Scoring Functions Advantages FF terms are well studied and have some physical basis Transferable,and fast when used on a pre-compute
16、d grid Disadvantages Only parts of the relevant energies,i.e.,potential energies&sometimes enhanced by solvation or entropy terms Electrostatics often overestimated,leading to systematic problems in ranking complexes Solvation and Entropy Terms:Solvation terms decomposed into nonpolar and electrosta
17、tic contributions(e.g.,DOCK):ligirecjijjibijijaijijDrqqrBrAE11332e.g.AMBER FF in DOCKnpsolvelecsolvnonbondbindEEEE,21Empirical Scoring Functions Goals:Reproduce the experimental values of binding energies and with its global minimum directed to the X-ray crystal structure Advantages:Fast&direct esti
18、mation of binding affinity DisadvantagesOnly a few complexes with both accurate structures&binding energies known Discrepancy in the binding affinities measured from different labsHeavy dependence on the placement of hydrogen atomsHeavy dependence of transferability on the training setNo effective p
19、enalty term for bad structures22Knowledge-based Potentials of Mean Force Scoring Functions(PMF)Assumptions An observed crystallographic complex represents the optimum placement of the ligand atoms relative to the receptor atoms The Boltzmann hypothesis converts the frequencies of finding atom A of t
20、he ligand at a distance r from atom B of the receptor into an effective interaction energy between A and B as a function of r Advantages Similar to empirical,but more general(much more distance data than binding energy data)Disadvantages The Boltzmann hypothesis originates from the statistics of a s
21、patially uniform liquid,while receptor-ligand complex is a two-component non-uniform medium PMF are typically pair-wise,while the probability to find atoms A and B at a distance r is non-pairwise and depends also on surrounding atoms23Consensus Scoring and Others Too many scoring functions,none prev
22、ails in terms of predictivity Combined approach:one scoring function to sample configuration space,the other(s)to optimize and/or score:2 docking methods&13 scoring functions to significantly reduces false positive rate(Charifson et al.1999)Postprocessing of docking results with a filter function fo
23、llowed by re-scoring(Stahl&Bohm 1998)ADAM,FlexX,Hammerhead SYBYL Cscore(Tripos):FlexX,PMF,DOCK energy,GOLD score C2(Accelrys):LigScore2,PLP,PMF,Ludi,Jain FRED(OpenEye):ChemScore,PB-SA,ChemGauss,PLP,ScreenScore DOCK:AMBER FF,PMF,contact scores,ChemScore24DOCK(Kuntz,UCSF)Receptor Structure X-ray cryst
24、al NMR homologyBinding SiteMolecular Surface of Binding SiteSpheres describing the shape of binding site andfavorable locations of potential ligand atomsMatching heavy atoms of ligands to centers ofspheres to generate thousandsof binding orientationsScoring Orientations1.Energy scoring(vdw and elect
25、rostatic)2.Contact scoring(shape complementarity)3.Chemical scoring4.Solvation termsVirtual Screening for MTS/HTS and Library Design:ligands in the order of their best scoresBinding Mode Analysis for Lead Optimization:binding orientations and scores for each ligandsLigands 3D structure atomic charge
26、s potentials labelingFilters25Other Docking SoftwaresDOCK:(Kuntz et al.1982)DOCK 4.0(Ewing&Kuntz 1997)AutoDOCK(Goodsell&Olson 1990)AutoDOCK 3.0(Morris et al.1998)GOLD(Jones et al.1997)FlexX:(Rarey et al.1996)GLIDE:(Friesner et al.2004)ADAM(Mizutani et al.1994)CDOCKER(Wu et al.2003)CombiDOCK(Sun et a
27、l.1998)DIVALI(Clark&Ajay 1995)DockVision(Hart&Read 1992)FLOG(Miller et al.1994)GEMDOCK(Yang&Chen 2004)Hammerhead(Welch et al.1996)LIBDOCK(Diller&Merz 2001)MCDOCK(Liu&Wang 1999)PRO_LEADS(Baxter et al.1998)Hex(Ritchie&Kemp 2000)SDOCKER(Wu et al.2004)QXP(McMartin&Bohacek 1997)Validate(Head et al.1996).
28、26Homology Modelingprotein of known 3D structure modeled 3D structure of target protein Build the lock,then find the keyIf you know the 3D structure of the target receptorDONTBasic Modeling Strategies27 If you know the 3D structure of the target receptor Ligand-Based Molecular DesignInfer the lock b
29、y inspecting the keysInfer Binding PocketDONTBasic Modeling Strategies28If you know the 3D structure of the target receptorReceptor-Based Design Build or Find the key that fits the lockBasic Modeling StrategiesDO29Virtual Screeningcorporate databaseknown activesstructures found30Lead Finding:de novo
30、 DesignLinkingProtein Define active site Generate ligand molecules Atom connection Fragment connection Estimation31Protein-based Design of Combinatorial Libraries 一一.DOCK是目前应用最为广泛的分子对接程序之一。是目前应用最为广泛的分子对接程序之一。特点:特点:能自动模拟配体分子在受体活性位点的作用情况,并把理能自动模拟配体分子在受体活性位点的作用情况,并把理论预测最佳的方式记录下来。论预测最佳的方式记录下来。能够对配体的三维结构
31、数据库进行自动搜索,被广泛应用能够对配体的三维结构数据库进行自动搜索,被广泛应用于基于受体结构的数据库搜索的药物设计中。于基于受体结构的数据库搜索的药物设计中。基本步骤:基本步骤:1.配体和受体相互作用位点的确定;配体和受体相互作用位点的确定;2.评分系统的生成;评分系统的生成;3.DOCK计算;计算;4.DOCK结果的处理与分析。结果的处理与分析。321.活性位点的确定活性位点的确定 活性位点的确定,通过软件包中活性位点的确定,通过软件包中 sphgen 程序完成。程序完成。Sphgen 程序,它生成受体表面所有的凹陷的负像,并对这些负像程序,它生成受体表面所有的凹陷的负像,并对这些负像进行
32、聚类分析。下图显示了一个和两个表面点相切的负像以及在进行聚类分析。下图显示了一个和两个表面点相切的负像以及在活性口袋中互相叠合的多个负像。活性口袋中互相叠合的多个负像。图图1a中,黑色的小球代表表面点。在中,黑色的小球代表表面点。在DOCK程序中,表面点采用了程序中,表面点采用了Richards提出的模型。在这些表面点的基础上,采用提出的模型。在这些表面点的基础上,采用sphgen程序生程序生成了负像,它实际上由一些与分子表面点相切的圆球叠加而成。成了负像,它实际上由一些与分子表面点相切的圆球叠加而成。332.匹配原则匹配原则 在生成的负像的基础上,就可以进行配体分子和在生成的负像的基础上,就
33、可以进行配体分子和活性口袋之间的匹配。在这里,配体也采用一组活性口袋之间的匹配。在这里,配体也采用一组球集来表示,和负像不同的是,配体所用的球集球集来表示,和负像不同的是,配体所用的球集表示配体所占的空间区域。表示配体所占的空间区域。如果一个配体分子能和活性口袋形成比较好的匹如果一个配体分子能和活性口袋形成比较好的匹配,那么配体的球集一定能和活性口袋中的负像配,那么配体的球集一定能和活性口袋中的负像形成好的叠合。配体分子和负像之间的匹配原则形成好的叠合。配体分子和负像之间的匹配原则是基于配体和受体之间球集的内坐标的比较。是基于配体和受体之间球集的内坐标的比较。34例例1 如果配体用如果配体用m
34、个球体表示,受体的活性口袋中负像个数为个球体表示,受体的活性口袋中负像个数为n,那么他们之间的可能匹配的数目为,那么他们之间的可能匹配的数目为n!/(n-m)!。为了简化。为了简化计算,可以采用下面的操作进行匹配。计算,可以采用下面的操作进行匹配。1,先把配体球集中的一个球先把配体球集中的一个球i和活性位点的一个负像和活性位点的一个负像k进行匹配进行匹配2,接着计算配体球接着计算配体球i到其它配体球到其它配体球j之间的距离之间的距离dij,以及负像,以及负像k到到其它负像其它负像l之间的距离之间的距离dkl.如果满足下面的条件,则配体球如果满足下面的条件,则配体球j和负像和负像l可以有效的匹配
35、。式中可以有效的匹配。式中取值一般在取值一般在1.0-2.0 之间之间|d|dijij-d-dklkl|3,第二匹配点确定以后,可以确定第三个匹配点。第三个匹配第二匹配点确定以后,可以确定第三个匹配点。第三个匹配点必须满足两组如上式所示的约束。同样,第四个点必须点必须满足两组如上式所示的约束。同样,第四个点必须满足三个上式约束,每个有效匹配的配对点不能少于满足三个上式约束,每个有效匹配的配对点不能少于4个。个。4,按照上述操作得到受体和配体的匹配点集以后,还要进行进按照上述操作得到受体和配体的匹配点集以后,还要进行进一步的调整。一步的调整。3.得分函数得分函数按照匹配原则得到了配体和受体之间的
36、匹配情况之后,就要通按照匹配原则得到了配体和受体之间的匹配情况之后,就要通过合理的得分函数来选择最优的结果。过合理的得分函数来选择最优的结果。DOCK提供了多种得分提供了多种得分函数来评价配体和受体之间的结合情况,包括原子接触得分以函数来评价配体和受体之间的结合情况,包括原子接触得分以及能量得分。及能量得分。(1)原子接触得分原子接触得分 是是 DOCK提供简单的评价表面匹配的评价函数。提供简单的评价表面匹配的评价函数。这个得分函数为配体和受体之间接触重原子数的简单加和。这个得分函数为配体和受体之间接触重原子数的简单加和。所谓接触原子指在一定距离之间的原子(一般定义为所谓接触原子指在一定距离之
37、间的原子(一般定义为4.5A)如果原字间距离太近,则这两个原子被定义为原子碰撞。如果原字间距离太近,则这两个原子被定义为原子碰撞。碰撞的原子显然不利于配体和受体的匹配,按规定作为罚碰撞的原子显然不利于配体和受体的匹配,按规定作为罚分从总得分中予以扣除。分从总得分中予以扣除。36(2)能量得分能量得分 DOCK把配体和受体之间的非键相互作用能作为能量匹配把配体和受体之间的非键相互作用能作为能量匹配的评价函数。具体公式如下:的评价函数。具体公式如下:式中,式中,E表示配体和受体之间的相互作用能;表示配体和受体之间的相互作用能;rij 为原子为原子i 和和原子原子j 之间的距离;之间的距离;Aij
38、和和 Bij 为范得华排斥和吸引参数;为范得华排斥和吸引参数;a 和和b 表示范得华吸引和排斥方次;表示范得华吸引和排斥方次;qi和和qj为原子和原子上的为原子和原子上的部分电荷;部分电荷;D为介电函数。为介电函数。为了考察溶剂效应对分子对接的影响,为了考察溶剂效应对分子对接的影响,Kuntz的科研小组的科研小组在上式中引入基于普适波恩模型的去溶剂化能量项。计算在上式中引入基于普适波恩模型的去溶剂化能量项。计算结果表明引入溶剂效应可以改善模型精度,但这部分工作结果表明引入溶剂效应可以改善模型精度,但这部分工作在最新的在最新的DOCK软件包中还没有体现。软件包中还没有体现。37ijjibijij
39、aijijrecjligiDrqqrBrAE332114 格点对接格点对接 在能量匹配得分计算中,按照一般的做法,需要计算配体在能量匹配得分计算中,按照一般的做法,需要计算配体和受体之间所有在截断值之内的原子对之间的相互作用能,和受体之间所有在截断值之内的原子对之间的相互作用能,这个过程显然是非常耗时的。为了加快计算的速度,这个过程显然是非常耗时的。为了加快计算的速度,DOCK采取了格点(采取了格点(GRID)对接的技术()对接的技术(Meng 1992)。)。格点对接的思路;就是把势能函数中与受体相关的函数项格点对接的思路;就是把势能函数中与受体相关的函数项在空间某些区域取值预先计算得到,这
40、些与受体有关的特在空间某些区域取值预先计算得到,这些与受体有关的特征量在分子对接中不再变化,只要考虑不同的配体就可以征量在分子对接中不再变化,只要考虑不同的配体就可以了。了。格点的范围:一般要包含整个活性口袋区域,通常采用立格点的范围:一般要包含整个活性口袋区域,通常采用立方体来定义。在定义的立方体空间区域等分放置相应的格方体来定义。在定义的立方体空间区域等分放置相应的格点。然后计算格点上的特征量的数值。点。然后计算格点上的特征量的数值。在在DOCK中,每个格点具有三个特征值:计算表面接触匹中,每个格点具有三个特征值:计算表面接触匹配的格点值;计算静电得分的格点值;计算范德华得分的配的格点值;
41、计算静电得分的格点值;计算范德华得分的格点值。格点值。38(1).表面接触匹配的格点值表面接触匹配的格点值 这个值用来描述格点附近重原子的数目。这个值用来描述格点附近重原子的数目。首先程序定义了原子和格点接触的范围,然后:首先程序定义了原子和格点接触的范围,然后:当重原子和格点的距离在这个范围之内的时候,格点上的当重原子和格点的距离在这个范围之内的时候,格点上的数值加数值加1。当格点距离原子太近,则格点上的数值减当格点距离原子太近,则格点上的数值减1。在计算接触匹配得分时,配体上的每个原子的匹配接触匹在计算接触匹配得分时,配体上的每个原子的匹配接触匹配得分等于距离原子最近的格点上的格点值,把所
42、有的原配得分等于距离原子最近的格点上的格点值,把所有的原子得分加和就是表面匹配得分。子得分加和就是表面匹配得分。39(2).静电得分的格点值静电得分的格点值 静电相互作用可通过静电势和点电荷相乘得到。因此每个静电相互作用可通过静电势和点电荷相乘得到。因此每个格点上的静电得分的格点值就等于受体分子在格点上的静格点上的静电得分的格点值就等于受体分子在格点上的静电势,如下式所示,当然静电势也可以通过更精确的方程电势,如下式所示,当然静电势也可以通过更精确的方程得到,比如解得到,比如解Poission-Boltzmann方程的方法。方程的方法。在计算静电得分时,配体上某个原子处的静电势值可以通在计算静
43、电得分时,配体上某个原子处的静电势值可以通过周围格点上的静电势值通过内插法得到。把静电势乘以过周围格点上的静电势值通过内插法得到。把静电势乘以配体原子上的部分电荷就可以得到受体和这个原子之间的配体原子上的部分电荷就可以得到受体和这个原子之间的静电相互作用。把所有原子的得分加和就是静电相互作用。静电相互作用。把所有原子的得分加和就是静电相互作用。40ijijDrqesvalrec10.332(3).范德华得分的格点值范德华得分的格点值 对于范德华得分的格点值的计算,需要对范德华参数进行几何对于范德华得分的格点值的计算,需要对范德华参数进行几何平均近似:平均近似:上式上式 中的原子参数可以通过范德
44、华半径以及势井根据下面公式中的原子参数可以通过范德华半径以及势井根据下面公式计算得到:计算得到:使用上面的近似,范德华相互作用可以写为下面的形式:使用上面的近似,范德华相互作用可以写为下面的形式:因此范德华的格点值包含下面两个数值:因此范德华的格点值包含下面两个数值:41ijiiijBBB 12)2(RA6)2(RB6rec112rec1lig1ijjjjiiijjjjiijrBBrAAE12rec1avalijjjjrA6rec1avalijjjjrB 在计算范德华得分时,配体原子和受体之间的范德华得分在计算范德华得分时,配体原子和受体之间的范德华得分可以通过周围格点上的范德华的格点值通过内
45、插法得到。可以通过周围格点上的范德华的格点值通过内插法得到。把所有原子的得分加和就可以得到需要的结果。把所有原子的得分加和就可以得到需要的结果。格点对接策略是分子对接中广泛应用的方法,其他一些分格点对接策略是分子对接中广泛应用的方法,其他一些分子对称程序包括子对称程序包括AUTODOCK以及以及Affinity都应用了格点对都应用了格点对接的方法。接的方法。当然在不同的分子对接程序中,格点上特征值种类和计算当然在不同的分子对接程序中,格点上特征值种类和计算函数可能会不一样,比如在函数可能会不一样,比如在Affinity中,程序使用了一种溶中,程序使用了一种溶剂化能格点来计算分子对接过程中的去溶剂化能,但不同剂化能格点来计算分子对接过程中的去溶剂化能,但不同的程序里所使用的格点对接的实现方法和计算步骤还是基的程序里所使用的格点对接的实现方法和计算步骤还是基本一样的。本一样的。42