1、 什么是分子模拟 分子模拟是在分子模型的基础上用计算机做实验,“计算机实验”通过模拟微观粒子的运动来计算宏观性质温度压力黏度传递性质表面张力分子间的作用模型牛顿力学量子力学统计力学等 分子模拟具有理论和实验的双重性质 分子模拟不能完全取代实验理论实验模拟理论的正确性模拟参数的正确性模拟方法的选择理论的更新与自然界相比的准确程度尺度(米)时间(秒)10-910-710-510-310-1510-910-610-31电子模拟(量化计算,DFT)分子模拟(分子动力学,蒙特卡洛)颗粒方法流体力学原子结构薛定谔方程模拟电子云能量性质,化学键等信息 量子化学计算一般处理几个到几十个原子常见软件:GAUSS
2、IAN,NWCHEM等 密度泛函(DFT)可以算到上百个原子常见软件:VASP 分子水平的模拟 以分子的运动为主要模拟对象 采用经验性的原子间作用函数模拟微粒之间的作用 一般情况下不考虑电子转移效应,因而不能准确模拟化学成键作用 发展最早 1950s,Alder,劳伦斯利物默实验室,分子动力学模拟32个原子 1950s,Metropolis,洛斯阿洛莫斯实验室,蒙特卡洛模拟32个原子 分子级别的模拟应用的领域很广 广泛应用于化学,物理,生物,化工,材料,机械,治药等领域 简单易学 蒙特卡洛是一种优化方法通过蒙特卡洛算法来寻求能量最优点随机方法 通过系综平均来求取宏观性质 模拟的是平衡状态,不涉
3、及时间效应(KMC除外)优点是可以跨越时间因素,缺点是得不到有关时间信息的性质 可以模拟平衡状态,也可以模拟中间状态 可以获得有关时间的信息 受时间的限制,无法模拟缓慢过程分子体系(几百几亿)求解牛顿运动方程宏观性质 同时考虑原子核的运动(牛顿力学)和电子的运动(量子力学)能同时准确模拟物理作用和化学键作用 目前来说CPMD可以处理的体系还很小(几十个原子)将分子基团(几个或者几十上百个原子)当成单个的微粒来处理 微粒之间的作用也是通过类似于分子动力学的位能函数来描述 可以模拟更长的时间跨度电子原子核原子量子级别模拟分子级别模拟CG级别模拟分子动力学对势能函数的依赖性:所有从分子动力学计算出来
4、得到的宏观性质最终都取决于势能模型分子动力学的核心:牛顿运动方程分子的总能量为动能与势能的和,分子的势能通常可表示为简单的几何坐标的函数。动能总能量rUr例:甲烷,某些惰性气体质点处理Ur方阱模型Ur阶梯模型键的伸缩键的弯曲键扭曲 非键作用分子内部各原子(基团)之间的范德华力、静电力一般要计算1-4(相隔超过两个键的原子或基团对)15432qqq分子之间的范德华力分子之间的静电力CCCHHHHHHHH 10个键伸缩项 18个键弯曲项 8个键扭曲项 27个范德华力作用 27个静电作用 以简单的数学形式表示的势能函数成为力场。经典力学的计算以力场为依据,力场的完备与否决定计算的正确程度。复杂分子的
5、总势能一般可分为各种类型势能的和。一个简单力场的函数形式:20()1exp()eu lDa ll=-Morse类键长模型能量阱深参数键长平衡键长参数 胡克类键长模型20()()2ku lll=-键长平衡键长参数 胡克类键角模型键角平衡键角参数扭矩障碍参数扭动360度所经过的能量最低点的次数UULennard-Jones模型UrU一般力场中最常见的非键势能形式为一般力场中最常见的非键势能形式为LennardLennard-Jones(-Jones(LJLJ)势能势能 混合规则ABAB1()2A BABsx ss=+A BABez e e=通常都取1 一般情况下只考虑点电荷之间的作用力 不考虑极化
6、作用所带来的长程项的作用U 为增加精度,一些力场对氢键定义了专门的势函数,有一些力场还增加了交叉项。力场=解析式+参数 力场具有可移植性 力场可以较准确地预测其用来进行参数化的性质,其他性质的预测可能不准确 力场是经验性的,精度和速度的折中 通过量子化学模拟回归得到点电荷范德华力键伸缩、键弯曲、键扭曲 实验数据回归键伸缩键弯曲范德华力初始化能量优化平衡数据产出避免局部分子重叠,并不是动力学模拟 根据所有分子的当前坐标计算个分子的受力(位能函数)根据受力更新分子的坐标 在此过程中收集用来计算宏观性质的有关信息读入模型参数,模拟控制参数 气体的模拟 小分子体系,不需要复杂的势能模型 几百到几千个分
7、子,分子分布稀疏,大部分是短程作用 一般用一台微机就可以处理,计算时间几分钟几小时 简单的液体,不涉及太多的界面性质 小分子体系,势能模型不是很复杂 几百个分子,可能涉及到静电作用,可能需要长程校正 用微机也可以处理,计算时间一般几小时几天 必要性 体系越来越大 模拟时间越来越长 解决办法 制造更快的处理器 并行计算机 例子:50000原子的生物体系,1ns模拟 单个处理器:12天 16个并行处理器:1天或者 Message Passing Interface 90年代初制定和完善的一套并行语法 支持Fortran,C,C+简单易学 并行效率需要1小时需要1/2小时完美的并行效率 处理器的速度
8、远远超过数据传输的速度,大量的时间花在处理器之间的信息传递上了 CPU的速度几乎是几何级数增长 内存的速度是代数级数增长 加快数据传输,尽量减少花在数据传输上的时间 数据传输硬件上的进步 算法上做文章 每一个处理器负责处理一部分原子 每一步计算每一个处理器都要接受其它处理器负责处理的原子的相关信息 信息传输量大,使用的处理器越多并行效率效率越低 一般适合处理5-10万左右微粒的体系N=20n=15n=610n=1620n=11151201481291961613155271741131018实际情况 按照体系的实际物理位置按区域划分每个处理器的处理范围 每一步计算每一个处理器只需要和相邻的处理
9、器交换信息 数据传输量小,并行效率高,适合处理大型体系(超过10万微粒)算法比较复杂(边界的处理)N=201201481291961613155271741131018 主要针对与生物和化学软材料体系 优点 程序设计水平高,计算效率高,号称可以有效并行到上千个处理器 兼容多种输入和输出文件格式,有很好的分析辅助软件VMD 有很好的维护服务 不需安装 免费 缺点 万一需要自己安装的话比较麻烦http:/www.ks.uiuc.edu/Research/namd/主要针对生物体系,也适当兼容一般化学分子 优点 有很好的内置势能模型 自定义新模型和新分子很方便 有很完善的维护网站 缺点 计算效率不高
10、(收敛到16个处理器),运算速度慢$400http:/amber.scripps.edu 主要针对生物体系,也包含部分化学体系 优点 势能模型更新很快 自定义新模型比较方便 维护服务很好 缺点 运算速度慢,计算效率低$600http:/www.charmm.org/一般性分子动力学软件,对生物体系略有偏重 优点 支持多种模型 免费 缺点 仍在开发中,某些方面还不完善http:/dasher.wustl.edu/tinker/一般性分子模拟软件 优点 兼容当前大多数的势能模型 编程水平高,计算效率高(比NAMD差,强于其他所有类似软件)可以模拟软材料和固体物理系统 免费 缺点 维护差http:/
11、www.cs.sandia.gov/sjplimp/lammps.html 一般性分子模拟软件 优点 界面友好 计算效率高(有两个版本供选择,适合于不同大小的体系)维护服务很好 缺点 兼容性不好 100英镑http:/www.cse.clrc.ac.uk/msi/software/DL_POLY/主要针对生物体系,也适当照顾一般化学体系 优点 算法好,计算效率高 界面友好 维护服务好 免费软件 缺点 兼容性不好http:/www.gromacs.org/分子对接分子对接 分子对接方法在药物设计中取得巨大的成功,已经成为基于结构药物设计的最重要的方法之一。分子对接方法在大分子模拟中也具有较高的准
12、确度,在抗原表位识别、DNA蛋白质结合模式方面有重要应用。探索生命体系的奥秘什么是分子对接什么是分子对接分子对接的概念分子对接的概念 从已知结构的受体(靶蛋白或活性位点)和配体出发,通过化学计量学方法模拟分子的几何结构和分子间作用力来进行分子间相互作用识别并预测受体-配体复合物结构的方法称为分子对接。分子对接计算把配体分子放在受体活性位点的位置,然后按照几何互补、能量互补以及化学环境互补的原则来评价配体和受体相互作用的好坏,并找出两个分子之间最佳的结合模式。分子对接的最初思想起源于Fisher E提出的“锁和钥匙模型”。即受体与配体的相互识别首要条件是空间结构的匹配 配体配体 受体受体 复合物
13、复合物 受体配体的锁和钥匙模型受体配体的锁和钥匙模型 Oh boy!What a perfect match 这类方法首先要建立大量化合物(例如几十至上百万个化合物)的三维结构数据库,然后将库中的分子逐一与靶标分子进行“对接”(docking),通过不断优化小分子化合物的位置(取向)以及分子内部柔性键的二面角(构象),寻找小分子化合物与靶标大分子作用的最佳构象,计算其相互作用及结合能。在库中所有分子均完成了对接计算之后,即可从中找出与靶标分子结合的最佳分子(前50名或前100名)分子对接的目的分子对接的目的关注的问题找到底物分子和受体分子见的最佳结合位置如何确定对接分子间的结合强度如何找到最佳
14、的结合位置优化结合自由能分子对接的基本原理分子对接的基本原理配体与受体的结合强度取决于结合的自由能变化G结合结合=H结合结合 T S结合结合=-RT ln Ki大部分的分子对接法忽略了全部的熵效应,而在焓效应也只考虑配体与受体的相互作用能,即:Einteraction=Evdw+Eelectrostatic+Eh-bond分子对接分子对接的基本方法的基本方法 对接过程中,研究体系的构象不发生变化;适合比较大的体系,如蛋白质直接,蛋白质核酸直接的对接。对接过程中,研究体系尤其是配体的构象允许在定的范围内变化;适合处理大分子和小分子间的对接,对接过程中,小分子的构象一般是可以变化的,但大分子是刚性
15、的。对接过程中,研究体系的构象基本上可以自由变化的;一般用于精确考虑分子间的识别情况;由于计算过程中体系的构象可以变化,所以计算耗费最大。刚性对接 半柔性对接 柔性对接分子对接方法分类分子对接方法分类分子分子对接的基本方法对接的基本方法(一)(一)刚性的分子对接方法刚性的分子对接方法 这种方法是最初的分子对接的方法,在对接中,小分子和蛋白质两种都保持刚性。(1)基于最大团搜索的方法)基于最大团搜索的方法 (Clique-Search Based Approaches)对接两个刚性分子可以理解为分子在空间的匹配分子在空间的匹配问题,这种匹配可以是一种形状上的互补或相互作用。如氢键受体与氢键给体的
16、互补。搜索在三维空间中有效的条件下的最大匹配 受体的活性位点受体的活性位点 配体配体 有效匹配的距离图集有效匹配的距离图集 受体配体的示意图,受体配体的示意图,字母字母代表特征部分如代表特征部分如氢键氢键等,等,相应的有效匹配的图集如右,三个环性顶点组织的三角形相应的有效匹配的图集如右,三个环性顶点组织的三角形为这个图集的一个最大团为这个图集的一个最大团(clique)Dock对接程序中刚性对接的算法就是基于这种思想 Dock利用球集球集来表示受体活性位点受体活性位点和配体的形状配体的形状(2)基于几何哈希技术)基于几何哈希技术“geometric hashing”的方的方法法 第一部分中,几
17、何哈希表从被对接的一个配体或一系列配体中构建。哈希矩阵含有配体名字和能调整配体在空间方向的参考框架。第二部分即识别阶段,蛋白质的特征用来识别哈希矩阵,每一次匹配表示蛋白质的特征与哈希矩阵中已定义好方位的配体相匹配,具有大量匹配信息的哈希矩阵代表着具有几个吻合特征的配体和方位(3)基于)基于pose clustering的方法的方法 这种方法与几何哈希的方法相类似,也是一种基于模式识别的方法。在LUDI模型中,如图所示,对每一个作用基团,定义作用中心作用中心和作用表面作用表面。受体的作用表面近似地用离散的点表示,和对应的配体的中心目标点相匹配。三个氢键受体的作用表面三个氢键受体的作用表面 Pos
18、e clustering 算法中的作用点算法中的作用点(二)柔性对接的方法(二)柔性对接的方法(1)构象的系综方法)构象的系综方法 Flexibase用来储存小分子库中每个分子的一系列不同构象,用距离几何和能量最小化的方法产生构象,每个分子根据rmsd的差异选择25个系列构象。每个构象采用FLOG刚性对接的方法进行对接。(2)片段的方法)片段的方法 片断的方法片断的方法是处理小分子柔性的最通用的方法,配体分割成一些小的片断,这些片断可以认为是刚性构象或一个小的构象系综。一般,有两种方法来处理:第一种方法是把一个片段放入受体的作用位点,然后加上余下的片段,这种方法称为连续构建“increment
19、al construction”.第二种方法把所有或一部分片段独立地放入受体的作用位点,再重新连接至到构成一个完整的配体分子,这种策略称为“放置&加”“place&join”(3)遗传算法和进化规划遗传算法和进化规划 遗传算法开始应用到分子对接技术,其特点为:第一步,一个称为染色体的线性表示符能够描述构型的所有自由度,找到这个染色体描述符是算法中最困难的一步。第二步,确定一个一个类似如打分函数的目标函数。著名的GOLD软件包括了这种算法(4)基于分子模拟的方法)基于分子模拟的方法 模拟退火的方法模拟退火的方法,Autodock程序就采用了这种方法 分子动力学的方法分子动力学的方法 Monte
20、Carlo模拟模拟,一种统计力学的方法,这种算法中最重要的两部分是自由度的描述和能量的评价,合适的自由度描述可以避免较高能量的构象,用键角、扭曲角等内座标来描述配体的柔性比用笛卡儿空间的三维座标描述要强,同样,能量的评价也是最耗时,这一步时间必须足够的长。分子对接的评价方法分子对接的评价方法 每一个对接的算法都会采用平衡了时效和精确度的简单自由能预测方法,现在的打分函数主要包括三种。打分函数基于经验的回归参数基于分子力场基于知识(1)基于力场)基于力场的打分函数的打分函数 只考虑热焓对能量的贡献,不考虑熵的影响,一般情况下,采用标准力场的非键作用能如真空静电和范德华作用能用作打分函数,如DOC
21、K程序中采用AMBER的能量函数:ligirecjijjibijijaijijDrqqrBrAE11332(2)基于经验的打分函数基于经验的打分函数 基于经验的打分函数用多元回归的方法拟合各种物理参数对结合自由能的贡献,如FlexX程序中采用下列函数,所采用的方程包括,配体旋转键的个数、氢键、离子键,疏水和芳香环的堆积作用,以及亲水作用。这种方法能快速直接地估算结合自由能。(3)基于知识的打分函数)基于知识的打分函数 最初应用于蛋白质结构预测,打分函数用统计力学的方法得自蛋白质配体的复合物结构,结合自由能用函数为分子间距离的平均能的加和来计算。基于知识的打分函数是一种比较有前途的方法。受体模型
22、的建立 小分子库的产生 计算机筛选 命中化合物的 后处理药物药物分子虚拟筛选的步骤分子虚拟筛选的步骤二位结构用结构转换程序如CORINA、CONCORD实现三维结构的转化;建好的三维结构加氢加电荷,可用。对接和打分,虚拟对接和打分,虚拟筛选的核心步骤筛选的核心步骤把小分子放到受体蛋白的配体结合位点,优化配体构像和位置,使之与受体有最佳的结合作用,给最佳结合构象打分,对所有化合物根据打分排序,然后从化合物库中挑出打分最高的小分子。通过计算分子的类药性质ADME/T(吸收absorption、器官分布distribution、体内代谢metabolism、排泄excretion 和毒性toxici
23、ty)性质的估算,排除那些不具有类药性质的分子。大分子结构的获取大分子结构的获取虚拟筛选的蛋白靶标的结构可以从PDB库中直接下载使用;可以通过和家族中同源蛋白的序列、结构信息比较,同源模建而得。结合位点的描述结合位点的描述直接从配体-受体复合物结构中抽出;没有复合物结构,需要根据生物功能如结合、突变等实验信息来手动选择。生物大分子分子对接的步骤生物大分子分子对接的步骤通过以上四步处理:药物分子虚筛药物分子虚筛 大部分分子从化合物库中剔除,形成一个合理大小的化合物库,仅对这些适合成药的化合物或购买、或合成、或分离得到,然后再进行实际的生物测试。生物大分子对接生物大分子对接 最常用的抗原抗体蛋白对接,获得抗原抗体复合物最佳构象,进一步分析相互作用界面,得到关键位点,然后进行生物突变实验验证,可帮助分析抗原表位这一重大问题。The end 谢谢!