1、v 计算机模拟与化学合成、生物测试的结合构成了后基因组时计算机模拟与化学合成、生物测试的结合构成了后基因组时代新药研究的新策略。从已有的化合物,包括合成化合物和代新药研究的新策略。从已有的化合物,包括合成化合物和天然产物中寻找药物或先导化合物,是药物发现的一个重要天然产物中寻找药物或先导化合物,是药物发现的一个重要途径。到目前为止,人们只是针对大约途径。到目前为止,人们只是针对大约500 种疾种疾病的治病的治疗靶疗靶点,筛选了现已发现的点,筛选了现已发现的2 000 多万种有机化合物中大约多万种有机化合物中大约10%的化合物,但仍然有大量的潜在活性化合物未被发现。的化合物,但仍然有大量的潜在活
2、性化合物未被发现。v 随着科学技术的发展,各种先进技术应运而生(随着科学技术的发展,各种先进技术应运而生(X 射线晶射线晶体衍射法、多维核磁共振法、扫描隧道显微技术等),使体衍射法、多维核磁共振法、扫描隧道显微技术等),使得越来越多生物靶标(蛋白质、核酸、多糖等)的空间结得越来越多生物靶标(蛋白质、核酸、多糖等)的空间结构被解构被解析。析。v 同同时计算机科学的发展又极大地提高了计算和分析的速度时计算机科学的发展又极大地提高了计算和分析的速度和和精度。精度。v 因因此,自上世纪此,自上世纪90 年代起,年代起,合理药物设计合理药物设计就逐渐成就逐渐成为一种实用技术接融入到药物研发的各个环节。为
3、一种实用技术接融入到药物研发的各个环节。一、合理药物设计一、合理药物设计结构生物学兴起结构生物学兴起(2020世纪世纪8080年代中后期)年代中后期)生物大分子的三维结构测定生物大分子的三维结构测定结构确定的生物大分子数目大增结构确定的生物大分子数目大增基于生物大分子三维结构的基于生物大分子三维结构的药物分子设计方法药物分子设计方法药物的化学特性药物的化学特性生物学特性生物学特性合理药物设计合理药物设计成功例子成功例子奈非那韦(奈非那韦(nelfinavirnelfinavir)抗艾滋病药物抗艾滋病药物 HIV-1蛋白酶抑制剂蛋白酶抑制剂依马依马替尼(替尼(imatinibimatinib)治
4、疗慢性骨髓型白血病药物治疗慢性骨髓型白血病药物二、数据库空间二、数据库空间化学空间生物空间大量疾病靶点大量疾病靶点(生物大分子)(生物大分子)大量小分子化合物大量小分子化合物化合物数据库合成化合物库天然化合物库组合化合物库药物分子库类药化合物库生物大分子数据库核酸分子库蛋白质分子库v 研究对象 化学信息学:小分子 生物信息学:小分子结构单元构成的基因和蛋白质等大分子,本质上都是 化学物质。v 计算方法 基于回归的聚类分析;支持向量机;神经网络;遗传算法等。v 发挥作用方面 核酸和蛋白质功能和结构;小分子配体和蛋白质受体的相互作用;酶催化 等方面。化学信息学和生物信息学的共同点化学信息学和生物信
5、息学的共同点是相互依存,相互影响,需结合在一起,才能解决大多数的实际问题!v 虚拟筛选的时间:虚拟筛选的时间:在化合物组合库合成和/或筛选之前。v 虚拟筛选的空间:虚拟筛选的空间:在计算机上进行模拟设计和筛选。v 虚拟筛选的方法:虚拟筛选的方法:直接方法:基于分子对接(molecular docking)的虚拟筛选 间接方法:基于药效基团(pharmacophore)的虚拟筛选虚拟筛选(虚拟筛选(virtual screening,VS)v虚拟筛选技术是药物设计方法的延伸和推广,广义地讲只要是基于某种提问形式,从虚拟筛选技术是药物设计方法的延伸和推广,广义地讲只要是基于某种提问形式,从现有的小
6、分子数据库中,搜寻符合条件的化合物都可以称之为虚拟筛选。这其中包括现有的小分子数据库中,搜寻符合条件的化合物都可以称之为虚拟筛选。这其中包括基于某些分子特性的数据库搜索、基于分子对接的数据库搜索、基于药效团的数据库基于某些分子特性的数据库搜索、基于分子对接的数据库搜索、基于药效团的数据库搜索等,其目的是从几十乃至上百万个分子中筛选出新的先导化合物。由于实体的药搜索等,其目的是从几十乃至上百万个分子中筛选出新的先导化合物。由于实体的药物筛选需要构建大规模的化合物库,提取或培养大量实验必须的靶酶或者靶细胞,并物筛选需要构建大规模的化合物库,提取或培养大量实验必须的靶酶或者靶细胞,并且需要复杂的设备
7、支持,因而进行实体的药物筛选要投入巨额资金。而虚拟药物筛选且需要复杂的设备支持,因而进行实体的药物筛选要投入巨额资金。而虚拟药物筛选是将药物筛选的过程在计算机上模拟,对化合物可能的活性作出预测,这样就能够集是将药物筛选的过程在计算机上模拟,对化合物可能的活性作出预测,这样就能够集中目标,大大降低实验筛选化合物的数量,从而缩短研发周期、节约经费开支。中目标,大大降低实验筛选化合物的数量,从而缩短研发周期、节约经费开支。v虽然早在虽然早在20 世纪世纪70 年代虚拟筛选技术已经得到应用,但由于技术本身的不成熟,使年代虚拟筛选技术已经得到应用,但由于技术本身的不成熟,使得在新药开发上仍然主要依靠传统
8、的实验筛选。近年来,随着虚拟药物筛选成功地发得在新药开发上仍然主要依靠传统的实验筛选。近年来,随着虚拟药物筛选成功地发现了一些有开发价值的先导化合物,这项技术又重新引起大家的重视现了一些有开发价值的先导化合物,这项技术又重新引起大家的重视。化学信息学化学信息学v 产生的背景 组合化学和高通量筛选,出现了巨大的信息,需要快速收集、存储、分析和处理,随着信息技术向化学领域的渗透,形成了新的交叉学科化学信息学。v 研究内容 化合物信息在计算机中的表示 化合物数据库的建立、使用和管理 化合物相似性、多样性及分子类药性分析 化合物定量构效关系化学信息学 Chemoinformatics,chemical
9、 informatics,Cheminformatics,chemi-informaticsv 利用计算机信息处理技术对化学分子结构和相关信息进行管利用计算机信息处理技术对化学分子结构和相关信息进行管理的一种综合性技术和学科理的一种综合性技术和学科v 应用化学信息学可促进化学信息的获取、转化与共享应用化学信息学可促进化学信息的获取、转化与共享一、化学信息的表示方法化学化学分子分子一维结构:一维结构:化合物名称(俗名);线性符号表示法。化合物名称(俗名);线性符号表示法。二维结构:二维结构:原子用元素符号,键用短线,即化合物结构式。为平面结构。原子用元素符号,键用短线,即化合物结构式。为平面结构
10、。三维结构:三维结构:原子的空间位置、相互间距离、键角和二面角等。原子的空间位置、相互间距离、键角和二面角等。分子表面:分子表面:建立在三维结构基础上,能与分子的三维结构一一对应。建立在三维结构基础上,能与分子的三维结构一一对应。一维结构NC(Cc1ccccc1)C(O)=O(SMILES编码)三维结构二维结构分子表面苯丙氨酸分子结构表征层次苯丙氨酸分子结构表征层次OHOH2N(一)一维结构表示(一)一维结构表示IUPACROSDAL不十分适合计算机的处理不十分适合计算机的处理主要用于主要用于Beilstein 系统系统是是SMILES的改进,除有机的改进,除有机小分子,还表示大分子,小分子,
11、还表示大分子,聚合物和组合库。聚合物和组合库。1986年提出的简化的年提出的简化的分子线性输入系统分子线性输入系统SMILES(简化分子线性输入系统)(简化分子线性输入系统)编码的基本原则编码的基本原则原子通常以大写元素符号表示(省略氢原子),芳香结构原子则以小写表示。相邻原子依次排放在一起,单键通常省略,双键和三键分别以“=”和“#”表示,芳香键以“:”表示,也可省略。分支部分放在括号内,环则打开,并赋予断开键两端的原子以相同的数值。双键“/”表示顺式,“”表示反式。原子顺时针排列用表示,逆时针排列用表示。甲烷 CH4 C乙醇 C2H5OH CCO氰化氢 HCN C#N环已烷 C6H12 C
12、1CCCCC1吡啶 C5H5N n1ccccc1异丁酸 (CH3)2CHCO2H CC(C)C(=O)O反式二溴甲烷 Br/C=C/Br 或BrC=CBr顺式二溴甲烷 BrC=C/Br 或Br/C=CBrL-丙氨酸 NCH(C)C(=O)OD-丙氨酸 NCH(C)C(=O)O举例说明举例说明v 苯丙氨酸OHOH2NNC(Cc1ccccc1)C(O)=OOHCNC/C=CC=CH(O)C#NSMILESSMILES编码的立体化学信息表示编码的立体化学信息表示SLN编码(编码(Sybyl线性标记法)的规则线性标记法)的规则原子以其元素符号表示,原子以其元素符号表示,氢原子也要显示氢原子也要显示;单
13、键省略,双键、三键单键省略,双键、三键和芳香键和芳香键分别以分别以“=”“#”和和“:”表示;表示;分支也采用括号表示;环也打开,依靠环上一个预先定义好的分支也采用括号表示;环也打开,依靠环上一个预先定义好的具有唯一编号的原具有唯一编号的原子及子及符号来识别符号来识别,如环己烷表示为,如环己烷表示为C15H2CH2CH2CH2CH2CH215;原子和键的属性(如电荷、立体化学性质等)可通过方括号原子和键的属性(如电荷、立体化学性质等)可通过方括号 或尖括号或尖括号在该在该原子后标记出;原子后标记出;对大分子的原子,可使用缩写,如氨基酸可以用其三个字母缩写形式表示。对大分子的原子,可使用缩写,如
14、氨基酸可以用其三个字母缩写形式表示。(二)二维结构表示(二)二维结构表示1 1、图论基础和图的矩阵表示、图论基础和图的矩阵表示 一个简单的图由顶点(V)和边(E)组成,因此图被定义为一个三元组,为映射函数。在下面一个简单的无向图中,V=1,2,3,4,E=e1,e2,e3,e4,e5,e6。1423e1e2e4e3e5e6 图也可用矩阵表示:设G=为无向图,令mij等于顶点vi与边ej的关联次数,则称(mij)n*m为G的关联矩阵,记为M(G)。M(G)=1 1 1 0 0 00 1 1 1 1 00 0 0 0 1 11 0 0 1 0 11423e1e2e4e3e5e6CCCHCCCCNH
15、CCOOHOHOH2N用图表示苯丙氨酸的结构用图表示苯丙氨酸的结构 2 2、化合物结构的矩阵表示、化合物结构的矩阵表示(1)邻接矩阵(以乙醛为例)邻接矩阵(以乙醛为例)(2)距离)距离矩阵:表示了相应原子之间的距离:几何距离(用矩阵:表示了相应原子之间的距离:几何距离(用表示),表示),拓扑距离(两原子之间连接的键的个数)拓扑距离(两原子之间连接的键的个数)(3)键)键矩阵:矩阵元素为相连接的两个原子之间的键级。矩阵:矩阵元素为相连接的两个原子之间的键级。双键:双键:2,三键:,三键:3。(4)关联)关联矩阵:是一个矩阵:是一个nm的矩阵。的矩阵。顶点(原子)作为列(顶点(原子)作为列(n),
16、边(化学键)作为行(),边(化学键)作为行(m),),如果边在顶点内,则相应的元素置为如果边在顶点内,则相应的元素置为1。3 3、连接表、连接表20世纪80年代开始,成为化合物在计算机中表示的最主要方法。首先对每个原子进行编号并列表然后在另一表格中列出键的信息,键级用整数表示,1表示单键,2表示双键。(三)三维结构表示(三)三维结构表示1 1、直接坐标法、直接坐标法 用迪卡尔坐标直接存储每用迪卡尔坐标直接存储每个原子的三维坐标(个原子的三维坐标(x,y,z)2、内坐标法v 每个原子位置以与其他原子间的每个原子位置以与其他原子间的3 3个相对位置关系表示个相对位置关系表示相对相对距离、键角、二面
17、角距离、键角、二面角(四)分子存储格式及其相互转换(四)分子存储格式及其相互转换文件格式扩展名特点Molfile*.molMDL公司提出的分子文件格式,应用最广泛的连接表格式Mol2file*.2molTripos公司推出,包含一个或多个化合物。目前药物设计领域最流行的格式Maestro*.maeSchodinger公司推出的一种文件格式,包含一个或多个化合物。SDfile*.sdf结构数据文件,MDLMolfile的扩展,包含一个或多个化合物。RDfile*.rdf反应数据文件,MDLMolfile的扩展,包含一个或多个反应。SMILES*.smi应用最广泛的线性编码和文件格式PDB*.pd
18、b蛋白质数据文件,蛋白质和多聚核苷酸的3D结构信息文件CIF*.cif晶体信息文件格式,用于表示有机分子的3D结构JCAMP*.jdx,*.dx,*.cs原子和分子物理数据,结构和光谱文件格式CML*.cml化学标注语言;XML在化学上的扩展 基本存储基本存储分子的元素组成、原子坐标、原子连接关系分子的元素组成、原子坐标、原子连接关系 其他存储其他存储分子子结构信息,适用于生物大分子分子子结构信息,适用于生物大分子原子电荷信息,调用时不必再计算原子电荷信息,调用时不必再计算确定特定原子化学环境的原子类型信息确定特定原子化学环境的原子类型信息二、化合物数据库的生产和管理 目前有很多商业化合物数据
19、库可以利用目前有很多商业化合物数据库可以利用 MDL药物数据报告(药物数据报告(MDDR)含有)含有115000个类药性个类药性 化合物。化合物。美国国家癌症研究所(美国国家癌症研究所(NCI)数据库含有)数据库含有250000个个 化合物。化合物。MDL ISIS化学数据库管理系统u ISIS系统提供了基于系统提供了基于Oracle 数据库系统的各类化学信息系统的管理和开发工数据库系统的各类化学信息系统的管理和开发工具,可以同时管理化学结构、化学反应、生物活性及谱图等多种化学信息。具,可以同时管理化学结构、化学反应、生物活性及谱图等多种化学信息。u ISIS已应用于全球超过已应用于全球超过8
20、0%的化学与制药企业,已成为事实上的化学信息管的化学与制药企业,已成为事实上的化学信息管理系统的工业标准。理系统的工业标准。ISIS(Integrated Scientific Information Management System)MDL的综合性结构和反应管理软件由三个主要由三个主要模块模块组成组成:(1)化学化学信息管理系统:信息管理系统:ISIS/HOST主服务器应用程序,进行通讯连接,集主服务器应用程序,进行通讯连接,集中数据库数据并作处理中数据库数据并作处理(2)化学化学信息生成和管理软件:信息生成和管理软件:ISIS/BASE用于生成局部数据库及处理信息用于生成局部数据库及处理
21、信息(3)化学化学画图软件:画图软件:ISIS/DRAW用于输入结构式和搜寻询问条件用于输入结构式和搜寻询问条件2D结构输入计算机绘制化学结构式计算机绘制化学结构式 首先输入原子和键的骨架结构,原子数、电荷会自动变为上下标首先输入原子和键的骨架结构,原子数、电荷会自动变为上下标 软件的模板中收集大量分子片段软件的模板中收集大量分子片段 可智能分析结构式,处理结构式的编码和变换可智能分析结构式,处理结构式的编码和变换 还可有附加功能,如自动命名、化学计算、光谱分析等还可有附加功能,如自动命名、化学计算、光谱分析等三维结构的转化 3D结晶结构参数转入3D数据库 软件将2D化学结构迅速地转为3D模型
22、三、分子相似性和多样性分析n分子相似性和多样性分析方法的分子相似性和多样性分析方法的原则原则:结构相似的分子有着相似的性质或活性。:结构相似的分子有着相似的性质或活性。n作用作用:在识别新的具有与已知化合物相同性质或活性的化合物时具有十分重要的作用。:在识别新的具有与已知化合物相同性质或活性的化合物时具有十分重要的作用。数据库的化学多样性(数据库的化学多样性(chemical diversity):数量巨大的、结构不同的贮藏和检索系统数量巨大的、结构不同的贮藏和检索系统适用于先导化合物发现适用于先导化合物发现 数据库的化学相似性(数据库的化学相似性(chemical similarity)适用
23、于先导化合物优化适用于先导化合物优化n评价方法评价方法:通过计算分子的:通过计算分子的描述符描述符,并比较化合物描述符的近似程度。,并比较化合物描述符的近似程度。分子描述符u 概念:概念:在相似性和多样性分析中,需要建立化合物结构和它们生在相似性和多样性分析中,需要建立化合物结构和它们生 物活性或者理化性质的映射,分子描述符就是其中的一种映射。物活性或者理化性质的映射,分子描述符就是其中的一种映射。u 作用:作用:通常一个或多个描述符可以用来描述分子的结构、性质等,通常一个或多个描述符可以用来描述分子的结构、性质等,如如lgP在一定程度上反映了分子穿透细胞膜的能力;拓扑指数描述在一定程度上反映
24、了分子穿透细胞膜的能力;拓扑指数描述 了结构的复杂性。了结构的复杂性。u 描述符的描述符的内容是由两方面决定的内容是由两方面决定的,一是化合物的分子表示,二是计,一是化合物的分子表示,二是计 算描述符的算法。算描述符的算法。分子表示方法描述符示 例0D原子数目氢原子数目,杂原子数目,重原子数目键数目双键数目,三键数目,可旋转键数目相对分子质量相对分子质量,平均相对分子质量分子性质脂水分配系数1D碎片数目伯碳原子数目,叔碳原子数目;手性碳原子数目,羟基数目,羧基数目;氢键供体数目,氢键受体数目2D拓扑描述符Zagreb指数,Wiener指数,Balaban J指数,连接指数,kappa形状指数,
25、2D自关联向量3D几何描述符分子偏心率,回转半径,3D Wiener指数,3D Balaban 指数,WHIM 描述符,GETAWAY 描述符,3D 自关联向量3D表面性质平均分子静电势,疏水势,氢键势3D网络性质比较分子场分析4D3D坐标+构象取样分子描述的分类分子描述的分类分子相似性分析方法分子相似性分析方法v基于定性特征的和基于定量特征的。v对于两个化合物A和B,a是A所具有而B不具有的特征数目 b是B所具有而A不具有的特征数目 c是两者共同的特征数目 d为两者都不具有的特征数目 c和d表示了化合物A和B之间的相似性 a和b表示了化合物A和B之间的多样性 所有的特征数目为n=a+b+c+
26、dv这样,可以建立一种直观的相似性评价方法:考察所有匹配的特征数目c+d在所有特征数目(c+d)+(a+b)中所占的比例,即(c+d)/(a+b+c+d)。这也被称作为简单匹配系数。v可以看出,A和B均不具有的特征并没有表达任何信息,所以,d可以从上面的方法中删除,得到了Tanimoto相似度计算公式。化学多样性的定量表达Tanimoto系数用化学空间中电荷和电势等描述符比较不同分子的性质用化学空间中电荷和电势等描述符比较不同分子的性质 TC=c/(a+b+c)a为为A中基础片断的描述符的数中基础片断的描述符的数 b为为B中基础片断的描述符的数目中基础片断的描述符的数目 c为为A和和B中共有的
27、基础片断的描述符的数目中共有的基础片断的描述符的数目相同分子相同分子TC=1;分子没有共同描述符时;分子没有共同描述符时TC=0相似性搜寻v根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,即根据分子相似性原理,可以在数据库中搜寻与目标分子具有一定相似性的分子,即相相似性搜寻似性搜寻。v步骤:步骤:1、目标选择、目标选择 2、描述符选择和编码、描述符选择和编码 3、相似性评价方法选择、相似性评价方法选择 4、搜寻语句的输入、搜寻语句的输入 5、相似性打分、相似性打分四、互联网上的化学信息资源(一)化学搜索引擎(一)化学搜索引擎1、大型通用搜索引擎:、大型通用搜索引擎:Goo
28、gle、百度等。、百度等。2、专门用于搜索化学信息的引擎:、专门用于搜索化学信息的引擎:ChemFinder,MetaXchem.(二)互联网上的化学数据库(二)互联网上的化学数据库1、文献数据库(、文献数据库(CA、Medline)2、化合物数据库(、化合物数据库(Gmelin,CSD)3、综合数据库(、综合数据库(Beilstein、PDB)常用化合物数据库u FCD(Fine Chemicals Directory)MDL 维护。收载约维护。收载约90 000化合物和化合物和20 000化合物数据,包括化学系统名、俗称、分子式、分子量、供应商、价格、化合物数据,包括化学系统名、俗称、分子
29、式、分子量、供应商、价格、CAS登录号、纯度等。可通过结构式或其它任何数据检索登录号、纯度等。可通过结构式或其它任何数据检索u ACD(Available Chemicals Directory)MDL维护。维护。FCD数据库加上可大批数据库加上可大批量供货的化学品信息。目前有量供货的化学品信息。目前有25万个化合物万个化合物u CSD(Cambridge Structure Database)20多万个结晶的多万个结晶的3D结构实验数据结构实验数据及相关及相关数据数据常用数据库的网址常用数据库的网址Ensemblehttp:/ PharmaSMhttp:/www.thomsonS全球综合性药
30、学信息马丁代尔药典http:/ Scholarhttp:/www.cas.org/SciFinder/newfeatures.html每天更新的在线数据库,专利文献是特色。ChemFinderhttp:/可采用化合物名称、CAS编号、分子式或者相对分子质量分类检索多个化合物数据库,包括反应数据库。有些数据库检索是收费的。ASINDEXhttp:/ 基于数学、生命科学、化学和计算机科学的交叉学科.利用计算机信息处理技术对大量生物大分子作信息获取、加工、储存、分类、检索与统计分析,揭示生物大分子的分子结构、功能、同源性和进化关系.推动生命科学的发展,为创新药物的研究和开发奠定基础.序列分析序列分析
31、生物信息学的应用核酸序列分析指直接从基因组序列中获取信息,同时为核酸序列分析指直接从基因组序列中获取信息,同时为后者提供数据;蛋白质序列分析中,大部分是对同源蛋后者提供数据;蛋白质序列分析中,大部分是对同源蛋白序列进行比对分析,以得到不同蛋白质之间的序列相白序列进行比对分析,以得到不同蛋白质之间的序列相关性,从而推测蛋白质功能等。二者分析方法一致。关性,从而推测蛋白质功能等。二者分析方法一致。生物大分子生物大分子结构预测结构预测虚拟筛选虚拟筛选生物大分子包括生物大分子包括DNA、RNA、蛋白质和脂类。它们的、蛋白质和脂类。它们的结构预测指建立精确的三维构象,这对于生物大分子结构预测指建立精确的
32、三维构象,这对于生物大分子功能的阐明十分重要。而尚无晶体结构数据的生物大功能的阐明十分重要。而尚无晶体结构数据的生物大分子,可采用分子模拟的方法预测大分子的三维结构。分子,可采用分子模拟的方法预测大分子的三维结构。在进行生物活性筛选之前,在计算机上对化合物分子进在进行生物活性筛选之前,在计算机上对化合物分子进预筛选,以降低实际筛选化合物数目,同时提高先导化预筛选,以降低实际筛选化合物数目,同时提高先导化合物发现效率。合物发现效率。药物发现中的生物信息学方法药物发现中的生物信息学方法一、核酸和蛋白质的序列分析(一)单个序列分析 根据单个氨基酸物化性质推测整个蛋白质的性质,也可对序列进行统计分析,
33、预测二级结构出现可能性.20种氨基酸的疏水参数 根据统计值:根据统计值:Glu经常出现在经常出现在-螺旋中;螺旋中;Val常在常在-折折叠中发现叠中发现;Pro通常不出现于通常不出现于-螺旋中和螺旋中和-折叠中而倾向折叠中而倾向于在回折中于在回折中(数值(数值=1代表偏好处于平均;代表偏好处于平均;1代表偏好大于平均;代表偏好大于平均;1代表偏好小于平均)代表偏好小于平均)(二)双重序列比较序列比对v 序列对比可以用各种矩阵表达并作相似性打分两个残基越相似则打分值越高.(三)多重序列比对v 多重序列比对可更多揭示相关蛋白质序列中的保守区域,进而分析蛋白质的结构和功能。可采用多种统计算法进行多重
34、序列比对。二、蛋白质三维结构预测蛋白质二级结构预测的意义v 蛋白质的二级结构有螺旋、折叠、转角等。因为每一段相邻的氨基酸残基具有形成一定二级结构的倾向,而且所有蛋白质中约85%的氨基酸残基处于上述3种基本二级结构状态,所以从序列预测蛋白质二级结构是可行的。v1、Chou-Fasman方法v2、GOR方法v3、基于氨基酸疏水性的方法蛋白质二级结构预测的方法主要预测方法1、从头预测法、从头预测法(ab initio prediction)v采用理论计算(分子力学、分子动力学、量子化学)方法,直接从分子和原子参数计算出蛋白质分子的稳定构象,v理论上最理想的方法,但计算量极大,对于实际分子的计算超过能
35、力范围2、穿针引、穿针引线法线法v 根据已知的蛋白质三维结构来预测可能的三维结构基于知识的预测v 可应用于进化非常疏远的结构预测v 未知蛋白序列与折叠库中已知结构的蛋白序列作匹配计算,将序列吻合的三维结构模块串连起来,得到整个蛋白三维结构v 同源蛋白模建法homologous model buildingv 比较分子模拟法comparative molecular modelingv 同源模建 homology modelingv 同源蛋白法 protein homologyv 根据已知的蛋白质三维结构来预测可能的三维结构基于知识的预测v 同源蛋白有着相似的来源、相似的结构和生物功能。通过比较
36、蛋白序列的相似性,按同源蛋白的三维结构为模板,构建未知蛋白的结构v 一般要求同源性在30%以上,特别是在结合区域同源性要好步骤步骤(1)根据未知蛋白质的序列,寻找同源蛋白(2)二重或多重序列对比步骤(3)找出共同的二级结构区域,构建骨架(4)对初始模型作能量优化(5)判断结构合理性三、代表性生物信息学数据库(一)核酸数据库v GenBankNIH所属国家生物技术信息中心NCBIv Nucleic Acid Database(NDB)由European Molecular Biology Laboratory(EMBL)创建,现由英国剑桥的欧洲生物信息学研究所(European Bioinfor
37、matics Institute,EBI)维护v DNA Data Bank of Japan(DDBJ)日本国立遗传学研究所的日本信息生物学中心(Center for Information Biology,CIB)开发维护v 三大库可交互(二)蛋白质数据库v PDB(Protein Data Bank at Brookhaven National Laboratories)美国 Research Collaboration for Structural Bioinformatics,RCSB开发维护的多肽、酶、病毒、碳水化合物和核酸的三维结构数据基于药效基团搜索的方法v 药效团的概念早在1
38、909 年就由Ehrilich 提出,特指载有活性必须特征原子的分子框架。现在泛指生物活性分子(一般指小分子)中对活性起重要作用的“药效特征元素”的空间排列形式。这些“药效特征元素”可以是某些具体的原子或原子团,比如氧原子、苯环等;也可以指特定的功能结构,如疏水基团、氢键给体、氢键受体等。在得到某类抑制剂的药效团模型后,就可以以药效团作为提问结构进行数据库搜索,从数据库中筛选得到符合该药效团的候选分子,而在这些候选分子中可能包含新的先导化合物。u(1)初筛:其作用是先筛去那些不能与提问结构匹配的分子,减少进入下一个阶段的候选分子数。大多数软件都把在该药效团中出现较多的原子或基团作为约束条件,含
39、有这些基团的则通过初筛,否则被淘汰。u(2)二维子结构匹配:其目的是确定测试分子中药效模式间的连接方式是否符合提问结构,这是一个较为耗时的过程。u(3)三维结构搜索:在通过二维子结构匹配证明其包含药效团以后,就需要验证它在数据库中的构象和药效特征元素是否满足空间限制条件,如果满足则该分子是一个命中结构。基于药效团的搜索一般包含基于药效团的搜索一般包含3 个基本步骤个基本步骤基于药效团的搜索软件vCATALYST 是由美国Accelrys 公司面向药物研究领域的综合性开发软件,由于这一软件为药效团模拟提供了完善的解决方案,使得CATALYST 成为近年来在基于药效团模型的药物开发方面使用最广泛的
40、软件。它能将抽象的药效特征元素与灵活的几何约束条件相结合,尤其在定义药效团模型时,能够表达重要的化学概念。在进行基于药效团模型的数据库搜索时,其一维限制条件与某些数据相联系,如分子量、lgP、pKa 等,从而把搜索限定在某些数值范围内;二维约束支持定义包含子结构或排除子结构,如包含芳香环,不包含羰基等;三维检索时,对每个分子在生理条件下可能采取的各种构象进行搜索。为实现最佳的检索性能,CATALYST 经过了高度优化,即使最抽象的(化学表达)检索也不例外。vUNITY 是另一搜索化学或生物数据库的搜索系统,由美国Tripos 公司开发。包括2D(搜索特殊片段)、相似性、3D(搜索特征的三维结构
41、或药效团)、柔性(允许小分子通过改变键角、二面角等方式符合3D 条件)搜索。UNITY 在进行药效团搜索时,支持3D/Flex 搜索,检索的药效团特征包括给体原子(donor atom)、受体原子(accept atom)、给体位点(donor site)、受体位点(accept site)以及疏水中心(hydrophobic center)等。在对小分子数据库进行药效团搜索时,采用的特征限制条件可以是具体的原子或基团,如上述的给体原子、受体原子、疏水中心;也可以是某些配体将与之发生作用的位点,即给体位点和受体位点等。基于药效基团的结构搜寻基于药效基团的结构搜寻药效基团的获取基于靶点的药效基团
42、基于配体的药效基团1、二维药效基团搜寻、二维药效基团搜寻v 以平面的提问结构搜寻化合物结构式二维药效基团搜寻二维子结构搜寻二维相似性搜寻(1)二维子结构搜寻)二维子结构搜寻v 搜寻具有与提问结构相同子结构的化合物分子(2)二维相似性搜寻)二维相似性搜寻v 搜寻与提问结构某些特征相似的化合物分子2、三维药效基团搜寻、三维药效基团搜寻v 搜寻具有与相同作用基团和空间排布的化合物分子例例 新抗生素的寻找新抗生素的寻找例 D2/D3受体选择性拮抗剂药效基团模型 多巴胺D2类受体为抗帕金森症和安定类药物的靶点 D3/D4受体可能与精神分裂症有关 D2受体选择性拮抗剂取代哌嗪/哌啶类 D3受体选择性拮抗剂
43、受体选择性拮抗剂苯酰胺类和四氢萘类苯酰胺类和四氢萘类药效基团模型的建立药效基团模型的建立u 挑选26个D2受体选择性和22个D3受体选择性的化合物分别作为训练集,分别产生D2受体D3受体模型 u 以Catalyst 将结构式转化为三维构象,用Best conformational analysis进行构象优化u 用Catalyst/HypoGen产生药效基团。选择5个结构特征作为药效基团单元:HB Acceptor,HB Donor,HYDPHOBIC,HYDROPHOB aromatic,RING AROMATICu 为D2/D3受体选择性拮抗剂分别产生了10个得分从高到低的Hypothes
44、is药效基团模型的可信度药效基团模型的可信度p 对于D2受体和D3受体产生的药效团模型,每个药效基团模型的得分与理想模型的得分差值均大于40,说明数据关联的可能性较大p 所建立的D2受体和D3受体药效团模型可用于虚拟筛选未知化合物的活性未知化合物的活性预测预测 以未知化合物作为验证集 大部分预测值与实验值处于同一个数量级,并反映D2/D3受体的选择性D2(左)和D3(右)受体拮抗剂药效基团MAPPING图例 Muscarinic M3 受体拮抗剂的筛选v过敏性肠道综合症与慢性阻塞性气管病均与受体Muscarinic M3 有关。1999 年,Marriott 等采用基于药效团搜索的方法进行了M
45、uscarinic M3 受体拮抗剂的筛选。他们从文献中选出3 个已知的抑制剂,利用DISCO 程序构建药效团模型,最终有2 个四点模型用于数据库搜索(图)。数据库搜索使用UNITY 程序,数据库为自己课题组所构建,2 个药效团模型筛选得到177 个完全不同的分子,生物活性检测发现其中有3 个分子具有较高的活性。例例对对MC 增生抑制剂增生抑制剂的的筛选筛选v 肾小球毛细血管中的血管系膜细胞(mesangial cell,MC)的增生与许多血管疾病的发生有关。2001年,Kurogi 等采用基于药效团的数据库搜索对MC 增生抑制剂进行了筛选,研究组从现有抑制剂出发,药效团识别采用CATALYS
46、T,构建了包含7 个药效特征元素的药效团模型。然后CATALYST 搜索了包含47 045 个分子的数据库,得到41 个命中结构,生物活性检测其中4 个化合物具有明显的MC 增生抑制活性。三、三、基于定量构效基于定量构效关系的关系的虚拟筛选虚拟筛选定量构效关系方法及筛选定量构效关系方法及筛选u 定量构效关系(quantitative structure-activity relationship,QSAR)研究方法在现代药物设计方法中占有重要的地位,也是应用最为广泛的药物设计方法。其目的是采用数理统计的方法研究和揭示化合物的活性与其分子理化性质之间的定量变化规律。传统的二维定量构效关系方法,如
47、Hansh 法、模式识别Free-Wilson 法、电子拓扑法等早已为大家所熟知。随着QSAR 理论及统计方法的发展,反映更加丰富信息的三维定量构效关系方法如比较分子场分析(CoMFA)方法、距离几何法及分子形状分析方法等都迅速得到了广泛应用。u 基于定量构效关系筛选的方法也是最早发展起来的虚拟筛选方法,并已由平面的2D 发展至空间的3D 模式。利用软件(如Tripos 公司的CoMFA 或Accelrys 公司的CATALYST)分析一系列已知化合物的各种性质、理化指标,构建定量构效关系。在构效关系确定之后,即可应用于搜索各类数据库,筛选常使用的有Cerius2 中的Diversity 模块
48、。实实 例例u磺酰脲类除草剂最初开发在20 世纪70 年代,当时由于目标受体ALS 酶的三维结构尚不确定,南开大学李正名教授课题组从配体出发,选定了32 个化合物进行构效关系研究。利用分子模拟与设计软件包SYBYL 中的CoMFA 构建了相应的三维定量构效关系模型。利用此模型以及Cerius2 的Diversity 模块进行数据库的虚拟筛选及活性预测,并挑选出20 个预测活性高的化合物进行合成,取得了较好的结果。四、四、基于药代动力学基于药代动力学的的虚拟筛选虚拟筛选u 在传统的药物设计流程中,对于候选化合物最关心的往往是其能否与靶酶的活性位点结合,至于这个化合物能否在肠道溶解、透过细胞膜达到
49、有效部位等问题考虑的并不多。这也直接导致了在过去20 年,世界前50 强制药企业每年平均花费75 亿美元仅开发出21 个上市新药,而真正能上市的药物与候选药物的比例始终保持在1/10,其中原因绝大部分出在药代动力学或安全(化合物毒性)问题上。因此,在药物研制的早期阶段对化合物的药代动力学和毒性进行全面的评价也是十分重要的。u 得到药代动力学模型通常包含3 个步骤:u(1)利用小型化技术(miniaturization)制作一系列体外培养基。u(2)借助计算机虚拟筛选一系列化合物,并对这些培养基进行评价。u(3)对预测模型进行实际检验并修正,从而这些虚拟模型将最终取代真实体内或体外实验,成为筛选
50、的模型。v Chris Lipinski 及其合作者通过高通量筛选以及组合化学取样,分析了WDI 中的2 245 个药物。为了查明普通口服药物的共同特性,总结出了著名的Chris Lipinski“5 规则”,包括分子量不能超过500、油水分配系数CLogP 小于5 等。u 基于药代动力学筛选较快捷,主要针对整个数据库,通常先于药效团筛选、对接筛选。因此筛选条件应尽量完善,否则很可能剔除潜在先导化合物。除上述“5 规则”之外,可极化表面积(PSA,一般应小于140.2)、在生理条件下油水分配系数、溶解度、在小肠及脑渗透率都应是被考虑的筛选条件,这样才能保证整个虚拟筛选过程准确性、高效性。v 除