1、2022-12-17化学信息学(Chemoinformatics,chemical informatics,Cheminformatics,chemi-informatics)利用计算机信息处理技术对化学分子结构,性质,来源及用途等相关信息进行管理(包括储存,分析,处理,检索和传递等)的一种综合性技术和学科。应用化学信息学可促进化学信息的获取、转化与共享 化学信息处理2D:3D:H3CC化学分子结构的层次1D:CH3CHOOH*一、2D和3D分子结构的计算机处理方法(一)以一维形式表示对2D结构进行编码储存和交换化学结构式数据的命名法 SMILES(Simplified Molecular I
2、nput Line Entry System,简化分子线性输入系统)SLN(Sybyl linear notation,Sybyl线性标记法)*SMILES按化合价模型,每个原子被氢原子饱和;双键用=表示;三键用#表示;环化分子用闭合原子序号表示;芳香环中不饱和原子用小写字母表示甲烷CH4C水乙醇H2O OC2H5OH CCO氰化氢 HCN C#N环已烷 C6H12C1CCCCC1吡啶C5H5N n1ccccc1*分子中分支用()表示;用/和 表示双键顺反异构;对映异构:手性原子用 表示,表示反时针,表示顺时针反式二溴甲烷顺式二溴甲烷L-丙氨酸D-丙氨酸Br/C=C/Br 或 BrC=CBrB
3、rC=C/Br 或 Br/C=CBrNCH(C)C(=O)ONCH(C)C(=O)O*用图表示 用矩阵表示CCCCCCCNCHHCOHO*(二)以二维形式表示 用连接表表示*(三)以三维形式表示1、直接坐标法用卡迪尔坐标直接存储每个原子的三维坐标(x,y,z)*每个原子位置以与其他原子间的3个相对位置关系表示距离、夹角、二面角r1和r2为键长,为键角,为扭转角87651432137862 45zr2r1y1,2-二氯乙烷*2、内坐标法(四)分子存储格式及其相互转换每一软件系统都有自己的分子存储格式MDL公司的MOL格式(MACSS格式)Tripos公司的MOL2格式剑桥晶体数据库CSD的FDA
4、T和CIF格式蛋白质数据库PDB的PDB格式(ENT格式)*基本存储:分子的元素组成、原子坐标、原子连接关系还能存储:分子子结构信息,能适用于生物大分子原子电荷信息,调用时不必再计算确定特定原子化学环境的原子类型信息*二、化合物数据库的生成和管理输入搜寻和检索管理输出合成反应信息管理软件及数据库目的:用于计算机获取,管理,搜寻,检索合成反应,包括反应物,产物的结构式及其反应的有关信息计算机辅助有机合成:应用计算机合成反应管理软件从反应数据库中寻找和检索合成反应方法合成反应信息管理软件及数据库管理软件的功能:输入:绘制反应物和产物结构输入其他反应信息搜寻与检索:一般用户绘制出并指明产物或反应物结
5、构。ISIS(Integrated Scientific Information ManagementSystem)MDL的综合性结构和反应管理软件 由三个主要分软件组成:(1)ISIS/DRAW用于输入结构式和搜寻询问条件(2)ISIS/BASE用于生成局部数据库及处理信息(3)ISIS/HOST主服务器应用程序,进行通讯连接,集中数据库数据并作处理2D结构输入:计算机绘制化学结构式 首先输入原子和键的骨架结构,原子数、电荷会自动变为上下标 软件的模板中收集大量分子片段 可智能分析结构式,处理结构式的编码和变换 还可有附加功能,如自动命名、化学计算、光谱分析等三维结构的转化:3D结晶结构转入
6、3D数据库软件将2D化学结构迅速地转为3D模型NHHNCH3OCH3O三.组合化学信息管理软件及数据库意义:产生先导化合物的有效方法库中化合物既可是分子实体,也可是虚拟化合物库的质量指标:化学多样性先导化合物优化库的规模 先导化合物筛选103106103分子相似性和多样性分析数据库的化学多样性(chemical diversity)数量巨大的、结构不同的贮藏和检索系统适用于先导化合物发现数据库的化学相似性(chemical similarity)适用于先导化合物优化化学多样性的定量表达 Tanimoto系数用化学空间中电荷和电势等描述符比较不同分子的性质TC=c/(a+b-c)a为A中基础片断
7、的描述符的数目;b为B中基础片断的描述符的数目;c为共有的基础片断的描述符的数目相同分子TC=1;分子没有共同描述符时TC=0四、化学信息学资源FCD(Fine Chemicals Directory)MDL 维护。收载约90 000个化合物和20 000种化合物数据,包括化学系统名、俗称、分子式、分子量、供应商、价格、CAS登录号、纯度等。可通过结构式或其它任何数据检索ACD(Available Chemicals Directory)MDL维护。FCD数据库加上可大批量供货的化学品信息。目前有25万个化合物CSD(Cambridge Structure Database)20多万个结晶的3
8、D结构实验数据及相关数据生物信息处理生物信息学(bioinformatics)基于数学、生命科学、化学和计算机科学的交叉学科 利用计算机信息处理技术对大量生物大分子作信息获取、加工、储存、分类、检索与统计分析,揭示生物大分子的分子结构、功能、同源性和进化关系 推动生命科学的发展,为创新药物的研究和开发奠定基础生物信息学的内容建立可贮存和管理大量生物信息学数据集的数据库处理大量数据的算法和统计方法分析和解释不同类型的生物数据,如RNA、DNA和蛋白质序列、蛋白质结构、基因表达以及生化途径可视化,数据处理结构预测(同源模建)GenomesTCGCGCGTTTCGGTGATGACGGTGAAAACC
9、TCTGACACAT.ProteinsSRVSVMTVKTSDTCSSRRRSQLVCKRMPGADKPVRARQRV.序列分析蛋白质作用网络生物信息学的应用分子动力学模拟分子相互作用PowerEdge6400(一)单个序列分析根据单个氨基酸的物化性质推测整个蛋白质的性质,也可预测二级结构出现的可能性20种氨基酸的疏水参数*一、核酸和蛋白质的序列分析 sequence analysis根据统计值:谷氨酸(Glu)经常出现在-螺旋中;缬氨酸(Val)常在-折叠中发现;脯氨酸(Pro)通常不出现于-螺旋中和-折叠中,而倾向于在回折中(数值=1代表偏好处于平均;1代表偏好大于平均;1代表偏好小于平均
10、)*(二)双重序列比较序列比对sequence alignment序列对比可以用各种矩阵表达并作相似性打分两个残基越相似则打分值越高*多重序列比对可以从更多细节上揭示保守模式和结构信息可采用多种统计算法进行多重序列比对*(三)多重序列比对 multiple sequence alignment二、蛋白质三维结构预测基因蛋白质一级结构蛋白质三维结构决定折叠预测主要方法蛋白三维结构预测从头预测法ab initio线引法threading同源模建法homology modeling基于知识的预测方法knowledge-based prediction基于理论的预测方法theory-based pre
11、diction1、从头预测法(ab initio prediction)采用理论计算(分子力学、分子动力学、量子化学)方法,直接从分子和原子参数计算出蛋白质分子的稳定构象,理论上最理想的方法,但计算量极大,对于实际分子的计算超过能力范围2、穿针引线法,线串法,线程法,折叠识别(threading,fold recognition)根据已知的蛋白质三维结构来预测可能的三维结构 基于知识的预测可应用于进化非常疏远的结构预测未知蛋白序列与折叠库中已知结构的蛋白序列作匹配计算,将序列吻合的三维结构模块串连起来,得到整个蛋白三维结构3、同源蛋白模建法 homologous model building比
12、较分子模拟法 comparative molecular modeling同源模建 homology modeling同源蛋白法 protein homology根据已知的蛋白质三维结构来预测可能的三维结构 基于知识的预测同源蛋白有着相似的来源、相似的结构和生物功能。通过比较蛋白序列的相似性,按同源蛋白的三维结构为模板,构建未知蛋白的结构一般要求同源性在30%以上,特别是在结合区域同源性要好步骤:(1)根据未知蛋白质的序列,寻找同源蛋白(2)二重或多重序列对比(3)找出共同的二级结构区域,构建骨架(4)对初始模型作能量优化(5)判断结构合理性三、代表性生物信息学数据库(一)核酸数据库GenBa
13、nk美国国立卫生研究所美国国立卫生研究所NIH国家生物技术信息 中心NCBINucleic Acid Database(NDB)由EuropeanMolecular Biology Laboratory(EMBL)创建,现由英 国 剑 桥 的 欧 洲 生 物 信 息 学 研 究 所(EuropeanBioinformatics Institute,EBI)维护DNA Data Bank of Japan(DDBJ)日本国立遗传学研究所的日本信息生物学中心(Center forInformation Biology,CIB)开发维护三大库可交互PDB(Protein Data Bankat Br
14、ookhaven NationalLaboratories)美国Research Collaboration forStructural Bioinformatics(RCSB)开发维护的多肽、酶、病毒、碳水化合物和核酸的三维结构数据(二)蛋白质数据库虚拟筛选(virtual screening)计算机辅助筛选(computer-aided screening)计算机筛选(screening in silico)三维结构搜寻(three-dimensional structure searching)虚拟:计算机上进行 不需要化合物,只需结构 化合物数据库 实际分子的索引;虚拟分子;类药性分子
15、靶点三维结构命中物一、基于靶点结构的虚拟筛选对接target-based virtual screening docking化合物库搜寻VirtualScreening对接 受体和配基之间通过能量匹配和空间匹配而相互识别形成分子复合物,并预测复合物结构的操作过程数据库分子对接的原理 分子对接是将已知三维结构数据库中的分子逐一放在靶标分子的活性位点处。通过不断优化受体化合物的位置、构象、分子内部可旋转键的二面角和受体的氨基酸残基侧链和骨架,寻找受体小分子化合物与靶标大分子作用的最佳构象,并预测其结合模式、亲和力和通过打分函数挑选出接近天然构象的与受体亲和力最佳的配体的一种理论模拟分子间作用的方法
16、。分子对接的种类 分子对接的种类主要包括:(1)刚体对接:指在对接过程中,研究体系(受体和配体)的构象不发生变化。适合考察比较大的体系,如蛋白质和蛋白质间以及蛋白质和核酸之间的对接。(2)半柔性对接:指在对接过程中,研究体系尤其是配体的构象允许在一定的范围内变化。适合处理大分子和小分子间的对接,对接过程中,小分子的构象一般是可以变化的,但大分子是刚性的。(3)柔性对接:指在对接过程中,研究体系的构象基本上可以自由变化的。一般用于精确考虑分子间的识别情况。由于计算过程中体系的构象可以变化,所以计算耗费最大。1、靶点检验:X-晶体衍射分辨率、R因子、温度因子评价结构的准确率NMRRMSD评价同源模
17、型同源性、序列与3D结构的相容性打分值*(一)靶点结构的预处理2、靶点处理:加氢原子、加电荷、带电残基的质子化*3、结合位点确定:复合物中的配体剥离同源蛋白模型的提示定点突变(site-mutation)以程序模拟:Insite II/Bind site analysisSybyl/Site ID*3D结构转化结构优化加电荷类药性分析多样性分析*(二)小分子数据库的预处理(三)分子对接将小分子配体旋转到靶点结合位点,搜寻合适的构象和取象,使作用力和形状匹配,按结合能打分一般只考虑配体构象,忽略靶点柔性(1)同一分子各种构象(2)不同分子的最佳构象基于力场的打分函数以分子间作用力表达,忽略熵变半
18、经验的自由能打分函数基于知识的打分函数根据已知复合物结构,计算作用力统计值一致性打分以不同方法分别打分,统计出打分值排名*(四)打分函数例 抗艾滋病药物的发现虚拟筛选艾滋病病毒,人类免疫缺陷病毒human immunodeficiency virus,HIVHIV-1蛋白酶(HIV-PR),所催化的水解反应在艾滋病病毒导入人体细胞过程中起着重要的作用 高效的HIV-PR抑制剂为治疗艾滋病的有效药物 肽类HIV-PR抑制剂生物性质不稳定,吸收 性差,易被代谢分解,因此口服给药无效1.X-射线晶体结构2.搜寻数据库DOCK程序受点影象反转DOCK程序搜寻CSD,对接 200个分子限制:亲和力,易合
19、成NOHRFOR=Br:溴氟哌啶醇R=Cl:氟哌啶醇3.生物测试:高选择性,高活性(Ki=0.1 nM)严重急性呼吸道综合征Severe Acute Respiratory SyndromeSARS病原体SARS冠状病毒SARS-Cov例 抗SARS冠状病毒药物的设计基于SARS-CoV 3CL蛋白酶的虚拟筛选*E蛋白(small envelope protein,小信封蛋白)S蛋白(spike glycoprotein,刺突糖蛋白)M蛋白(membrane protein,膜蛋白)N蛋白(nucleocapsid protein,核衣壳蛋白)多聚酶(polymerase)类3C蛋白酶(3C
20、like proteinase,3CL)*SARS-Cov 感染宿主细胞起重要作用的结构蛋白:获得SARS病毒重要蛋白基因蛋白表达蛋白结构与功能基本思路:药物筛选靶点*3CL蛋白酶作为抗SARS药物筛选靶点的优点:在冠状病毒复制过程中起着重要作用 有许多已知抑制剂,便于迅速开发 较易表达,有利于加紧研究 有较高的同源性,可用同源法模建三维结构模型*(1)3CL蛋白酶序列(GenBank)与各类冠状病毒蛋白酶序列(PDB)作序列分析和同源性分析(BLAST程序)人冠状病毒;鼠科肝炎病毒;猪传染性腹泻病毒;猫传染性腹膜炎病毒;禽传染性支气管炎病毒;猪冠状病毒;传染性胃肠炎病毒(2)传染性胃肠炎病毒
21、(TGEV)的 MPRo与3CL蛋白酶有极高的同源性,特别在底物结合口袋(活性部位)(3)以TGEV MPRo的 X-射线晶体结构为模板,模建3CL蛋白酶三维结构(Sybyl 6.8/SiteID程序)*步骤1.同源模建(1)所建模型与TGEV MPRo晶体结构基本重叠(2)3CL蛋白酶的折叠方式与TGEV MPRo相同,结合口袋的结构以及空间特征几乎一样3CL蛋白酶结构与MPRo蛋白酶晶体结构的重叠图3CL蛋白酶的缎带模型*结果:步骤 2.分析酶-配体作用模型两种蛋白酶的结合部位(Sybyl 6.8 /MOLCAD程序)中,小分子C能以同样的方式与两种酶的结合口袋契合A.TGEV MPRo蛋
22、白酶B.SARS 3CL蛋白酶C.蛋白酶抑制剂两种蛋白酶的底物结合口袋的表面特征3CL蛋白酶模建模型或TGEV MPRo的晶体结构*步骤 3.虚拟筛选以SARS冠状病毒3CL蛋白酶三维结构模型和TGEV MPRo为 筛 选 模 型 作虚拟筛选(SGI Origin3800超级计算机和392CPU的神威1号超级计算机)ACD数据库、MDDR数据库、SPECS数据库、中国天然产物数据库(CNPD)和国家药物筛选中心内部样品库共数十万个化合物(1)DOCK 4.0作初筛,选出得分高的前1000个化合物;(2)用Cscore软件和AutoDock 3.0软件作评价,从每个数据库中挑选出100个得分最高
23、的化合物结果:共找到300个可能具有抗SARS冠状病毒潜力的*(1)用病毒3CL蛋白酶分子水平筛选模型筛选候选化合物发现了7个具有高活性的化合物(2)在P3实验室中作SARS病毒感染细胞水平的测试,发现5-HT受体拮抗剂(DDDC-AS-001)有明显的抗SARS病毒感染和保护细胞的作用(3)申请专利,以CADD作结构优化步骤 4.药理测试*对接研究阿尔茨海默症(Alzheimers Disease,AD)与乙酰胆碱(ACh)水平降低和对AChE诱导的-淀粉样蛋白(A)聚集有关治 疗 AD 的 药 靶:乙 酰 胆 碱 酯 酶(acetylcholinesterase,AChE)和AAchE抑制
24、剂:美普他酚(Meptazinol)研究发现A的聚集与AChE上的外周阴离子位点(PAS)有关Xie Q et al.J.Med.Chem.2008,51(7):2027*例 美普他酚双配体衍生物与AChE的合成n=2-12的多个美普他酚双配体类似物,发现n=9的AChE抑制活性最强(IC503.9 nM),比美普他酚高2万倍,同时对AChE诱导的A聚集具有明显的抑制作用(IC50=79 M),具双重作用OH在美普他酚分子中通过引入不同长度连接链,希望使另一个配体能与PAS相互作用N (CH 2)n NHO*美普他酚双配体类似物的设计:小鼠乙酰胆碱酯酶(mAChE)PDB 数据库中的琥珀酰胆碱
25、与mAChE的复合物(PDB编号:2HA2)双配体分子(n=9)的三维结构 以CORINA软件生成,将N原子质子化,再用Tripos力场进行分子力学优化 以 GOLD 3.0 进 行 分 子 对 接,最 后 用 SYBYL /CScore 一 致 性 打 分 和 半 经 验 自 由 能 评 价 函 数 X-SCORE打分,评价出最优结合构象以分子对接证明作用模式:*对接模型:证明了AChE抑制作用和A聚集抑制作用AChE催化位点PAS中心224n=9双配体与mAChE对接的二维平面示意图(Ligplot)配体单元深入底部的催化中心,苯环与Trp86发另一配体单元处于PAS区生面对面的疏水作用酚
26、羟基与His447的羰基形成氢键氮原子与Tyr124酚羟基形成氢键氮杂卓环与Trp286 形生面对面的疏水作用*结合方式与对接相似*双配基配体与电鳐TcAChE复合物的单晶X衍射证明:n=9酚 羟 基 与 His440形成氢键氮卓杂环与Trp84面对面的疏水作用氮 卓 杂 环 与 Trp279形成疏水作用酚 羟 基 与 Tyr70 和Glu73形成氢键*药物三维结构(含药效基团单元)药效基团识别药效基团命中物二、基于配体相似性的虚拟筛选ligand similarity-based virtual screening基于药效基团的结构搜寻化合物库搜寻药效基团的获取基于靶点的药效基团基于配体的药
27、效基团1、二维药效基团搜寻以平面的提问结构搜寻化合物结构式二维药效基团搜寻二维子结构搜寻二维相似性搜寻NONNOON NNNN NNNOOOONNOONOONOOquery(1)二维子结构搜寻搜寻具有与提问结构相同子结构的化合物分子(2)二维相似性搜寻搜寻与提问结构某些特征相似的化合物分子生物电子等排体OONOOOOONOOOONNNOOOOOONNNNSOOOOOP OO POOOO P O ONNNNNOOOOONNNONOOObn babc2、三维药效基团搜寻搜寻具有与相同作用基团和空间排布的化合物分子D3受体选择性拮抗剂苯酰胺类和的四氢萘类NNHNN例 D2/D3受体选择性拮抗剂药效基
28、团模型多巴胺D2类受体为抗帕金森症和安定类药物的靶点D3/D4受体可能与精神分裂症有关D2受体选择性拮抗剂取代哌嗪/哌啶类RNNNHClNNNHXORN NNR1R2*挑选26个D2受体选择性和22个D3受体选择性的化合物分别作为训练集,分别产生D2受体D3受体模型 以 Catalyst 将 结 构 式 转 化 为 三 维 构 象,用 Bestconformational analysis进行构象优化 用Catalyst/HypoGen产生药效基团。选择5个结构特征作为药效基团单元:HB Acceptor,HB Donor,HYDPHOBIC,HYDROPHOB aromatic,RINGAROMATIC 为D2/D3受体选择性拮抗剂分别产生了10个得分从高到低的Hypothesis*药效基团模型的建立:药效基团模型的可信度:对于D2受体和D3受体产生的药效团模型,每个药效基团模型的得分与理想模型的得分差值均大于40,说明数据关联的可能性较大 所建立的D2受体和D3受体药效团模型可用于虚拟筛选*以未知化合物作为验证集大部分预测值与实验值处于同一个数量级,并反映D2/D3受体的选择性D2(左)和D3(右)受体拮抗剂药效基团MAPPING图*未知化合物的活性预测: