1、1课程内容安排w 第十一讲:Chemoinformaticsn分子结构信息的计算机存储和表达分子结构信息的计算机存储和表达n分子二维数据库和数据库检索技术分子二维数据库和数据库检索技术w 第十二讲:Cheminformaticsn分子多样性和化合物筛选分子多样性和化合物筛选n三维结构的实验数据资源三维结构的实验数据资源n基于三维结构的计算方法基于三维结构的计算方法n化合物组合库化合物组合库n高通量虚拟筛选高通量虚拟筛选2化学信息学第十一讲Chemoinformatics3内 容w 相关名词辨析及化学信息学由来w 分子结构信息的计算机存储和表达w 分子二维数据库和数据库检索技术4名词解释 Com
2、putational Chemistry 计算化学:使用数学方法计算分子性质和模拟分子行为的方法。并且包括合成设计、数据库搜索、组合库操作等(Hopfinger,1981;Ugi et al.,1990).IUPAC Computational 5相关名词辨析http:/ Molecular Modeling 分子建模方法:使用计算化学和图形显示技术研究分子结构和性质,从而获得在给定环境下的分子三维结构的近似表达 IUPAC Medicinal Chemistry,IUPAC Computational7名词解释 Chemometrics 化学统计学:使用数理统计学的方法对化学信息(如有机,分
3、析和药物化学)进行分析,或进行化学实验的设计和模拟IUPAC Computational8名词解释 Bio-informatics 生物信息学:使用数理统计学的方法对化学信息(如有机,分析和药物化学)进行分析,或进行化学实验的设计和模拟IUPAC Computational9名词解释 Chemoinformatics?:Chemoinformatics 是是知识管理知识管理(knowledge management)的有机组成部分的有机组成部分Nicholas J.Hrib,Norton P.PeetChemoinformatics:are we exploiting these new sc
4、ience?“Drug Discovery Today 5(11):483-485,Nov.200010名词解释 Cheminformatics 化学信息学:结合化学合成、生物筛选及数据挖掘技术指导药物发现和开发,用于合理的设计具有类药性质的化合物,构建用于虚拟高通量筛选的智能化合物库,研究以往的数据知道先导化合物的优化Cheminformatics:Intelligent Drug Discovery May 28-30,2003 Philadelphia PA 1112Human Alcohol Dehydrogenase(Adh1A)w 分类:Oxidoreductasew 简介:Mol
5、ecule:Class I Alcohol Dehydrogenase 1,Subunit;Chain:A,B;Engineered:Yesw 实验方法:X-ray Diffraction13Human Alcohol Dehydrogenase(Adh1A)14分子结构信息的计算机存储和表达w 如何使用计算机存储化学结构?w 如何处理存储的结构信息?w 计算机在Chemoinfomatics中的应用?15分子结构信息表达的内容n原子n原子间的连接l键型n立体化学构型n电荷n同位素 n3D-coordinates for atomsOHCH2CHNH2OHO16分子结构信息表达的内容n原子n原
6、子间的连接l键型n立体化学构型n电荷n同位素 n3D-coordinates for atomsOHCH2CHNH2OHO17分子结构信息表达的内容n原子n原子间的连接l键型(芳香环)n立体化学构型n电荷n同位素 n3D-coordinates for atomsOHCH2CHNH2OHO18分子结构信息表达的内容n原子n原子间的连接l键型(芳香环)n立体化学构型n电荷n同位素 n3D-coordinates for atomsOHCH2CHNH3+OO19分子结构信息表达的内容n原子n原子间的连接l键型(芳香环)n立体化学构型n电荷n同位素 n3D-coordinates for atoms
7、OHCH2C14HNH2OHO2021分子结构一维表示法(Line Notation)w 简介:n使用字符串表示分子结构w 现有的几种表示法nWiswesser Line Notation(WLN)(Dialog)nSimplified Molecular Input Line System(SMILES/SMARTS)(Daylight)nRepresentation of Structure Diagram Arranged Linearly(ROSDAL)-(Beilstein)nSybyl Line Notation(SLN)-(Tripos)OHCH2CHNH2OHO13456891
8、11213wROSDAL1O-2=3O,2-4-5N,4-6-7=-12-7,10-13OwSLNOHC(=O)CH(NH2)CH2C1=CHCH=C(OH)CH=CH1wWLN QVYZ1R DQwSMILESOC(=O)C(N)CC1=CC=C(O)C=C122分子结构一维表示法(Line Notation)Simplified Molecular Input Line Entry System(SMILES)基于价键模型的标记法Author:Dave Weininger(Daylight)23CMethaneC1CCCCC1cyclohexaneOwaterc1ccccc1benzene
9、CCethaneCOmethanolOC methanol NCH(C)C(=O)OCCOethanolCC(=O)CacetoneO=C=Ocarbon dioxideL-alanineSMILE标记示例24atom:symbol sign 双字母原子符号:Br(Upper/lower case)原子的预定义价键:B(3),C(4),N(3,5),O(2),P(3,5),S(2,4,6),F(1),Cl(1),Br(1),I(1)大写的字母表示非芳香体系示例:ClHydrochloric acidSH2S Fe+Iron(II)cationAtoms 语法25Bond 语法语法bond:|-
10、|=|#|.;single|double|triple|disconnectionEthene C=CFormaldehyde C=OHydrogen Cyanide C#NButadiene C=CC=C26分支分支 将支链放在括号中SMILES:CCCC(C(=O)O)CCCbranch:()|()|()|()27环定义环定义 合环键用数字标出合环键用数字标出28 非连接关系(disconnections):同位素表示:SMILES:Na+.O-c1ccccc1specified inside brackets.SMILES:13CH4其它定义其它定义29F/C=C/FF/C=CF双键构型
11、的表示双键构型的表示 /30从旋光中心沿字符串顺序观察,逆时针为,顺时针为NC(C)(F)C(=O)O手性表示手性表示 or or 31氢原子表示氢原子表示显式表示氢原子的四种情况:1.带电荷的氢,如:质子 H+2.与其它氢相连的氢,如:氢气 HH 3.氢桥4.同位素,如:重水,2HO2H 32芳香性芳香性N1ccccc1 N1=CC=CC=C1C1cc2cccccc2c1 C1=CC2=CC=CC=CC2=C133O-n+1ccccc1pyridine-N-oxideOCH1CCCCCH1Ocis-resorcinolCC(C)NCC(O)COc1cccc2ccccc12Propranolo
12、l a beta-blocker一些例子一些例子34SMILES的正规化标记c1ccccc1Oc2ccccc2(N)Nc2ccccc2Oc1ccccc1O(c1ccccc1)(c2ccccc2N)Nc1ccccc1Oc2ccccc2 Nc1ccccc1Oc2ccccc2 Nc1ccccc1Oc2ccccc2 35分子结构一维表示法(Line Notation)w 优点:n易于手工书写n结构紧凑w 局限:n信息量小n对复杂分子的标记比较繁琐。n某些情况下,标记具有二义性。36分子结构一维表示法的应用 构造查询语言 子结构匹配 相似性搜索(结构指纹)化合物组合库的压缩存储 反应数据库37SMILE
13、S 应用示例w ClogP 辛醇/水分配系数w 实验方法w logP计算 pH 7.0时的分配系数w 数据库规模=2,000,000化合物w 工作站搜索速度=500,000/s38ClogP的计算使用片断加和法(片断值校正项)片断值基于实验值,与片断的类型有关,如:极性基团、卤素、离子、不饱和键校正项描述不同片断间的相互作用,如:氢键等39http:/ 分子结构二维表示法n连接表 (Connection Table)n邻接矩阵(Adjacency Table)42连接表 (Connection Table)w 简介:计算机系统中主流结构表示方法w 类型 n“内部”CTs(内存)l程序处理n“外
14、部”CTs(磁盘文件)l文件存储 l数据交换43“Redundant”Connection Table1.O1 2 12.C0 1 1 3 2 4 13.O0 2 24.C 1 2 1 5 1 6 15.N2 4 16.C2 4 1 7 17.C0 6 1 8 212 18.C1 7 2 9 19.C1 8 110 210.C0 9 211 113 111.C110 112 212.C111 2 7 113.O110 19OHCH2CHNH2OHO13456811121344MDL Connection Tablew 数据交换的事实标准w 衍生文件格式nMolfile(single molec
15、ule)nSDfile(set of molecules and data)nRGfile(Markush structure)nRxnfile(single reaction)nRDfile(set of reactions with data)w 示例wbenzenew WLViewer 3D 0w 12 12 0 0 0 0 0 0 0 0 0w 1.1202 0.0003 0.0002 C 0 0 0 0 0 0w 1.8030 1.1835 -0.0005 C 0 0 0 0 0 0w 3.1691 1.1839 -0.0004 C 0 0 0 0 0 0w 3.8522 0.000
16、6 -0.0007 C 0 0 0 0 0 0w 3.1691 -1.1823 0.0001 C 0 0 0 0 0 0w 1.8034 -1.1829 -0.0003 C 0 0 0 0 0 0w 0.1202 0.0002 0.0011 H 0 0 0 0 0 0w 1.3028 2.0494 -0.0011 H 0 0 0 0 0 0w 3.6690 2.0500 -0.0001 H 0 0 0 0 0 0w 4.8522 0.0005 -0.0015 H 0 0 0 0 0 0w 3.6692 -2.0482 0.0010 H 0 0 0 0 0 0w 1.3036 -2.0490 -
17、0.0010 H 0 0 0 0 0 0w 1 2 4 0 0 0w 1 6 4 0 0 0w 2 3 4 0 0 0w 3 4 4 0 0 0w 4 5 4 0 0 0w 5 6 4 0 0 0w 1 7 1 0 0 0w 2 8 1 0 0 0w 3 9 1 0 0 0w 4 10 1 0 0 0w 5 11 1 0 0 0w 6 12 1 0 0 0wM END46其它CTs格式w Standard Molecular Data(SMD)formatnnever gained wide acceptancew Protein Data Bank(PDB)formatw Crystallo
18、graphic Information File(CIF)w Molecular Information File(MIF)ndeveloped from SMD and compatible with CIFw Chemical Exchange Format(CXF)nChemical Abstracts Servicew Chemical Markup Language(CML)nfor data exchange using the Internetw IChI(IUPAC Chemical Identifier)47分子结构信息的计算机存储和表达w 分子结构三维表示法n三维坐标文件(
19、Mol,XYZ,SD)n内部坐标表示法(Z-Matrix)wbenzenew WLViewer 3D 0w 12 12 0 0 0 0 0 0 0 0 0w 1.1202 0.0003 0.0002 C 0 0 0 0 0 0w 1.8030 1.1835 -0.0005 C 0 0 0 0 0 0w 3.1691 1.1839 -0.0004 C 0 0 0 0 0 0w 3.8522 0.0006 -0.0007 C 0 0 0 0 0 0w 3.1691 -1.1823 0.0001 C 0 0 0 0 0 0w 1.8034 -1.1829 -0.0003 C 0 0 0 0 0 0w
20、 0.1202 0.0002 0.0011 H 0 0 0 0 0 0w 1.3028 2.0494 -0.0011 H 0 0 0 0 0 0w 3.6690 2.0500 -0.0001 H 0 0 0 0 0 0w 4.8522 0.0005 -0.0015 H 0 0 0 0 0 0w 3.6692 -2.0482 0.0010 H 0 0 0 0 0 0w 1.3036 -2.0490 -0.0010 H 0 0 0 0 0 0w 1 2 4 0 0 0w 1 6 4 0 0 0w 2 3 4 0 0 0w 3 4 4 0 0 0w 4 5 4 0 0 0w 5 6 4 0 0 0w
21、 1 7 1 0 0 0w 2 8 1 0 0 0w 3 9 1 0 0 0w 4 10 1 0 0 0w 5 11 1 0 0 0w 6 12 1 0 0 0wM ENDMethanol Z-matrix C O 1 l1 H 1 l2 2 a1 H 1 l3 2 a2 3 da1 H 1 l3 2 a2 3-da1 H 2 l4 1 a3 3 180.0 l1 1.42 l2 1.09 l3 1.09 l4 1.09 l5 1.09 l6 1.0 a1 109.0 a2 110.0 a3 108.0 a4 110.0 a5 110.0 da1 60.0 da2 120.0 da3 60.0
22、z-matrix50分子芳香性问题w 使用单双键交替表示法导致同一分子有不同的拓扑表示法,以及其它问题w 解决方式:n使用芳香键类型n使用规一化的原子键类型BrBrBrBrBrBrS 51共振结构w 是否看作同一分子?n答案是你期望如何处理w 使用规一化的键型w 使用单双键交替法NHONOHNOH52共振结构w 共振式定义的方法HQX=R Q=XRHQ,X or R只能是特定原子lketo-enol 共振结构CA不能正确识别l单一的不饱和碳链Daylight不能正确识别OHOOHOOHO53结构习惯规则有时称“business rules”n某些化学基团的不同表示法n习惯规则确定哪一种更合适n
23、需要软件进行转换NOON+OO54Stereochemistryw different compounds with identical connectivityw same topology,different topographyS-tyrosineR-tyrosine55立体化学w 不同的表示法n上下键nCahn,Ingold,Prelog(CIP)designators(R,S,E,Z)n基于文本的描述符(光学旋光)56立体化学:上下键w 给图的节点着色n很多连接表格式包含特殊的上下键表示n需要确定连接的原子w 便于生成图形显示w 可以转换成其它手性定义OHCH2NH2OOHOHCH2
24、NH2OOH57上/下键问题w 不同的上/下键表示可能是同一手性分子 n不同的图,相同的分子w 某些上下键组合并不足以确定手性OHCH2NH2OOHOHCH2NH2OOHClFCH3CH2CH358Stereochemistry:CIP designatorsw R.S.Cahn,C.Ingold,and V.Prelog,AngewandteChemieIntl.Ed.inEnglish 1966,5,385-551w one-letter designator for stereocentersnbased on rules assigning priorities to groups a
25、round itntetrahedral carbons(R,S)ndouble bonds(E,Z)w additional colors for graph nodes or edgesnuseful for distinguishing stereoisomers when absolute configuration is knownnless useful for matching parts of structures(substructure search)as priority rules can cause designator to change when remote p
26、art of structure is changed59其它复杂情况w 有机金属和配合物n复杂立体化学n特殊键型n共价或离子键型不确定 l“business rules”w 无机物n没有象有机物类似的明确拓扑关系n部分组成为分数n晶体结构60其它复杂情况Few 氢桥w 二茂铁w 可能的解决方法n键连接任意一个碳原子n键连所有5个碳原子n键连一个环中心的伪原子(dummy atom)61生物大分子w 使用缩写描述基本单元AspHisValCysGlyAlaHisValOHCysArgTrpTyrValTyrAlaArgProAlaAspTyrGlyGlyAlaOH62生物大分子w 每个缩写具有
27、预定义的连接点w 混合表示法w 定义新的缩写TyrNH*OO*OH63聚合物w 聚合物的性质与聚合条件有关n重复单元的平均数目n交联度n不同单体的比例n随机或嵌段共聚w 主要表示法n单体表示n结构重复单元(SRU)表示法64Markush(“Generic”)结构n不同的R-基n一组具有共同特征的结构的简写OHR1R2Br*I*Cl*R1=CH2*CH3CH2*CH2CH3CH2*CH2CH2CH3R2=65Markush结构n又称通用“generic”结构n应用l专利描述l组合库描述l数据库查询66正则命名w 问题的提出?nconnection tablenSMILESw 比较不同分子结构要
28、求一种唯一的或“正则”的表示法w 将输入结构转换成正则表达的过程称“canonicalization”or“canonization”67正则命名w 一种简单的办法:n生成所有SMILES串n选择字符顺序靠前的w 缺点是速度慢,可能漏掉68正则命名w 将原子重新编号n确定CTs中原子的序号n确定SMILES中原子的序号w 驰豫法(Morgans algorithm)69对称性识别和环识别w 结构中包含多少环?w 环识别的重要性n命名生成n芳香性识别n合成重要性识别n片断描述符编码70环系71识别什么样的环?w smallestsetofsmallestrings,SSSRn两个六元环?n一个六
29、元环,一个十元环?n两个五元环?一个五元环,一个六元环?w SSSR不唯一nC-S-C-C-C-CnC-C-C-C-O-CnC-S-C-C-O-CSO72结构片断编码(Fragment Code)n早期的化合物信息系统基于结构片断编码l手工编码l使用打孔卡片检索n某些特殊系统的片断编码l结构的自动编码l在专利系统中处理通用结构“Markush”(e.g.Derwent WPI code)73分子结构指纹w 示例00010100010101000101010011110100n0:没有相应的结构片断n1:有相应的结构片断w 计算机中的存储w 对于分子结构通常称为指纹(fingerprints)74分子结构指纹w 指纹通常长度为150-2,500位w 每一位对应不同的结构片断w 缺陷是结构中如果没有指定片断,其相应的位为零75结构生成w 二维结构自动生成w 三维结构自动生成w 化合物命名自动生成