1、2023-2-71主讲人主讲人:孙孙 啸啸制作人:刘志华制作人:刘志华东南大学东南大学 吴健雄实验室吴健雄实验室2023-2-721、生物信息学生物信息学 孙啸孙啸 东南大学(课程讲义)东南大学(课程讲义)2、生物信息学概论生物信息学概论 罗静初罗静初 北京大学北京大学 北京大学出版社北京大学出版社3、生物信息学生物信息学(863高科技丛书)高科技丛书)赵国平赵国平 中科院上海生命科学院中科院上海生命科学院 科学出版社科学出版社4、生物信息学生物信息学基因和蛋白质分析的使用指南基因和蛋白质分析的使用指南 李衍达李衍达 清华大学清华大学 清华大学出版社清华大学出版社5、生物信息学手册生物信息学手
2、册 郝柏林郝柏林 中科院物理所中科院物理所 上海科学技术出版社上海科学技术出版社6、简明生物信息学简明生物信息学 钟扬钟扬 复旦大学复旦大学 高等教育出版社高等教育出版社2023-2-73http:/ 引言引言 l第二节第二节 生物信息学的发展历史生物信息学的发展历史 l第三节第三节 人类基因组计划和基因组信息学人类基因组计划和基因组信息学 l第四节第四节 蛋白质结构与功能关系的研究蛋白质结构与功能关系的研究l第五节第五节 目前生物信息学主要研究内容目前生物信息学主要研究内容 l第六节第六节 生物信息学所用的方法和技术生物信息学所用的方法和技术2023-2-76生命信息的组织、传递、表达物理化
3、学分子生物学遗传学信息技术2023-2-77HGP生物数据的激增(每15个月翻一番)生物学家数学家计算机科学家生物信息学(bioinfomatics)的诞生2023-2-78生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科 学 2023-2-79生物分子数据深层次生物学知识分子生物信息学Molecular Bioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用2023-2-710生物分子数 据 计算机计 算+2023-2-711细胞分子存贮、复制、传递和表达存贮、复制、传
4、递和表达遗传信息的系统遗传信息的系统生物信息的载体生物信息的载体2023-2-712l生物信息学主要研究两种信息载体生物信息学主要研究两种信息载体DNA分子分子蛋白质分子蛋白质分子2023-2-7132023-2-714Protein Machines 2023-2-715From the Cell to Protein Machines 2023-2-716生物分子至少携带着三种信息生物分子至少携带着三种信息遗传信息遗传信息与功能相关的结构信息与功能相关的结构信息进化信息进化信息2023-2-717 遗传信息的载体主要是DNA 控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是
5、遗传信息的传递和表达 2023-2-718DNA通过自我复制,在生物体的繁衍过程中传递遗传信息 基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。基因控制着蛋白质的合成 DNARNA蛋白质转录翻译2023-2-719基因的DNADNA序列序列DNA前体RNAmRNA多肽链多肽链蛋白质序列对对应应关关系系遗遗传传密密码码2023-2-720l蛋白质蛋白质功能功能取决于蛋白质的空间取决于蛋白质的空间结构结构 l蛋白质结构决定于蛋白质的蛋白质结构决定于蛋白质的序列序列(这是(这是目前基本共认的假设),蛋白质结构的目前基本共认的假设),蛋白质结构的信息隐含在蛋白质
6、序列之中。信息隐含在蛋白质序列之中。2023-2-721l通过比较通过比较相似的蛋白质序列相似的蛋白质序列,如肌红蛋,如肌红蛋白和血红蛋白,可以发现由于基因复制白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。而产生的分子进化证据。l通过比较来自于不同种属的同源蛋白质,通过比较来自于不同种属的同源蛋白质,即即直系同源蛋白质直系同源蛋白质,可以分析蛋白质甚,可以分析蛋白质甚至种属之间的系统发生关系,推测它们至种属之间的系统发生关系,推测它们共同的祖先蛋白质。共同的祖先蛋白质。2023-2-722生物分子信息DNA序列数据 蛋白质序列数据 生物分子结构数据 生物分子功能数据 最基本直观复杂生
7、物分子数据类型生物分子数据类型2023-2-723 DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化生物分子数据及其关系生物分子数据及其关系2023-2-724l第一部遗传密码已被破译,但对密码的第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数转录过程还不清楚,对大多数DNA非编非编码区域的功能还知之甚少码区域的功能还知之甚少l 对于第二部密码,目前则只能用统计学对于第二部密码,目前则只能用统计学的方法进行分析的方法进行分析l无论是第一部遗传密码,还是第二部遗无论是第一部遗传密码,还是第二部遗传
8、密码,都隐藏在大量的生物分子数据传密码,都隐藏在大量的生物分子数据之中。之中。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。2023-2-725l生物分子信息数据量大生物分子信息数据量大 l生物分子信息复杂生物分子信息复杂 l生物分子信息之间存在着密切的联系生物分子信息之间存在着密切的联系2023-2-726l 收集和管理生物分子数据收集和管理生物分子数据l 数据分析和挖掘数据分析和挖掘l 开发分析工具和实用软件开发分析工具和实用软件生物分子序列比较工具生物分子序列比较工具基因识别工具基因识别工具生物分子结构预测
9、工具生物分子结构预测工具基因表达数据分析工具基因表达数据分析工具 2023-2-727 实验 数据 信息 知识 收集 表示 分析 建模 刻画特征 比较 推理 应 用基因工程蛋白质设计疾病诊断疾病治疗开发新药生物分子信息处理流程2023-2-728lGenBank核酸序列数据库核酸序列数据库 lSWISS-PROT蛋白质序列数据库蛋白质序列数据库 lPDB生物大分子结构数据库生物大分子结构数据库 2023-2-729数据源数据源数据量数据量生物信息学任务生物信息学任务DNA序列11.5百万条序列125.0 亿个碱基 分离编码与非编码区域识别内含子与外显子基因产物预测基因功能注释基因调控信息分析
10、蛋白质序列40.0万条序列(每条序列平均有300氨基酸)序列比较多重序列比对识别保守的序列模式进化分析 大分子结构1.5 万个结构(每个结构平均1000个原子坐标)二级结构、空间结构预测三维结构比对蛋白质几何学度量表面和形态计算分子间相互作用分析分子模拟 基因组300个基因组 标注重复序列基因结构分析系统发生分析基因与疾病的连锁分析基因组比较遗传语言分析 基因表达酵母6000个基因在约20时间点表达值 达模式相关分析基因表基因调控网络分析表达调控信息分析 2023-2-730l认识生物本质认识生物本质 了解生物分子信息的组织和结构,破译基因了解生物分子信息的组织和结构,破译基因组信息,阐明生物
11、信息之间的关系。组信息,阐明生物信息之间的关系。l改变生物学的研究方式改变生物学的研究方式 改变传统研究方式,引进现代信息学方法改变传统研究方式,引进现代信息学方法l在医学上的重要意义在医学上的重要意义 为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据 为设计新药提供依据为设计新药提供依据生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心 2023-2-731n 破译遗传语言、识别基因破译遗传语言、识别基因n 预测蛋白质结构和功能预测蛋白质结构和功能n 认识生物界信息存贮和传递的本质认识生物界信息存贮和传递的本质n 研究药物作用机制和开发新药研究药物作用机制和开发新药2023
12、-2-732生物信息学基本思想的产生 生物信息学 的迅速发展二十世纪50年代二十世纪80-90年代生物科学和技术的发展人类基因组计划的推动 2023-2-733n20世纪世纪50年代,生物信息学开始孕育年代,生物信息学开始孕育n20世纪世纪60年代,生物分子信息在概念上将计算年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来生物学和计算机科学联系起来n20世纪世纪70年代,生物信息学的真正开端年代,生物信息学的真正开端n20世纪世纪70年代到年代到80年代初期年代初期,出现了一系列著,出现了一系列著 名的序列比较方法和生物信息分析方法名的序列比较方法和生物信息分析方法 n20世纪世纪
13、80年代以后,出现一批生物信息服务机年代以后,出现一批生物信息服务机 构和生物信息数据库构和生物信息数据库n20世纪世纪90年代后年代后,HGP促进生物信息学的迅速促进生物信息学的迅速 发展发展2023-2-734关于生物信息学发展历程中的重要大事,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:请参见下面两个网站的介绍:http:/www.ncbi.nlm.nih.gov/Education/BLASTinfo/milestones.html、http:/www.biosino.org/bioinformatics/。2023-2-735生物信息学国内外发展现状生物信息学国内外
14、发展现状PubMed中与生物信息学相关论文统计 90002%2023-2-7361、人类基因组计划简介、人类基因组计划简介 人类基因组计划准备用人类基因组计划准备用15年时间,年时间,投入投入30亿美元,完成人类全部亿美元,完成人类全部24条条染色体的染色体的3109脱氧核苷酸对脱氧核苷酸对(bp)的序列测定,主要任务包括作图的序列测定,主要任务包括作图(遗传图谱、物理图谱的建立及转遗传图谱、物理图谱的建立及转录图谱的绘制录图谱的绘制)、测序和基因识别。、测序和基因识别。其中还包括模式生物其中还包括模式生物(如大肠杆菌、如大肠杆菌、酵母、线虫、小鼠等酵母、线虫、小鼠等)基因组的作基因组的作图和
15、测序,以及信息系统的建立。图和测序,以及信息系统的建立。作图作图和和测序测序是基本的任务,在此基是基本的任务,在此基础上解读和破译生物体生老病死以础上解读和破译生物体生老病死以及和疾病相关的遗传信息及和疾病相关的遗传信息2023-2-737基因组基因组 一个物种中所有基因的整体组成一个物种中所有基因的整体组成2023-2-738人类基因组构成人类基因组构成24条染色体和线粒体条染色体和线粒体2023-2-739n遗传图谱遗传图谱n物理图谱物理图谱 n序列图谱序列图谱n转录图谱转录图谱2023-2-7402023-2-741l遗传图谱(遗传图谱(genetic map)又称连锁图谱)又称连锁图谱
16、(linkage map),它是以具有遗传多态性(在一,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于体中的出现频率皆高于1%)的遗传标记为)的遗传标记为“路标路标”,以遗传学距离(在减数分裂事件中,以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,两个位点之间进行交换、重组的百分率,1%的重组率称为的重组率称为1cM)为图距的基因组图。遗传)为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了图谱的建立为基因识别和完成基因定位创造了条件。条件。2023-2-742间期间期前期前期 I同源
17、染色体同源染色体形成配对形成配对中期中期 I晚期晚期 I发生交换发生交换前期前期 II中期中期 II晚期晚期 II末期末期 II配子配子n遗传连锁图:通遗传连锁图:通过计算连锁的遗过计算连锁的遗传标志之间的重传标志之间的重组频率,确定它组频率,确定它们的相对距离,们的相对距离,一般用厘摩(一般用厘摩(cM,即每次减数分裂即每次减数分裂的重组的重组频率为频率为1%)表示。表示。2023-2-743l物理图谱(物理图谱(physical map)是指有关构成)是指有关构成基因组的全部基因的排列和间距的信息,基因组的全部基因的排列和间距的信息,它是通过对构成基因组的它是通过对构成基因组的DNA分子进
18、行分子进行测定而绘制的。绘制物理图谱的目的是测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条染色把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列出来。体上的相对位置线性而系统地排列出来。2023-2-744n1998 年完成了具有年完成了具有52,000个序列标签位点个序列标签位点(STS),并,并覆覆盖人类基因组大部分区域的连续克隆系的物理图谱。盖人类基因组大部分区域的连续克隆系的物理图谱。细菌人工染色体细菌人工染色体(80300 kb)酵母人工染色体酵母人工染色体(数百(数百 2000 kb)中心粒中心粒一对紧密一对紧密相邻的标志相邻的标志一对相邻一对相邻较
19、远的标志较远的标志染色体图染色体图2023-2-745l随着遗传图谱和物理图谱的完成,测序随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。就成为重中之重的工作。DNA序列分析序列分析技术是一个包括制备技术是一个包括制备DNA片段化及碱基片段化及碱基分析、分析、DNA信息翻译的多阶段的过程。信息翻译的多阶段的过程。通过测序得到基因组的序列图谱通过测序得到基因组的序列图谱 2023-2-746 Megabace 测序仪测序仪3700 测序仪测序仪2023-2-747n逐个克隆法:对连续克逐个克隆法:对连续克隆系中排定的隆系中排定的BAC克隆克隆逐个进行亚克隆测序并逐个进行亚克隆测序并进行组
20、装(公共领域测进行组装(公共领域测序计划)序计划)n全基因组鸟枪法:在一全基因组鸟枪法:在一定作图信息基础上,绕定作图信息基础上,绕过大片段连续克隆系的过大片段连续克隆系的构建而直接将基因组分构建而直接将基因组分解成小片段随机测序,解成小片段随机测序,利用超级计算机进行组利用超级计算机进行组装(美国装(美国Celera公司)公司)2023-2-7482023-2-7492023-2-750l转录图谱是在识别基因组所包含的蛋白转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。因序列、位置及表达模式等信息的图谱
21、。2023-2-751通过定位克隆技术寻找疾病基因的过程通过定位克隆技术寻找疾病基因的过程 2023-2-752l 基因识别(基因识别(gene identification)是)是HGP的重要的重要内容之一,其目的是识别全部人类的基因。内容之一,其目的是识别全部人类的基因。l 基因识别包括:基因识别包括:l识别基因组编码区识别基因组编码区l识别基因结构识别基因结构l 基因识别目前常采用的有二种方法:基因识别目前常采用的有二种方法:l从基因组序列中识别那些转录表达的从基因组序列中识别那些转录表达的DNA片段片段l从从cDNA文库中挑取并克隆。文库中挑取并克隆。2023-2-753酵母大肠杆菌果
22、蝇线虫老鼠2023-2-754l对致病基因的克隆也是人类基因组计划对致病基因的克隆也是人类基因组计划的内容。的内容。l疾病与基因直接或间接相关,通过生物疾病与基因直接或间接相关,通过生物学、医学等技术对相关基因进行抑制或学、医学等技术对相关基因进行抑制或调控,即可达到治疗某一疾病的效果。调控,即可达到治疗某一疾病的效果。l如果掌握了与某种疾病相关的基因及突如果掌握了与某种疾病相关的基因及突变,则可以对该疾病进行预测、诊断,变,则可以对该疾病进行预测、诊断,甚至治疗。甚至治疗。2023-2-755基因变异与疾病基因变异与疾病2023-2-756基因组多态性基因组多态性2023-2-7572023
23、-2-758l人类基因组计划为我们研究生物信息的组织、人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。对自身有一个根本的了解。l人类是最高级、最复杂、最重要的生物,如果人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就搞清楚人类基因组,那么再研究其它的生物就容易得多。容易得多。l研究多种模式生物基因组将有助于研究地球生研究多种模式生物基因组将有助于研究地球生物的进化史。物的进化史。2023-2-7596/1-8/31/99NoCenterRegionSize(Mb)Ac
24、tual KGenbank KrProjected Kr4/1-11/30/99Proj Accum.Mr.4/99-3/001Sanger Centre1,6,9,10,13,20,22,X85013009414200122WIBR(Clones from Wash U)837296290083Wash U2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1,2,3,X2304622616603.16Riken21,18,11q1601361955202.17IMB8,21,X50180321801.58G
25、enoscopeMost of 14851001183001.49U.Wash(Olson)10 Beijing3p3012.512.51000.511 GTC(Smith)105051500.4512 MPIMG17,21,X6.94012400.313 GBF21,reg of 96500.314 Stanford(Davis)8231370.2915 Keio2,6,8,22,213011751100.2316 U.Wash(Hood LAB)14,15267127400.17Total2671Mb4663Kr2950Kr13687Kr32.64Mr2023-2-760又一次成功!又一次
26、成功!水稻基因研究水稻基因研究袁隆平袁隆平 杨焕明杨焕明 江泽民江泽民 .2023-2-761l随着实验数据和可利用信息急剧增加,随着实验数据和可利用信息急剧增加,信息的管理和信息的管理和分析分析成为成为HGP的一项重要的工作的一项重要的工作 发现生物学规律,解读生物遗传密码认识生命的本质研究基因组数据之间的关系分析现有的基因组数据利用数学模型和人工智能技术2023-2-7622023-2-763l HGP即将完成,我们即将进入即将完成,我们即将进入“后基因组后基因组学学”(post-genomics)时代时代l 基因组学研究重心已开始从揭示生命的所有遗基因组学研究重心已开始从揭示生命的所有遗
27、传信息转移到在传信息转移到在分子整体水平对功能的研究分子整体水平对功能的研究上上,即功能基因组学(即功能基因组学(functional genomics)l 功能基因组的任务是功能基因组的任务是进行基因组功能注释(进行基因组功能注释(Genome annotation)认识基因与疾病的关系认识基因与疾病的关系掌握基因的产物及其在生命活动中的作用掌握基因的产物及其在生命活动中的作用2023-2-764l进一步识别基因,识别基因转录调控信息,分进一步识别基因,识别基因转录调控信息,分析遗传语言。析遗传语言。l注释所有基因产物的功能,这是目前基因组功注释所有基因产物的功能,这是目前基因组功能注释的主
28、要层次。能注释的主要层次。l研究基因的表达调控机制,研究基因在生物体研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。的相互作用关系,绘制基因调控网络图。l比较基因组学研究,在基因组水平对各个生物比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。发现蛋白质功能。2023-2-765人类基因组与其它生物基因组比较人类基因组与其它生物基因组比较2023-2-7662023-2-767Structure&Fun
29、ctionPathways&PhysiologyPopulations&EvolutionEcosystemsGenomesGene Products2023-2-768未来的药物研究过程将是基于生物信息知未来的药物研究过程将是基于生物信息知识挖掘的过程识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子针对靶目标进行合理的药物设计2023-2-769l基因组计划产生的基因及基因多态性数基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要据与临床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示利用生物信息学的方法去分析、去揭示l根据这样的分析结果,科学家能够
30、更准根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确确地了解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式治疗和预防疾病的方式 2023-2-770蛋白质结构 蛋白质序列 蛋白质功能关系 2023-2-771l 基因组计划的不断推进,其结果不仅导致基因组计划的不断推进,其结果不仅导致DNA序列数序列数据的迅速增长,也导致蛋白质序列数据的迅速增长。据的迅速增长,也导致蛋白质序列数据的迅速增长。l 生物信息学在蛋白组学研究中的主要任务是产生和分
31、生物信息学在蛋白组学研究中的主要任务是产生和分析蛋白质的结构,并将结构知识应用于生物学、医学、析蛋白质的结构,并将结构知识应用于生物学、医学、药学等生命科学领域。药学等生命科学领域。l 蛋白质空间结构预测。蛋白质空间结构预测。l 蛋白质结构是合理药物分子设计的基础。蛋白质结构是合理药物分子设计的基础。l 蛋白质结构是蛋白质工程的基础。蛋白质结构是蛋白质工程的基础。2023-2-7722023-2-773生物信息学研究蛋白质结构及功能关系 研究蛋白质的进化问题,研究不同蛋白质之间的进化关系 研究蛋白质的性质 2023-2-7741、生物分子数据的收集与管理生物分子数据的收集与管理2、数据库搜索及
32、序列比较数据库搜索及序列比较 3、基因组序列分析基因组序列分析 4、基因表达数据的分析与处理、基因表达数据的分析与处理 5、蛋白质结构预测、蛋白质结构预测 2023-2-775基因组数据库 蛋白质序列数据库 蛋白质结构数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR2023-2-776l搜索同源序列在一定程度上就是通过序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列寻找相似序列 l序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对(Alignment),即将两个序列的各个字符),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同(代表核
33、苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种列共有的排列顺序,这是序列相似程度的一种定性描述定性描述l多重序列比对多重序列比对研究的是多个序列的共性。序列研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。也可用于研究一组蛋白质之间的进化关系。2023-2-7772023-2-778l遗传语言分析遗传语言分析天书天书 l基因组结构分析基因组结构分析l基因识别基因识别l基因功能注释基因功能注释
34、l基因调控信息分析基因调控信息分析l基因组比较基因组比较2023-2-779l 基因表达数据分析是目前生物信息学研究的基因表达数据分析是目前生物信息学研究的热热 点和重点点和重点 l 目前对基因表达数据的处理主要是进行聚类分目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能 l 所用方法主要有:所用方法主要有:相关分析方法相关分析方法 模式识别技术中的层次式聚类方法模式识别技术中的层次式聚类方法 人工智能中的自组织映射神经网络人工智能中的自组织映射神经网络
35、主元分析方法主元分析方法 2023-2-780基因芯片基因芯片2023-2-7812023-2-7822023-2-783层次式聚类层次式聚类2023-2-7842023-2-785l 蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径。白质结构预测成为了解蛋白质功能的重要途径。l 蛋白质结构预测分为蛋白质结构预测分为:二级结构预测二级结构预测 空间结构预测空间结构预测 蛋白质折叠蛋白质折叠2023-2-786l 在一定程度上二级结构的预测可以归结为在一定程度上二级结构的预测可以归结为模式识别问题模式识别问题 l 在二级结构
36、预测方面主要方法有:在二级结构预测方面主要方法有:立体化学方法立体化学方法 图论方法图论方法 统计方法统计方法 最邻近决策方法最邻近决策方法 基于规则的专家系统方法基于规则的专家系统方法 分子动力学方法分子动力学方法 人工神经网络方法人工神经网络方法 l 预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHD系统系统2023-2-787l在空间结构预测方面,比较成功的理论方法是同源模型法 l该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构 l运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作 2023-2-7881、数学统计
37、方法数学统计方法 2、动态规划方法、动态规划方法 3、机器学习与模式识别技术、机器学习与模式识别技术 4、数据库技术及数据挖掘、数据库技术及数据挖掘 5、人工神经网络技术、人工神经网络技术6、专家系统、专家系统 7、分子模型化技术、分子模型化技术8、量子力学和分子力学计算、量子力学和分子力学计算 9、生物分子的计算机模拟、生物分子的计算机模拟10、因特网(、因特网(Internet)技术)技术 2023-2-789l生物活动常常以大量、重复的形式出现,既受生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学
38、统计是现代生物学研究扰。因此概率论和数学统计是现代生物学研究中一种常用的分析方法中一种常用的分析方法 l数据统计、因素分析、多元回归分析是生物学数据统计、因素分析、多元回归分析是生物学研究必备的工具研究必备的工具l隐马尔科夫模型(隐马尔科夫模型(Hidden Markov Models)在)在序列分析方面有着重要的应用。与隐马尔科夫序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(模型相关的技术是马尔科夫链(Markov Chain)2023-2-790l动态规划(动态规划(Dynamic Programming)是)是一种解决多阶段决策过程的最优化方法一种解决多阶段决策过程
39、的最优化方法或复杂空间的优化搜索方法或复杂空间的优化搜索方法 l动态规划解决问题的基本过程是:将一动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推推求出局部最优解,随着执行过程的推进,进,“局部局部”逐渐接近逐渐接近“全局全局”,最终,最终获得全局最优解获得全局最优解 2023-2-791l机器学习机器学习机器学习是模拟人类的学习过程,以计算机为工具机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验获取知识、积累经验 l1、遗传算法遗传算法采用随机搜索方法,具有自适应能力和便于采用随机搜索方法,
40、具有自适应能力和便于并行计算并行计算 l2、神经网络神经网络的理论是基于人脑的结构,其目的是揭示一的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义个系统是如何向环境学习的,这一种方法被称为联接主义。l模式识别模式识别模式识别是机器学习的一个主要任务。模式是对感模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是兴趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客利用计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中体归入同种类别中模式识别主要有两种方法模式识别主要有两种方法:l
41、根据对象的统计特征进行识别,根据对象的统计特征进行识别,l根据对象的结构特征进行识别根据对象的结构特征进行识别 2023-2-792环境学习知识库执行机器学习系统的基本结构机器学习系统的基本结构 反反 馈馈2023-2-793l 数据库技术数据库技术 数据仓库数据仓库 虚拟数据库技术(虚拟数据库技术(Virtual Database,简称,简称 VDB)l 数据挖掘(数据挖掘(data mining)又称作数据库中的知识发现又称作数据库中的知识发现(Knowledge Discovery in Database),它是从数据库或数据仓库中发现并提,它是从数据库或数据仓库中发现并提取隐藏在其中的
42、信息的一种新技术,它能自动分析取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据间数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预测内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式和决策行为起着十分重要作用的模式 数据挖掘过程一般分为数据挖掘过程一般分为4个基本步骤:数据选择、个基本步骤:数据选择、数据转换、数据挖掘和结果分析数据转换、数据挖掘和结果分析 2023-2-794l人工神经网络(人工神经网络(Artificial Neural Network,简简称称ANN)是通过模拟神经元的特性
43、以及脑的大)是通过模拟神经元的特性以及脑的大规模并行结构、信息的分布式和并行处理等机规模并行结构、信息的分布式和并行处理等机制建立的一种数学模型制建立的一种数学模型 l在生物信息学中,使用得最多的是在生物信息学中,使用得最多的是反向传播神反向传播神经网络经网络(Back Propagation Neural Network,简称简称BP网网)。)。BP网被认为是稳定性和鲁棒性网被认为是稳定性和鲁棒性较强的人工神经网络之一,而且属于有监督学较强的人工神经网络之一,而且属于有监督学习的网络模型。标准的习的网络模型。标准的BP网由三层神经元组网由三层神经元组成:输入层、隐藏层和输出层成:输入层、隐藏
44、层和输出层 2023-2-795输入层隐藏层输出层2023-2-796l 专家系统(专家系统(Expert System)是一种基于知识的智能系统,它将领)是一种基于知识的智能系统,它将领域专家的经验用一定的知识表示方法表示出来,并放入知识库中,域专家的经验用一定的知识表示方法表示出来,并放入知识库中,供推理机使用供推理机使用 l 知识库知识库是专家系统的第一重要组成部分,知识库中的知识通常分是专家系统的第一重要组成部分,知识库中的知识通常分为两类:为两类:一类领域的事实性知识,或广泛公用的知识一类领域的事实性知识,或广泛公用的知识 另一类是启发性知识,是领域专家在长期研究和实践过程中另一类是
45、启发性知识,是领域专家在长期研究和实践过程中 积累起来的经验总结积累起来的经验总结l 知识获取方式大致上可以分为两种:知识获取方式大致上可以分为两种:一种是由知识工程师向领域专家询问有关知识,经过整理编一种是由知识工程师向领域专家询问有关知识,经过整理编 辑后将知识转换成计算机表示形式,送入知识库辑后将知识转换成计算机表示形式,送入知识库 另一种是针对大量数据进行机器学习,分析、总结和抽取出另一种是针对大量数据进行机器学习,分析、总结和抽取出 有用的新知识,这是更高层次的知识获取方式。有用的新知识,这是更高层次的知识获取方式。l 专家系统的另一个重要部分是专家系统的另一个重要部分是推理机推理机
46、,由它来控制和,由它来控制和 协调整个系统,并根椐当前输入的数据和知识,按一定的推理策协调整个系统,并根椐当前输入的数据和知识,按一定的推理策 略,去解决当前的问题,推导出结论略,去解决当前的问题,推导出结论 2023-2-797知识库 使 用 界 面解释机构推 理 机知识获取知识库数据库领域专家用 户AI专家专家系统的基本结构专家系统的基本结构2023-2-798l分子模型化(分子模型化(Molecular modeling)是利用计)是利用计算机模拟分子结构、研究分子之间相互作用的算机模拟分子结构、研究分子之间相互作用的一种技术一种技术l分子模型化是进行分子设计的基础。分子图形分子模型化是
47、进行分子设计的基础。分子图形学(学(Molecular Graphics)是进行分子模型化)是进行分子模型化的一项重要技术,正是由于分子图形学和其它的一项重要技术,正是由于分子图形学和其它计算化学方法(如分子力学、分子动力学)的计算化学方法(如分子力学、分子动力学)的相互结合,才使得分子模型化方法取得成功相互结合,才使得分子模型化方法取得成功2023-2-7992023-2-7100l量子力学主要研究原子、分子、凝聚态物质、量子力学主要研究原子、分子、凝聚态物质、以及原子核和基本粒子的结构、性质的基础理以及原子核和基本粒子的结构、性质的基础理论,在化学等有关学科中得到了广泛的应用论,在化学等有
48、关学科中得到了广泛的应用 l分子力学(分子力学(Molecular Mechanics)方法是一种)方法是一种非量子力学的计算分子结构、能量与性质的方非量子力学的计算分子结构、能量与性质的方法,该方法应用经验势能函数,即经验力场方法,该方法应用经验势能函数,即经验力场方法模拟分子的结构,计算分子的性质法模拟分子的结构,计算分子的性质 l在进行分子结构分析、构象优化、分子间相互在进行分子结构分析、构象优化、分子间相互作用研究及分子模拟时需要应用量子力学或分作用研究及分子模拟时需要应用量子力学或分子力学子力学 2023-2-7101l所谓生物分子的计算机模拟就是从分子所谓生物分子的计算机模拟就是从
49、分子或者原子水平上的相互作用出发,建立或者原子水平上的相互作用出发,建立分子体系的数学模型,利用计算机进行分子体系的数学模型,利用计算机进行模拟实验,预测生物分子的结构和功能,模拟实验,预测生物分子的结构和功能,预测动力学及热力学等方面的性质预测动力学及热力学等方面的性质l分子动力学和蒙特卡罗方法(分子动力学和蒙特卡罗方法(Monte Carlo method)是两种最常用的技术,)是两种最常用的技术,另一种模拟方法是模拟退火方法另一种模拟方法是模拟退火方法 2023-2-7102 反馈,改进模型 实 验实验现象数学模型计算机模 拟模拟结果分析 新的设想计算机模拟实验计算机模拟实验 产生设计解释2023-2-7103lInternet已经成为生物学研究的平台,同已经成为生物学研究的平台,同时也成为分子生物学研究人员进行信息时也成为分子生物学研究人员进行信息交流特别是生物分子数据的交流的场所交流特别是生物分子数据的交流的场所通过网络查询或搜索所需要的生物信息,使通过网络查询或搜索所需要的生物信息,使用分析工具用分析工具 将所要处理的数据直接送到相应的网络服务将所要处理的数据直接送到相应的网络服务器上,服务器接受你的处理请求,并将处理器上,服务器接受你的处理请求,并将处理结果返回结果返回 2023-2-7104