1、生物信息学教材n赵国屏赵国屏 生物信息学生物信息学 科学出版社科学出版社考核方法n平时成绩平时成绩n作业作业n考试考试Introduction to Bioinformatics生物科学的发展阶段n描述生物学阶段(描述生物学阶段(19世纪世纪中期以前)中期以前)n主要从形态特征观察描述、主要从形态特征观察描述、记载各种类型生物,寻找记载各种类型生物,寻找他们之间的异同和进化脉他们之间的异同和进化脉络络n代表人物,达尔文代表人物,达尔文n1859年,年,物种起源物种起源实验生物学阶段(19世纪中20世纪中)n利用各种仪器工具,通过实利用各种仪器工具,通过实验过程探索生命活动的内在验过程探索生命活
2、动的内在规律规律n代表人物,代表人物,孟德尔孟德尔n1866年,年,植物杂交试验植物杂交试验 分子生物学阶段(20世纪中期以后)n代表人物,代表人物,沃森和克里克沃森和克里克nDNA双螺旋模型双螺旋模型n1962年,诺贝尔生理学奖年,诺贝尔生理学奖n整个生物界是一个多层次的有序结构:整个生物界是一个多层次的有序结构:细胞细胞 组织组织 器官器官 系统系统 个体个体 生态系统 群落 种群引自J Postlethwait&J Hopson著The Nature of Life,1989从基本粒子到生物圈从基本粒子到生物圈Half day on the web,half month in the l
3、ab.saves you-Alan Bleasby2000年年2月月2日日,北京大学燕北园300多位教师的家用计算机接入Internet;2001年年2月月12日日,北京大学2000多个本科生宿舍的计算机接入Internet.2022-11-11一、概述n二十一世纪是生命科学的时代,也是信息时代二十一世纪是生命科学的时代,也是信息时代 n近年来,随着现代分子生物学的发展,特别是人类基组计近年来,随着现代分子生物学的发展,特别是人类基组计划的实施,不断产生出巨量的分子生物学数据,这些数据划的实施,不断产生出巨量的分子生物学数据,这些数据有着数量巨大、关系复杂,以至于不利用计算机根本无法有着数量巨
4、大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。独立的学科并被推上了生物科学发展的最前沿。Bioinformatics:科技界一颗耀眼的新星n在在BIOINFORMATICS 没有诞生之前,没有诞生之前,一个新药的问世需一个新药的问世需要十年时间,数亿美元的要十年时间,数亿美元的R&D,而,而BIOINFORMATICS已已将这个过程减少三分之二,将这个过程减少三分之二,R&D的费用也相应大大减少。的费用也相应大大减少。许多中小许多中小BIOTECH 公司也看到
5、了公司也看到了BIOINFORMATICS 的的巨大作用和潜在的商机,纷纷投资巨大作用和潜在的商机,纷纷投资BIOINFORMATICS 研研究项目。究项目。生物信息学一、什么是生物信息学?一、什么是生物信息学?二、生物信息学门户网站二、生物信息学门户网站三、生物信息数据库三、生物信息数据库四、数据库查询和数据库搜索四、数据库查询和数据库搜索五、序列的同源比较五、序列的同源比较六、生物信息学应用六、生物信息学应用生 物 信 息 学 概 论n主要介绍的内容:什么是生物信息学?生物信息学的研究内容和科学目标。生物信息学的发展历史国内外生物信息学的研究历史和现状。一.什么是生物信息学?nGenome
6、 informatics is a scientific discipline that encompasses all aspects of genome information acquisition,processing,storage,distribution,analysis,and interpretation.它是一个学科领域,包含着基因组信息的获取、处理、它是一个学科领域,包含着基因组信息的获取、处理、存储、分配存储、分配 、分析和解释的所有方面。、分析和解释的所有方面。(The U.S.Human Genome Project:The First Five Years FY
7、1991-1995,by NIH and DOE)早在早在1956年,在美国田纳西州盖特林堡召开的首次年,在美国田纳西州盖特林堡召开的首次“生物学生物学中的信息理论研讨会中的信息理论研讨会”上,便产生了生物信息学的概念。上,便产生了生物信息学的概念。1987年,林华安博士正式把这一学科命名为年,林华安博士正式把这一学科命名为“生物信息学生物信息学”(Bioinformatics)。被尊称为)。被尊称为“生物信息学之父生物信息学之父”。生物信息学的诞生和发展生物信息学的诞生和发展生物信息学的诞生和发展生物信息学的诞生和发展n随着人类基因计划过程中出现的爆炸性增长的序列信息加随着人类基因计划过程中
8、出现的爆炸性增长的序列信息加速了生物信息学的发展,促进了生物信息学这一门学科的速了生物信息学的发展,促进了生物信息学这一门学科的发展。发展。n分子生物学和遗传学的文献积累从分子生物学和遗传学的文献积累从60年代中期的接近年代中期的接近10万万篇迅速增长至篇迅速增长至60年代末期的年代末期的20多万篇,即在多万篇,即在3-4年间,翻了年间,翻了一番。一番。n此后,至此后,至80年代中期,上升至约年代中期,上升至约30万篇,即平均每年增长万篇,即平均每年增长6-7千篇。千篇。n至至90年代中期,文献数已上升至年代中期,文献数已上升至40多万篇;即在多万篇;即在10年中,年中,平均每年增长平均每年增
9、长1万篇。万篇。n到到2000年,则增长至约年,则增长至约50万篇,即在约万篇,即在约5年间,又增长了年间,又增长了10万篇(根据万篇(根据http:/www.ncbi.nlm.nih.gov有关有关PubMed数数据整理)。据整理)。n美国的核酸数据库美国的核酸数据库GenBankBanson,D.A.et al.(1998)Nucleic Acids Res.26,1-7从从1979年开始建设,年开始建设,1982年正年正式运行;式运行;n欧洲分子生物学实验室的欧洲分子生物学实验室的EMBL数据库也于数据库也于1982年开始服年开始服务;务;n日本于日本于1984年开始建立国家级的核酸数据
10、库年开始建立国家级的核酸数据库DDBJ,并于,并于1987年正式服务。年正式服务。n从那个时候以来,从那个时候以来,DNA序列的数据已经从序列的数据已经从80年代初期的百年代初期的百把条序列,几十万碱基上升至现在的把条序列,几十万碱基上升至现在的110亿碱基!这就是亿碱基!这就是说,在短短的约说,在短短的约18年间,数据量增长了近十万倍。年间,数据量增长了近十万倍。n近年来近年来GenBank中的中的DNA碱基数目呈指数增加,大约每碱基数目呈指数增加,大约每14个月增加一倍。到个月增加一倍。到1999年年12月其数目已达月其数目已达30亿,它们来亿,它们来自自47000种生物。种生物。2000
11、年年4月月DNA碱基数目是碱基数目是60亿。亿。2001年年初这一数目已达初这一数目已达110亿。亿。计算机运算速度计算机运算速度:18个月增长一倍个月增长一倍;DNA序列数据序列数据:14个月增长一倍个月增长一倍;分析、筛选大量新数据分析、筛选大量新数据理论生物学理论生物学计算生物学计算生物学传统生物学:实验科学现代生物学的发展:海量数据 难以完全依赖实验手段对新数据进行分析,必难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选须借助计算机实现分析和筛选n生物信息学是一门新兴的、正在迅速发展的交叉学科,国内生物信息学是一门新兴的、正在迅速发展的交叉学科,国内外对生物信息学的定
12、义众说纷纭。外对生物信息学的定义众说纷纭。n美国国家基因组研究中心美国国家基因组研究中心nBioinformatics is an emerging scientific discipline representing the combined power of biology,mathematics,and computers.n美国乔治亚理工大学美国乔治亚理工大学nBioinformatics is an integration of mathematical,statistical and computer methods to analyze biological,biochemica
13、l and biophysical data.生物信息学的概念生物信息学的概念n美国密苏里大学美国密苏里大学nBioinformatics is the science and technology about learning,managing and processing biological information.n美国加利福尼亚大学洛杉矶分校美国加利福尼亚大学洛杉矶分校nBioinformatics is the study of the inherent structure of biological information and biological systems.It br
14、ings together the avalanche of systematic biological data with the analytic theory and practical tools of mathematics and computer science.n生物信息学(生物信息学(bioinformatics)是生物学与计算机科学以)是生物学与计算机科学以及应用数学等学科相互及应用数学等学科相互交叉交叉而形成的一门新兴学科。它通而形成的一门新兴学科。它通过对过对生物学实验数据的获取、加工、存储、检索与分析,生物学实验数据的获取、加工、存储、检索与分析,进而达到揭示数据所蕴
15、含的生物学意义的目的。进而达到揭示数据所蕴含的生物学意义的目的。生物信息学的概念生物信息学的概念生物信息学是多学科交叉产生的一门新兴学科生物信息学是多学科交叉产生的一门新兴学科生物信息学的概念生物信息学的概念n在推动生物信息学发展的各种动力中,人类基因组计划在推动生物信息学发展的各种动力中,人类基因组计划(HGP)和生物医药工业是其中的两个主要力量。现代分)和生物医药工业是其中的两个主要力量。现代分子生物学的发展,特别是子生物学的发展,特别是人基因组计划人基因组计划的实施,使生物学的实施,使生物学家所面对的数据不再是实验记录本上或文献上的几行简单家所面对的数据不再是实验记录本上或文献上的几行简
16、单数字,而是公共数据库中数以千兆计的记录。数字,而是公共数据库中数以千兆计的记录。n由于当前生物信息学发展的主要推动力来自由于当前生物信息学发展的主要推动力来自分子生物学分子生物学,生物信息学的研究主要集中于生物信息学的研究主要集中于核苷酸和氨基酸序列核苷酸和氨基酸序列的存储、的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:地定义为:将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。生物信息学的概念生物信息学的概念n生物信息学(生物信息学(Bioi
17、nformatics)是一门新兴的交叉学科。是一门新兴的交叉学科。很多人会认为:生物信息学既涉及生物又涉及计算机科学,很多人会认为:生物信息学既涉及生物又涉及计算机科学,一定是一个内容十分广泛的学科领域。其实它的内涵十分一定是一个内容十分广泛的学科领域。其实它的内涵十分具体,范围非常明确。具体,范围非常明确。生物信息学的概念生物信息学的概念n生物信息学是伴随基因组研究而产生的,因此它的研究内生物信息学是伴随基因组研究而产生的,因此它的研究内容就紧随着基因组研究而发展。容就紧随着基因组研究而发展。n广义地说,生物信息学从事对基因组研究相关生物信息的广义地说,生物信息学从事对基因组研究相关生物信息
18、的获取、加工、储存、分配、分析和解释,并综合运用数学、获取、加工、储存、分配、分析和解释,并综合运用数学、计算机科学和生物学工具,以达到理解数据中的生物学含计算机科学和生物学工具,以达到理解数据中的生物学含义的目标。义的目标。n这一定义包括了两层含义这一定义包括了两层含义n一是对海量数据的收集、整理与服务,也就是管好这些数一是对海量数据的收集、整理与服务,也就是管好这些数据;据;n另一个是从中发现新的规律,也就是用好这些数据。另一个是从中发现新的规律,也就是用好这些数据。生物信息学的概念生物信息学的概念 n具体地说,生物信息学是把基因组具体地说,生物信息学是把基因组DNA序列信息分析作为序列信
19、息分析作为源头,找到基因组序列中代表蛋白质和源头,找到基因组序列中代表蛋白质和RNA基因的编码区;基因的编码区;同时,阐明基因组中大量存在的非编码区的信息实质,破同时,阐明基因组中大量存在的非编码区的信息实质,破译隐藏在译隐藏在DNA序列中的遗传语言规律;在此基础上,归纳、序列中的遗传语言规律;在此基础上,归纳、整理与基因组遗传信息释放及其调控相关的转录谱和蛋白整理与基因组遗传信息释放及其调控相关的转录谱和蛋白质谱的数据,从而认识代谢、发育、分化、进化的规律。质谱的数据,从而认识代谢、发育、分化、进化的规律。生物信息学的研究内容n1、获取人和各种生物的完整基因组获取人和各种生物的完整基因组n2
20、、发现新基因和新的单核苷酸多态性、发现新基因和新的单核苷酸多态性n3、基因组中非编码区信息结构分析、基因组中非编码区信息结构分析n4、在基因组水平研究生物进化、在基因组水平研究生物进化n5、完整基因组的比较研究、完整基因组的比较研究n6、从功能基因组到系统生物学、从功能基因组到系统生物学n7、蛋白质结构模拟与药物设计、蛋白质结构模拟与药物设计主要研究内容n一获取人和各种生物的完整基因组一获取人和各种生物的完整基因组 n基因组研究的首要目标是获得人的整套遗传密码。基因组研究的首要目标是获得人的整套遗传密码。n在在自然自然、科学科学两杂志上公布的人类基因组工作草图报道,它两杂志上公布的人类基因组工
21、作草图报道,它含有约含有约29亿碱基,其序列覆盖率为亿碱基,其序列覆盖率为94。有大于。有大于90的连续序列群已的连续序列群已大于大于10万碱基;有约万碱基;有约25的连续序列群已等于或大于千万碱基。在这的连续序列群已等于或大于千万碱基。在这些序列中发现了些序列中发现了34万个编码蛋白质的基因。得到这样的图就是相当万个编码蛋白质的基因。得到这样的图就是相当于把人类基因组测了大约于把人类基因组测了大约5遍才实现的。要作到这一点就需要把几千遍才实现的。要作到这一点就需要把几千万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼万个小片段通过比对再连接起来,这就是常说的基因组序列数据的拼接和
22、组装。接和组装。n在基因组大规模测序的每一个环节都与信息分析紧密在基因组大规模测序的每一个环节都与信息分析紧密相关。相关。n序列拼接和填补序列间隙是最为关键的首要难题。其序列拼接和填补序列间隙是最为关键的首要难题。其困难不仅来自它巨大的海量数据,而且在于它含有高困难不仅来自它巨大的海量数据,而且在于它含有高度重复的序列。为此,这一过程特别需要把实验设计度重复的序列。为此,这一过程特别需要把实验设计和信息分析时刻联系在一起。和信息分析时刻联系在一起。n另一方面,必须按照不同步骤的要求,发展适当的算另一方面,必须按照不同步骤的要求,发展适当的算法及相应的软件,以应对各种复杂的问题。国际上很法及相应
23、的软件,以应对各种复杂的问题。国际上很多著名的基因组研究中心,都有自己的拼接和组装策多著名的基因组研究中心,都有自己的拼接和组装策略,并且这样的工作都是在超级计算机上完成的。略,并且这样的工作都是在超级计算机上完成的。n有了完整基因组,人类对自身的认识就更为细致、更为有了完整基因组,人类对自身的认识就更为细致、更为精确。比如:发现在我们的基因组中真正编码蛋白质精确。比如:发现在我们的基因组中真正编码蛋白质(称为外显子)的部分很少,只占(称为外显子)的部分很少,只占11;外显子与外;外显子与外显子之间的区域(称为内含子)占了显子之间的区域(称为内含子)占了24;也就是说在;也就是说在人类基因组中
24、不编码蛋白质的区域占了绝大部分。人类基因组中不编码蛋白质的区域占了绝大部分。n发现人类编码蛋白的基因较之其它生物体的基因更为复发现人类编码蛋白的基因较之其它生物体的基因更为复杂,有更为丰富的剪接方式。发现基因组中片段重复现杂,有更为丰富的剪接方式。发现基因组中片段重复现象很普遍,这反映了人类复杂的进化历史。发现人的第象很普遍,这反映了人类复杂的进化历史。发现人的第13号染色体比较稳定,而男性的第号染色体比较稳定,而男性的第12号染色体和女性的号染色体和女性的第第16号染色体是易变的,等等。号染色体是易变的,等等。二发现新基因和新的单核苷酸多态性n发现新基因是当前国际上基因组研究的热点,使用生物
25、信发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基因的重要手段。息学的方法是发现新基因的重要手段。n发现单核苷酸多态性(发现单核苷酸多态性(SNP)n现在普遍认为现在普遍认为SNP研究是人类基因组计划走向应用的重要研究是人类基因组计划走向应用的重要步骤。步骤。nSNP在基因组中分布相当广泛。大量存在的在基因组中分布相当广泛。大量存在的SNP位点,使位点,使人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;人们有机会发现与各种疾病,包括肿瘤相关的基因组突变;从实验操作来看,通过从实验操作来看,通过SNP发现疾病相关基因突变要比通发现疾病相关基因突变要比通过家系来得容易;有
26、些过家系来得容易;有些SNP并不直接导致疾病基因的表达,并不直接导致疾病基因的表达,但由于它与某些疾病基因相邻,而成为重要的标记。但由于它与某些疾病基因相邻,而成为重要的标记。三基因组中非编码蛋白质区域的结构与功能研究 n近年来的研究表明,在细菌这样的微生物中,非编码蛋白近年来的研究表明,在细菌这样的微生物中,非编码蛋白质的区域只占整个基因组序列的质的区域只占整个基因组序列的10到到20。随着生物的。随着生物的进化,非编码区越来越多,在高等生物和人的基因组中非进化,非编码区越来越多,在高等生物和人的基因组中非编码序列已占到基因组序列的绝大部分。这表明:这些非编码序列已占到基因组序列的绝大部分。
27、这表明:这些非编码序列必定具有重要的生物功能。普遍的认识是,它们编码序列必定具有重要的生物功能。普遍的认识是,它们与基因的表达调控有关。与基因的表达调控有关。n对人类基因组来说,迄今为止,人们真正掌握规律的只有对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上的编码蛋白质的区域(基因)上的编码蛋白质的区域(基因)n95-97非编码区蕴含的成果数量将是十分可观的,因此非编码区蕴含的成果数量将是十分可观的,因此寻找这些区域的编码特征、信息调节与表达规律是未来相寻找这些区域的编码特征、信息调节与表达规律是未来相当长时间内的热点课题,是取得重要成果的源泉。当长时间内的热点课题,是取得重要成果的
28、源泉。n非蛋白编码区约占人类基因组的非蛋白编码区约占人类基因组的95-97%,其生物学意义,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能。着重要的生物学功能。n对非蛋白编码区进行生物学意义分析的策略有两种,一对非蛋白编码区进行生物学意义分析的策略有两种,一种是基于已有的已经为实验证实的所有功能已知的种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能元件的序列特征,预测非蛋白编码区中可能含有的功能已知的已知的DNA元件,从而预测其可能的生物学功能,并通元件,从而预测其
29、可能的生物学功能,并通过实验进行验证;另一种则是通过数理理论直接探索非过实验进行验证;另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。可能的信息含义,最后同样通过实验验证。四在基因组水平研究生物进化n自自20世纪中叶以来,随着分子生物学的不断发展,进化论世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。的研究也进入了分子水平。n相似性相似性”和和“同源性同源性”是两个不同的概念。相似性只反映是两个不同的概念。相似性只反映两者类似,并不包含任何与进化相关的暗示
30、。同源性则是两者类似,并不包含任何与进化相关的暗示。同源性则是与共同祖先相关的相似性。与共同祖先相关的相似性。五完整基因组的比较研究n在后基因组时代,完整基因组数据越来越多,有了这些资在后基因组时代,完整基因组数据越来越多,有了这些资料人们就能对若干重大生物学问题进行分析研究,如:料人们就能对若干重大生物学问题进行分析研究,如:生命是从哪里起源的?生命是如何进化的?遗传密码是如生命是从哪里起源的?生命是如何进化的?遗传密码是如何起源的?估计最小独立生活的生物体至少需要多少基因?何起源的?估计最小独立生活的生物体至少需要多少基因?这些基因是如何使生物体活起来的?等等。这些重大的问这些基因是如何使
31、生物体活起来的?等等。这些重大的问题只有在基因组水平上才能回答。题只有在基因组水平上才能回答。n开创了比较基因组学开创了比较基因组学n科学家们发现:全部基因可以按照功能和系统发生分为若科学家们发现:全部基因可以按照功能和系统发生分为若干类,其中包括与复制、转录、翻译、能量产生、离子转干类,其中包括与复制、转录、翻译、能量产生、离子转运、各种代谢相关的基因。这一工作也为蛋白质分类提供运、各种代谢相关的基因。这一工作也为蛋白质分类提供了新的途径。了新的途径。六从功能基因组到系统生物学 n同一组织在不同的个体生长发育阶段,表达基因的种类、数同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不
32、同的,有些基因是在幼年时期表达的,有些是中年量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到老年时期才表达。我们不仅需要了解阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。基因组研究。n功能基因组研究将朝着复杂系统的方向发展,即:探讨生物功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的系统中各部
33、分、各层次的相互作用,从而进入系统生物学的领域。领域。七蛋白质结构模拟与药物设计n预测蛋白的空间结构,进而实现针对性的药物设计,这也预测蛋白的空间结构,进而实现针对性的药物设计,这也是大规模的计算问题。是大规模的计算问题。近期任务n大规模基因组测序中的信息分析大规模基因组测序中的信息分析n新基因和新新基因和新SNPS(单核苷酸多态性单核苷酸多态性)的发现与鉴定的发现与鉴定n完整基因组的比较研究完整基因组的比较研究n大规模基因功能表达谱的分析大规模基因功能表达谱的分析n生物大分子的结构模拟与药物设计生物大分子的结构模拟与药物设计远期任务n读懂人类基因组,发现人类遗传语言的根本规律,从而阐读懂人类
34、基因组,发现人类遗传语言的根本规律,从而阐明若干生明若干生 物学中的重大自然哲学问题,像生命的起源与物学中的重大自然哲学问题,像生命的起源与进化等。这一研究的关键和核心是了解非编码区进化等。这一研究的关键和核心是了解非编码区非编码区信息结构分析遗传密码起源和生物进化的研究近期任务n由于未来几年蛋白质和核酸的测序数据将以指数方式增加,由于未来几年蛋白质和核酸的测序数据将以指数方式增加,近期生物信息学将在以下几方面迅速发展近期生物信息学将在以下几方面迅速发展n大规模测序是基因组研究的最基本任务,它的每一个环节大规模测序是基因组研究的最基本任务,它的每一个环节都与信息分析紧密相关。都与信息分析紧密相
35、关。1 1、大规模基因组测序中的信息分析、大规模基因组测序中的信息分析n凭借基因组序列可以通过理论方法寻找新基因和凭借基因组序列可以通过理论方法寻找新基因和SNPs。n当人类基因找到之后,自然要解决的问题是:不同人种间当人类基因找到之后,自然要解决的问题是:不同人种间基因有什么差别;正常人和病人基因又有什么差别。基因有什么差别;正常人和病人基因又有什么差别。”这这就是通常所说就是通常所说的的SNPs(单核苷酸多态性)。构(单核苷酸多态性)。构建建SNPs及及其相关数据库是基因组研究走向应用的重要步骤。其相关数据库是基因组研究走向应用的重要步骤。2 2、新基因和新、新基因和新SNPsSNPs(单
36、核苷酸多态性)的发现与鉴定(单核苷酸多态性)的发现与鉴定n尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演
37、化历史中的重要作用。n由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,发育和生理,因此,从基因组整体结构组织和整体功能调节网络方面,因此,从基因组整体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。真实演化历史的最佳途径。n由完整基因组研究所导致的比较基因组学必将为基因组研究开辟新的领由完整基因组研究所导致的比较基因组学必将为基因组研究开辟新的领域。域。3 3、完整基因组的比较
38、研究、完整基因组的比较研究n随着人类基因组测序完成、一些学者就提出如下的问题:随着人类基因组测序完成、一些学者就提出如下的问题:即使我们已经获得了人的完整基因图谱,那我们对人的即使我们已经获得了人的完整基因图谱,那我们对人的生命活动能说明到什么程度呢?生命活动能说明到什么程度呢?n一系列由上述数据所不能说明的问题,例如:基因表达一系列由上述数据所不能说明的问题,例如:基因表达的产物是否出现与何时出现;基因表达产物的浓度是多的产物是否出现与何时出现;基因表达产物的浓度是多少;是否存在翻译后的修饰过程等。少;是否存在翻译后的修饰过程等。n概括这些问题,其实质应该是:我们虽然知道了基因,概括这些问题
39、,其实质应该是:我们虽然知道了基因,知道了核酸序列,但我们不知道它们是如何发挥功能的,知道了核酸序列,但我们不知道它们是如何发挥功能的,或者说它们是如何按照特定的时间、空间进行基因表达或者说它们是如何按照特定的时间、空间进行基因表达的,表达量有多少。的,表达量有多少。4 4、大规模基因功能表达谱的分析、大规模基因功能表达谱的分析n随着人类基因组计划的执行,可找到人类的一级序列。随着人类基因组计划的执行,可找到人类的一级序列。n然而要了解他们的功能、要找到这些蛋白质功能的分子基然而要了解他们的功能、要找到这些蛋白质功能的分子基础,必须进一步知道它们的三维结构。础,必须进一步知道它们的三维结构。n
40、与此同时,要设计药物也需要了解相应的蛋白质受体的三与此同时,要设计药物也需要了解相应的蛋白质受体的三维结构。这是摆在科学家面前的紧迫任务。维结构。这是摆在科学家面前的紧迫任务。5 5、生物大分子的结构模拟与药物设计、生物大分子的结构模拟与药物设计n近几年来,随着基因组序列数据的大量增加,对序列差异近几年来,随着基因组序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。和进化关系的争论也越来越激烈。n特别是:在分子进化分析中,特别是:在分子进化分析中,“相似性相似性”和和“同源性同源性”是是两个不同的概念。相似性只反映两者类似,并不包含任何两个不同的概念。相似性只反映两者类似,并不包含任
41、何与进化相关的暗示。同源性则是与共同祖先相关的相似性。与进化相关的暗示。同源性则是与共同祖先相关的相似性。6 6、在基因组水平研究生物进化、在基因组水平研究生物进化n在不同的组织中表达基因的数目差别是很大的,脑中基因表在不同的组织中表达基因的数目差别是很大的,脑中基因表达的数目最多,有的组织中只有几十或几百个基因表达。达的数目最多,有的组织中只有几十或几百个基因表达。n同一组织在不同的个体生长发育阶段,表达基因的种类、数同一组织在不同的个体生长发育阶段,表达基因的种类、数量也是不同的,有些基因是在幼年时期表达的,有些是中年量也是不同的,有些基因是在幼年时期表达的,有些是中年阶段表达的,有些要到
42、老年时期才表达。我们不仅需要了解阶段表达的,有些要到老年时期才表达。我们不仅需要了解基因的序列,还要了解基因的功能,也就是要了解在不同的基因的序列,还要了解基因的功能,也就是要了解在不同的时间、不同的组织中基因的表达谱。这就是通常所说的功能时间、不同的组织中基因的表达谱。这就是通常所说的功能基因组研究。基因组研究。n功能基因组研究将朝着复杂系统的方向发展,即:探讨生物功能基因组研究将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从而进入系统生物学的系统中各部分、各层次的相互作用,从而进入系统生物学的领域。领域。7 7、从功能基因组到系统生物学、从功能基因组到系统生物学远期
43、任务n生物信息学的远期任务是读懂人类基因组,发现人类遗传生物信息学的远期任务是读懂人类基因组,发现人类遗传语言的根本规律。从而阐明若干生物学中的重大自然哲学语言的根本规律。从而阐明若干生物学中的重大自然哲学问题,像生命的起源与进化等。这一研究的关键和核心是问题,像生命的起源与进化等。这一研究的关键和核心是了解非编码区。了解非编码区。n从生物进化的观点看来,随着生物体功能的完善和复杂化,非编从生物进化的观点看来,随着生物体功能的完善和复杂化,非编码区序列明显增加的趋势表明:这部分序列必定具有重要的生物码区序列明显增加的趋势表明:这部分序列必定具有重要的生物功能。因此寻找这些区域的编码特征以及信息
44、调节与表达规律是功能。因此寻找这些区域的编码特征以及信息调节与表达规律是未来相当长时间内的热点课题。未来相当长时间内的热点课题。n对人类基因组来说,迄今为止,人们真正掌握规律的只有对人类基因组来说,迄今为止,人们真正掌握规律的只有DNA上上的编码蛋白质的区域(基因),这部分序列只占基因组的的编码蛋白质的区域(基因),这部分序列只占基因组的3到到5,也就是说,人类基因组中多达,也就是说,人类基因组中多达 95到到97是非编码区。如何是非编码区。如何深人了解这些非编码区序列的功能是当前科学家们面临的一个真深人了解这些非编码区序列的功能是当前科学家们面临的一个真正的挑战。正的挑战。1 1、非编码区信
45、息结构分析、非编码区信息结构分析n自自 1859年年Darwin的物种起源发表以来,进化论成为对人的物种起源发表以来,进化论成为对人类自然科学和自然哲学发展的最重大贡献之一。进化论研类自然科学和自然哲学发展的最重大贡献之一。进化论研究的核心是描述生物进化的历史和探索进化过程的机制。究的核心是描述生物进化的历史和探索进化过程的机制。n自本世纪中叶以来,随着分子生物学的不断发展,进化论自本世纪中叶以来,随着分子生物学的不断发展,进化论的研究也进入了分子水平。当前分子进化的研究已是进化的研究也进入了分子水平。当前分子进化的研究已是进化论研究的重要手段,并建立了一套依赖于核酸、蛋白质序论研究的重要手段
46、,并建立了一套依赖于核酸、蛋白质序列信息的理论方法。列信息的理论方法。2 2、遗传密码起源和生物进化的研究、遗传密码起源和生物进化的研究n近年来,随着序列数据的大量增加,对序列差异和进化关近年来,随着序列数据的大量增加,对序列差异和进化关系的争论也越来越激烈。系的争论也越来越激烈。n我们要彻底了解进化的规律必须使用整个基因组的信息。我们要彻底了解进化的规律必须使用整个基因组的信息。相应地必须发展新的理论方法。相应地必须发展新的理论方法。n总之,当前是生物信息学研究的一个有活力的新时代。不总之,当前是生物信息学研究的一个有活力的新时代。不少科学家还说它是人类基因组研究的收获时代,它不仅将少科学家
47、还说它是人类基因组研究的收获时代,它不仅将赋予人们各种基础研究的重要成果,也会带来巨大的经济赋予人们各种基础研究的重要成果,也会带来巨大的经济效益和社会效益。效益和社会效益。DNA序列数据正以意想不到的速度增长,序列数据正以意想不到的速度增长,这是一个难得的机会,我国应尽早利用这些数据就可能走这是一个难得的机会,我国应尽早利用这些数据就可能走在国际科学界的最前沿。在国际科学界的最前沿。生物信息学的研究目标n以以核酸、蛋白质核酸、蛋白质等生物大分子数据库为等生物大分子数据库为主要对象主要对象,以,以数学、数学、信息学、计算机科学信息学、计算机科学为为主要手段主要手段,以,以计算机硬件、软件和计算
48、机硬件、软件和计算机网络计算机网络为为主要工具主要工具,对浩如烟海的原始数据进行,对浩如烟海的原始数据进行存储、存储、管理、注释、加工管理、注释、加工,使之成为,使之成为具有明确生物意义的生物信具有明确生物意义的生物信息息。并通过对生物信息的。并通过对生物信息的查询、搜索、比较、分析查询、搜索、比较、分析,从中,从中获取基因编码、基因调控、核酸和蛋白质结构功能及其相获取基因编码、基因调控、核酸和蛋白质结构功能及其相互关系等理性知识。互关系等理性知识。生物信息学的发展历史生物信息学的发展历史生物信息学生物信息学基本思想的产生基本思想的产生 生物信息学生物信息学 的迅速发展的迅速发展二十世纪二十世
49、纪50年代年代二十世纪二十世纪80-90年代年代生物科学和生物科学和技术的技术的发展发展人类基因组人类基因组计划的计划的推动推动 生物信息学的发展过程生物信息学的生物信息学的诞生诞生及其重要性:及其重要性:n早在早在1956年年,在美国田纳西州盖特林堡召开的首次,在美国田纳西州盖特林堡召开的首次“生物学中的信息生物学中的信息理论研讨会理论研讨会”上,便产生了上,便产生了生物信息学的概念生物信息学的概念。但是,就生物信息学。但是,就生物信息学的发展而言,它还是一门相当年轻的学科。直到的发展而言,它还是一门相当年轻的学科。直到20世纪世纪8090年代,年代,伴随着计算机科学技术的进步,生物信息学才
50、获得突破性进展。伴随着计算机科学技术的进步,生物信息学才获得突破性进展。n1987年,林华安博士正式把这一学科命名为年,林华安博士正式把这一学科命名为“生物信息学生物信息学”(Bioinformatics)。此后,其内涵随着研究的深入和现实需要的变化此后,其内涵随着研究的深入和现实需要的变化而几经更迭。而几经更迭。1995年,在美国人类基因组计划第一个五年总结报告中,年,在美国人类基因组计划第一个五年总结报告中,给出了一个给出了一个较为完整的生物信息学定义较为完整的生物信息学定义:生物信息学是一门交叉科学,:生物信息学是一门交叉科学,它包含了生物信息的获取、加工、存储、分配、分析、解释等在内的