1、揭开生命奥秘的新兴交叉学科 生物信息学主讲人:11023205 刘哲 计算机学、计算机网络医学生物学、分子生物学生物信息学数学、 统计学生物信息学和其它学科的关系生物信息学和其它学科的关系生物信息学是一门生物信息学是一门边缘学科,它位于边缘学科,它位于生物、医学、计算生物、医学、计算机、数学等多个领机、数学等多个领域的交叉点上域的交叉点上生物信息学生物信息学内 容生物信息学的的涵义生物信息学的基本研究方法生物信息学的主要研究内容人类基因组计划的完成,后基因组计划及蛋白质组计划的实施,出现和积累了与日俱增的信息,生命科学将全面进人信息提取和数据处理的全新阶段。早在20世纪80年代末,在美国工作的
2、马来西亚华人林华安博士就认识到将计算机科学与生物学结合起来的重要意义,并首次提出了“生物信息学(bioinformatics)”的概念,并因此而获得“生物信息学之父”的美誉。生物信息学的涵义生物信息学著名科学家、诺贝尔奖获得者Gilber提出:“传统生物学解决问题的方式是实验的。现在,基于全部基因都将知晓,并以电子可操作的方式驻留在数据库中,新的生物学研究模式的出发点应是理论的。一个科学家将从理论推测出发,然后再回到实验中去,追踪或验证这些理论假设”。生物学属于实验性的,那就称它为实验生物学。新的学科领域:生物学与计算机科学、信息科学和统计科学相结合的领域,也称其为理论生物学,这是生命科学走向
3、现代化的一个重要标志。生物信息学生物信息学一、生物信息学的涵义生物信息学是用数理和信息科学的观点、理论和方法,以计算机为工具对生物信息进行收集、加工、储存、传播、检索和分析的科学。研究材料和结果是各种各样的生物学数据生物信息学的基本研究方法 生物学数据库的建立 数据的检索 数据的处理 数据的利用生物信息学生物信息学生物学数据库的建立生物学数据库的建立一般由专门的机构来完成。这些机构包括一些国家支持的非盈利性机构和一些知名大学的研究机构。有的实验室为了研究工作的需要也可建立一些小型的数据库。数据库可分为一级数据库和二级数据库,一级数据库的数据直接来源于实验获得的原始数据,只经过简单的归类整理和分
4、析;二级数据库是在一级数据库、实验数据和理论分析的基础上针对特定目标而建立的。目前,世界著名的三人核心数据库是PDB生物大分子结构数据库、SWISS-PROT蛋白质序列数据库和GenBank核酸序列数据库。生物信息学生物信息学数据的检索 在研究中根据不同的实际需要,检索不同的 数 据 库 。 如 查 找DNA 序列即选择核酸序列数据库,查找蛋白质序列则选择蛋白质序列数据库等。生物学数据库的检索包括收集和筛选两个方面,根据研究者的实际需要而加以应用。生物信息学生物信息学 无论是实验中产生的数据,还是在数据检索中查得的数据都要经过处理,一般先是对数据进行格式编辑,然后对大量的数据进行分类和整理。为
5、了使用的方便,根据需要也可建立一个自己的小型数据库,以便于使用。数据的处理生物信息学生物信息学对生物学数据的利用就是使用各种统计模型和算法,以便对数据进行分析。如核酸和蛋白质序列相似性比对分析、蛋白质空间结构比对分析、不同发育阶段比对分析,正常与异常比对分析、生物进化分析等。从这些分析研究中得出结果、疑问,为下一步研究提供参数等。数据的利用三、生物信息学的研究内容 -基因组测序的信息分析 用于发现新基因 非编码区结构与功能研究 生物进化的研究 比较基因组学研究 -基因功能的研究-大分子结构模拟与药物设计 遗传疾病的研究无论人或模式生物的基因组研究,都涉及大规模的测序,它的每一步都与信息分析紧密
6、相关。在对一个基因组的测序中,首先必须将基因组打碎,再对每一个小片段测序,然后把它们重新拼接起来。如果将这些片段拼接成完整的DNA 序列是测序研究中的一个难点,尤其是重复序列,在人基因组中有大约30 的重复序列,这就更增加了难度。在这种情况下借助生物信息学就显得更重要了。生物信息学提供了自动而高速地拼接序列的算法,根据数据库和相关软件提供的信息进行计算即可得出结果。不过,这个工作需要高性能计算机的大规模并行运算,因此,实际上只有一些测序中心拥有这种计算能力。 基因组测序的信息分析用于发现新基因在基因组研究中,大部分新基因是靠理论方法预测出来的。例如酿酒酵母完整基因组(约1300 万碱基对)所包
7、含的6000 多个基因,大约60 是通过信息分析得到的。用理论方法预测基因使用的序列数据主要来自EST 序列数据库和基因组测序数据库。目前,用生物信息学寻找新基因的方法有以下两种。通过计算分析,从表达序列标志(EST )序列库中拼接得到完整的新基因编码区。由于ESf 是随机产生的,所以属于同一基因的很多EST序列间必然有大量重复小片段,利用这些小片段作为标志,就可以把不同的EST 序列连起来,直到获得全长基因。通过计算机分析,从基因组DNA 序列中确定新编码区。这主要是根据编码区与非编码区的特点,将二者进行区别而鉴定新基因。有两种方法,一种是基于编码区所具有的独特信号,如起始密码子、终止密码子
8、等;另一种是基于编码区的碱基组成与非编码区的差异。现已有许多有效算法和软件用于识别编码区。 从高等和低等生物的基因组比较发现,从生物进化、生物体功能的完善和复杂化,基因组的非编码序列明显增加的趋势提示,这部分序列必定有重要的生物功能。在细菌中非编码区序列占整个基因组序列的10-20%,而人的基因组中约占95-97。至今已知,这些序列包括内含子、卫星DNA、小卫星DNA、微卫星DNA、短散布重复兀件(shortin-terspersedelements,SINE)、长散布重复元件(longinterspersedelements,LINE)、伪基因(pseudogenes)等。如果把不同成分的序
9、列分别搜集起来,建立专门的数据库,对于了解非编码区的功能将是十分有用的。非编码区结构与功能研究生物进化的研究 由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种的发育和生理,因此,不同物种的基因组总是存在差异,用生物信息学研究比较不同物种的核酸和蛋白质的序列差异,在一定程度上可反映物种的进化。基于此,当前生物进化在分子水平的研究(称为分子进化)已建立了一套依赖于核酸和蛋白质序列信息的理论方法,包括序列相似比较、序列同源性分析、构建系统进化树和稳定性检测等。在生物进化的研究中,相似性(similarity)和同源性(homology)是两个不同的概念。相似性只反映两类类似,并不包含任何与进
10、化相关的暗示。同源性则是与共同祖先相关的相似性。相似性研究是将待研究序列与DNA序列库或蛋白质序列库比较,用于确定该序列的生物种属,用的力法是两两序列比较算法;同源性研究是将待研究序列加入到一组与之同源,但来自不同物种的序列中进行多序列同时比较,以确定该序列与其他序列间的同源性大小。 随着基因组序列研究的广泛开展,各种生物的完整基因组数据越来越多,生物信息学的研究不仅对单个基因,而且可以对不同生物的全基因组进行比较分析,可能从遗传本质上解释一些重大生物学问题。如生命是如何起源的,生命是怎样进化的,遗传密码是如何起源的,最小独立生活的生物体至少需要多少基因等。只有通过在基因组水平上的比较分析才能
11、解答这一系列重人问题。鼠和人的基因组人小相似,都含有约30 亿碱基对,基因的数目也类似,而且大部分同源。但人和鼠差异是如此之大,为什么?通过比较基因组学研究发现,尽管两者基因组大小和基因数目类似,但基因组的组织却差别很大。例如存在于鼠1 号染色体的基因却分布在人的7 个染色体上。不同人种间基因组的差别仅为0.1 % ,人与猿间的差别约为1。但表型上的差异却十分显著。因此,表型差异不仅应从基因、DNA 序列方面找原因,看来更应当考虑它们在基因组上的差异。此外,科学家通过几个完整基因组的比较研究,统计出维持生命活动所需要的最少基因的个数为250 个左右,并且从对多种细菌核糖体蛋白基因研究发现,这种
12、蛋白基因序列的差异能反映出物种间的亲缘关系,亲缘关系越近,基因排列顺序越接近。 比较基因组学研究 通过基因组计划,科研人员知道了基因,知道了核昔酸序列,但却并不知道它们是如何发挥功能的。基因在什么情况下和什么时间表达,表达产物的浓度是多少;是否存在翻译后修饰,若存在是如何修饰的。这些研究内容属于后基因组计划的范畴,在这个计划执行中必定又产生大量的生物信息,必然应用生物信息学的理论和规律来处理,才能了解某些基因的功能。实验表明,在不同组织中表达基因的数目差别很大,脑中表达基因的数目最多,可达3 万左右,有的组织中只有几十或几百个基因表达;同一组织在不同的个体生长发育阶段表达基因的种类、数量也不相
13、同,有些基因在幼年时期表达,有些在中年阶段表达,有的则在老年阶段才表达;同一组织在不同环境条件下基囚表达的种类和数量也有很大差异。所有这些内容除了基因组学研究外,还需要蛋白质组学、生物芯片等方面的研究,最后由生物信息学的研究来加以解决,甚至可以预测基因的功能。 基因功能的研究大分子结构模拟与药物设计 由序列测定和序列数据库知道氨基酸的序列对了解蛋白质的功能是不够的,还必须知道它们的三维结构,因为“构象决定功能”。目前虽有x 射线衍射、多维核磁共振、二维电子衍射和三维图像重构等技术为蛋白质空间结构研究提供了有效手段,但这些方法仍存在一定的局限性,现在还不能估计究竟有多少蛋白质最终仍不能由实验测定
14、。此时,理论模拟与结构预测就显得十分重要了。理论研究不仅可提供生物大分子空间结构的信息,而且还能够提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用以及动力学行为等的信息。如生物化学反应中的能量变化、电荷迁移、构象变化等,这是难以直接用实验手段加以研究的。 遗传疾病的研究 据估计,约有6000 种以上的人类疾患与人类各种基因的变化相关联,寻找各种疾病的相关基因及其相互作用与致病的关系,是分子生物学特别是医学分子生物学的重大课题之一。随着人类基因组计划研究的深人,在了解了人类全部基因在染色体上的位置、它们的序列特征以及它们表达产物的特征以后,就可以有效地判断各种疾病的分子机制,进而发展合适的诊断和治疗手段。在这方面生物信息学有两项工作要做:是构建与疾病相关的人类基因信息数据库(包括SNP 数据库)是发展有效地分析基因分型数据的生物信息学算法,特别是将SNP 数据与疾病和致病因素相关的计算方法。 软件和数据库软件和数据库生物信息学研究是利用数理统计、模式识别、动态规划、密码解读、语意解析、信令传递、神经网络、遗传算法以及隐马氏模型等各种方法对序列、结构数据进行定性和定量分析,从中获取基因编码、基因调控、序列- -结构- -功能关系等理性知识探索生命起源、生物进化、生命本质等重大理论问题,最终建立“生物学周期表” 小结谢谢再见
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。