1、 第十章第十章 蛋白质组研究中的蛋白质组研究中的 生物信息学生物信息学一、生物信息学概述一、生物信息学概述 1、什么是生物信息学?什么是生物信息学? Bioinformatics: 一门新兴的交叉学科,一门新兴的交叉学科,包含包含信息的获取、处理、存储、分配信息的获取、处理、存储、分配 、分析和、分析和解释等在内的所有方面。它综合应用数学、解释等在内的所有方面。它综合应用数学、计算机科学和生物学的各种工具来阐明和计算机科学和生物学的各种工具来阐明和理解大量数据所包含的生物学意义。理解大量数据所包含的生物学意义。Bioinformatics encompasses all aspects of
2、genome information acquisition, processing, storage, distribution, analysis, and interpretation. 研究范围:研究范围: 确定确定DNA中的编码区;中的编码区; 阐明非编码区的信息实质,破译遗传语阐明非编码区的信息实质,破译遗传语言规律;言规律; 归纳整理相关数据,认识代谢、发育、归纳整理相关数据,认识代谢、发育、分化、进化规律;分化、进化规律; 蛋白质空间结构模拟;蛋白质空间结构模拟; 蛋白质功能预测;蛋白质功能预测; 蛋白质、核酸分子设计;蛋白质、核酸分子设计; 药物设计;药物设计; 个体化医疗保
3、健设计个体化医疗保健设计.重点发展方向:重点发展方向: 人类基因组序列信息分析;人类基因组序列信息分析; 基因组结构与遗传语言:基因组结构与遗传语言: 语法和词法分析;语法和词法分析; 大规模基因表达谱分析、相关算法、大规模基因表达谱分析、相关算法、 软件研究、基因表达调控网络研究;软件研究、基因表达调控网络研究; 基因组信息相关的蛋白质功能分析;基因组信息相关的蛋白质功能分析; 新理论、新方法、新技术、新软件研究。新理论、新方法、新技术、新软件研究。计算机运算速度计算机运算速度:18:18个月增长一倍个月增长一倍DNADNA序列数据序列数据:14:14个月增长一倍个月增长一倍 研究状况:研究
4、状况: 近年来近年来GenBankGenBank中的中的DNADNA碱基数目呈指数增加,碱基数目呈指数增加,大约每大约每1414个月增加一倍。到个月增加一倍。到19991999年年1212月其数目已月其数目已达达3030亿,它们来自亿,它们来自4700047000种生物。种生物。20002000年年4 4月月DNADNA碱基数目是碱基数目是6060亿。亿。20012001年初这一数目已达年初这一数目已达110110亿。亿。 各种生物的各种生物的ESTEST序列已达序列已达600600多万条,其中人多万条,其中人类的类的ESTEST序列已超过序列已超过300 300 万条,估计覆盖人类基万条,估
5、计覆盖人类基因因9090以上;以上;UniGeneUniGene的数目约达的数目约达7 7万个;万个;自自19991999年初单核苷酸多态性年初单核苷酸多态性( ( SNPsSNPs,Single Nucleotide ,Single Nucleotide Polymorphisms )Polymorphisms )数据库出现以来,到数据库出现以来,到20002000年年3 3月月2020日日SNPSNP的总数是的总数是2656926569,现在已超过,现在已超过350350万;万; 自全长自全长1.8Mb1.8Mb的嗜血流感杆菌的嗜血流感杆菌(Haemophilus influenzaeHa
6、emophilus influenzae RdRd)基因组)基因组序列于序列于19951995年发表(年发表(Fleischmann et al.Fleischmann et al.,19951995)以来,已有)以来,已有5454个模式生物的完整基个模式生物的完整基因组被测序完成,它们中有因组被测序完成,它们中有9 9个古细菌、个古细菌、3131个原核真细菌、个原核真细菌、1414个真核生物的完整基因个真核生物的完整基因组或它们的完整染色体,其中包括酿酒酵母组或它们的完整染色体,其中包括酿酒酵母和线虫。和线虫。 还有另外的还有另外的7070余个微生物基因组正在测余个微生物基因组正在测试当中。
7、试当中。相关文献:相关文献: 分子生物学和遗传学的文献积累从60年代中期的接近10万篇迅速增长至60年代末期的20多万篇,即在3-4年间,翻了一番。此后,至80年代中期,上升至约30万篇,即平均每年增长6-7千篇。至90年代中,文献数已上升至40多万篇;即在10年中,平均每年增长1万篇。到2000年,则增长至约50万篇,即在约5年间,又增长了10万篇(根据http:/www.ncbi.nlm.nih.gov有关PubMed数据整理)。 美国的核酸数据库GenBankBanson,D.A. et al. (1998) Nucleic Acids Res. 26, 1-7从1979年开始建设,19
8、82年正式运行;欧洲分子生物学实验室的EMBL数据库也于1982年开始服务;日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。基因组学的研究内容基因组学的研究内容 基因组组分动力学基因组组分动力学。基因组组分的变化与基因变异、基因组组分的变化与基因变异、基因功能、基因进化、基因组重复序列变迁等,以基因功能、基因进化、基因组重复序列变迁等,以及它们的相互关系。及它们的相互关系。 基因产物系统生物学基因产物系统生物学。基因
9、产物(基因产物(RNA和蛋白质)和蛋白质)的功能和相互作用,基因产物所构成的细胞分子机的功能和相互作用,基因产物所构成的细胞分子机制,生命过程与生化途径的系统关系等。制,生命过程与生化途径的系统关系等。 基因组多态性基因组多态性。基因和基因组在物种内的变化与物基因和基因组在物种内的变化与物种的性状或基因表型的关系。由于物种内各亚种间种的性状或基因表型的关系。由于物种内各亚种间的差别较小,在基因组水平上也属于多态性研究的的差别较小,在基因组水平上也属于多态性研究的范畴。基因组多态性在群体水平的研究,是超越传范畴。基因组多态性在群体水平的研究,是超越传统遗传学的一个飞越。统遗传学的一个飞越。 基因
10、组的进化基因组的进化。物种间基因组在自然选择下变化的物种间基因组在自然选择下变化的比较研究。比较研究。 2、生物信息学的研究内容、生物信息学的研究内容 生物信息学是把基因组生物信息学是把基因组DNADNA序列信息分析序列信息分析作为源头,破译隐藏在作为源头,破译隐藏在DNADNA序列中的遗传语序列中的遗传语言,特别是非编码区的实质;同时在发现言,特别是非编码区的实质;同时在发现了新基因信息之后进行蛋白质空间结构模了新基因信息之后进行蛋白质空间结构模拟和预测。拟和预测。 生物信息学的研究目标生物信息学的研究目标是揭示是揭示“基因组信息结构的复杂性及遗传基因组信息结构的复杂性及遗传语言的根本规律语
11、言的根本规律”。它是自然科学。它是自然科学和技术科学领域中和技术科学领域中“基因组基因组”、“信息结构信息结构”和和“复杂性复杂性”这三个这三个重大科学问题的有机结合重大科学问题的有机结合。 生物信息学的研究内容: ( 1 1)序列比对序列比对(alignmentalignment)。)。 基本问题是比较两个或两个以上符号基本问题是比较两个或两个以上符号序列的相似性或不相似性。序列的相似性或不相似性。 对比软件包:对比软件包:BLASTBLAST、FASTAFASTA 局部对比:局部对比:Smith-Waterman Smith-Waterman 算法算法。(2 2)发现新基因和新的单核苷酸多
12、态性发现新基因和新的单核苷酸多态性 发现新基因是当前国际上基因组研究的发现新基因是当前国际上基因组研究的热点,使用生物信息学的方法是发现新基热点,使用生物信息学的方法是发现新基因的重要手段。因的重要手段。(3 3)蛋白质结构对比与预测)蛋白质结构对比与预测 包括包括2 2级和级和3 3级结构预测,是最重要的课题之级结构预测,是最重要的课题之一。一。 从方法上来看有从方法上来看有演绎法和归纳法演绎法和归纳法两种途径。两种途径。前者主要是从一些基本原理或假设出发来预测前者主要是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程。分子力学和和研究蛋白质的结构和折叠过程。分子力学和分子动力学属
13、这一范畴。后者主要是从观察和分子动力学属这一范畴。后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测未总结已知结构的蛋白质结构规律出发来预测未知蛋白质的结构。同源模建和指认知蛋白质的结构。同源模建和指认(ThreadingThreading)方法属于这一范畴。虽然经过方法属于这一范畴。虽然经过3030余年的努力,余年的努力,蛋白结构预测研究现状远远不能满足实际需要。蛋白结构预测研究现状远远不能满足实际需要。(4 4)计算机辅助基因识别)计算机辅助基因识别( (仅指蛋白质编码基因仅指蛋白质编码基因) ) 基本问题是给定基因组序列后,正确识基本问题是给定基因组序列后,正确识别基因的范围和在基
14、因组序列中的精确位置别基因的范围和在基因组序列中的精确位置. .这是最重要的课题之一,而且越来越重要。这是最重要的课题之一,而且越来越重要。经过经过2020余年的努力,提出了数十种算法,有余年的努力,提出了数十种算法,有十种左右重要的算法和相应软件上网提供免十种左右重要的算法和相应软件上网提供免费服务。原核生物计算机辅助基因识别相对费服务。原核生物计算机辅助基因识别相对容易些,结果好一些。从具有较多内含子的容易些,结果好一些。从具有较多内含子的真核生物基因组序列中正确识别出起始密码真核生物基因组序列中正确识别出起始密码子、剪切位点和终止密码子,是个相当困难子、剪切位点和终止密码子,是个相当困难
15、的问题,研究现状不能令人满意,仍有大量的问题,研究现状不能令人满意,仍有大量的工作要做。的工作要做。(5 5)非编码区分析和)非编码区分析和DNADNA语言研究语言研究 在人类基因组中,编码部分进展总序列在人类基因组中,编码部分进展总序列的的3-5%3-5%,其它通常称为,其它通常称为“垃圾垃圾”DNADNA,其实,其实一点也不是垃圾,只是我们暂时还不知道一点也不是垃圾,只是我们暂时还不知道其重要的功能。分析非编码区其重要的功能。分析非编码区DNADNA序列需要序列需要大胆的想象和崭新的研究思路和方法。大胆的想象和崭新的研究思路和方法。DNADNA序列作为一种遗传语言,不仅体现在编码序列作为一
16、种遗传语言,不仅体现在编码序列之中,而且隐含在非编码序列之中序列之中,而且隐含在非编码序列之中。(6 6)分子进化和比较基因组学)分子进化和比较基因组学 早期的工作主要是利用不同物种中同一早期的工作主要是利用不同物种中同一种基因序列的异同来研究生物的进化,构种基因序列的异同来研究生物的进化,构建进化树。既可以用建进化树。既可以用DNADNA序列也可以用其编序列也可以用其编码的氨基酸序列来做,甚至于可通过相关码的氨基酸序列来做,甚至于可通过相关蛋白质的结构比对来研究分子进化。以上蛋白质的结构比对来研究分子进化。以上研究已经积累了大量的工作。近年来由于研究已经积累了大量的工作。近年来由于较多模式生
17、物基因组测序任务的完成,为较多模式生物基因组测序任务的完成,为从整个基因组的角度来研究分子进化提供从整个基因组的角度来研究分子进化提供了条件。了条件。(7 7)从功能基因组到系统生物学)从功能基因组到系统生物学 无论是生物芯片还是蛋白质组技术的发无论是生物芯片还是蛋白质组技术的发展,都更强烈地依赖于生物信息学的理论、展,都更强烈地依赖于生物信息学的理论、技术与数据库。下一步,功能基因组研究技术与数据库。下一步,功能基因组研究将朝着复杂系统的方向发展,即:探讨生将朝着复杂系统的方向发展,即:探讨生物系统中各部分、各层次的相互作用,从物系统中各部分、各层次的相互作用,从而进入系统生物学的领域。而进
18、入系统生物学的领域。 (8 8)序列重叠群()序列重叠群(contigscontigs)装配)装配 (9 9)遗传密码的起源)遗传密码的起源 (1010)基于结构的药物设计)基于结构的药物设计 人类基因组计划的目的之一在于阐明人人类基因组计划的目的之一在于阐明人的约的约1010万种蛋白质的结构、功能、相互作万种蛋白质的结构、功能、相互作用以及与各种人类疾病之间的关系,寻求用以及与各种人类疾病之间的关系,寻求各种治疗和预防方法,包括药物治疗。基各种治疗和预防方法,包括药物治疗。基于生物大分子结构的药物设计是生物信息于生物大分子结构的药物设计是生物信息学中的极为重要的研究领域。为了抑制某学中的极为
19、重要的研究领域。为了抑制某些酶或蛋白质的活性,在已知其些酶或蛋白质的活性,在已知其3 3级结构的级结构的基础上,可以利用分子对接算法,在计算基础上,可以利用分子对接算法,在计算机上设计抑制剂分子,作为候选药物。这机上设计抑制剂分子,作为候选药物。这种发现新药物的方法有强大的生命力,也种发现新药物的方法有强大的生命力,也有着巨大的经济效益。有着巨大的经济效益。 (1111)生物信息处理并行算法的研究)生物信息处理并行算法的研究 由于生物信息数据的规模极其巨大,由于生物信息数据的规模极其巨大, 因此国内外都开展了生物信息处理算法并因此国内外都开展了生物信息处理算法并行化方向的研究。国外还开展了特殊
20、生物行化方向的研究。国外还开展了特殊生物信息处理中算法的研究以及在硬件基础上信息处理中算法的研究以及在硬件基础上的并行化方向的研究,主要是研究生物信的并行化方向的研究,主要是研究生物信息学中的一些关键的算法,研究其中的可息学中的一些关键的算法,研究其中的可并行性,然后将其固化到硬件芯片中,从并行性,然后将其固化到硬件芯片中,从而提高整个计算系统的性能。而提高整个计算系统的性能。(1212)其他)其他 如如基因表达谱分析,代谢网络分析;基因表达谱分析,代谢网络分析;基因芯片设计基因芯片设计等,逐渐成为生物信息学中等,逐渐成为生物信息学中新兴的重要研究领域。随着蛋白质组学研新兴的重要研究领域。随着
21、蛋白质组学研究的迅猛发展,蛋白质组学数据分析、计究的迅猛发展,蛋白质组学数据分析、计算蛋白质组学等领域的地位将越发重要。算蛋白质组学等领域的地位将越发重要。 3 3、生物信息学的特点、生物信息学的特点 它是一门基于数据积累,尤其是原始数据积它是一门基于数据积累,尤其是原始数据积累的科学。累的科学。 数据的获取是学科发展的保障和本源。生数据的获取是学科发展的保障和本源。生物信息学研究首先也是基于实验数据的生产、物信息学研究首先也是基于实验数据的生产、管理和分析。因此,生物信息领域的特点首管理和分析。因此,生物信息领域的特点首要特点是生物学基本数据收集的规模化,数要特点是生物学基本数据收集的规模化
22、,数据处理的程序化,数据分析的专门化。谁生据处理的程序化,数据分析的专门化。谁生产数据,谁首先占有数据,谁有机会分析数产数据,谁首先占有数据,谁有机会分析数据,谁就有主动权。谁开发出新的分析工具,据,谁就有主动权。谁开发出新的分析工具,谁就有能力分析数据,谁就有新发现可能性。谁就有能力分析数据,谁就有新发现可能性。 科学研究以数据导向为主科学研究以数据导向为主 先获取数据,后有分析,再建立假说来指先获取数据,后有分析,再建立假说来指导新一轮的数据获取和实验研究。研究的启动导新一轮的数据获取和实验研究。研究的启动不完全取决于科学知识的前期积累。比如,河不完全取决于科学知识的前期积累。比如,河豚鱼
23、基因组测序计划的启动就是为了配合和补豚鱼基因组测序计划的启动就是为了配合和补足人类基因组计划的可能弱点。足人类基因组计划的可能弱点。 超学科性超学科性 它是在学科的交叉和交流中生成和成长它是在学科的交叉和交流中生成和成长的。紧紧抓住这个特点,积极在组织上和的。紧紧抓住这个特点,积极在组织上和机制上创造学科交叉的条件是科学成功的机制上创造学科交叉的条件是科学成功的关键。关键。 极强的竞争性极强的竞争性 不仅科研对失败者来说是无情的,而且不仅科研对失败者来说是无情的,而且用户对失败者也是不同情的。被遗弃的算用户对失败者也是不同情的。被遗弃的算法、工具和不完整的数据库比比皆是。法、工具和不完整的数据
24、库比比皆是。4 4、生物信息学领域的重要科学问题、生物信息学领域的重要科学问题 包括从单细胞到多细胞生物的真核生物是在生物包括从单细胞到多细胞生物的真核生物是在生物进化上复杂性渐进的生命群进化上复杂性渐进的生命群。真核生物基因组在。真核生物基因组在进化过程中发生了从进化过程中发生了从DNA组分到基因结构的阶段组分到基因结构的阶段性变化。这些变化为性变化。这些变化为Ab inito基因识别提出不同基因识别提出不同的挑战。的挑战。 目前的基因识别步骤和软件都不能满足生物学研目前的基因识别步骤和软件都不能满足生物学研究日新月异的需要。以实验数据为基础,以相近究日新月异的需要。以实验数据为基础,以相近
25、(如亚种间)和同类(如温血动物间)基因组间(如亚种间)和同类(如温血动物间)基因组间的比较为手段,建立基因组(或物种)特异和多的比较为手段,建立基因组(或物种)特异和多用途基因识别软件包和系统用途基因识别软件包和系统,揭示真核生物基因组揭示真核生物基因组进化的分子机制。进化的分子机制。 核苷酸多态性的研究是以发现和分析群体核苷酸多态性的研究是以发现和分析群体(包括相近亚种间)(包括相近亚种间)DNA顺序上的差别为顺序上的差别为基础,揭示这些多态性与基因表达和基因基础,揭示这些多态性与基因表达和基因功能的关系,基因型和表现型的内在联系。功能的关系,基因型和表现型的内在联系。为我们绘制人类基因组单
26、倍体图和以后绘为我们绘制人类基因组单倍体图和以后绘制其他物种的遗传图谱奠定基础。制其他物种的遗传图谱奠定基础。 RNARNA水平基因表达研究的基本方法有水平基因表达研究的基本方法有ESTEST、SAGESAGE以及以及Micro-arrayMicro-array,所产生,所产生的数据量也非常巨大。但是目前的分的数据量也非常巨大。但是目前的分析方法和手段都有很多潜力可以挖掘,析方法和手段都有很多潜力可以挖掘,尤其是数学模型的建立,与基因组数尤其是数学模型的建立,与基因组数据的整合,对数据真实性的评估等。据的整合,对数据真实性的评估等。 研究物种全部蛋白质结构与功能以及研究物种全部蛋白质结构与功能
27、以及它们相关性的学问称为蛋白质组学。它们相关性的学问称为蛋白质组学。蛋白质间的识别、相互作用、细胞学蛋白质间的识别、相互作用、细胞学机制的形成、功能网络的相关性等都机制的形成、功能网络的相关性等都需要海量的数据积累、处理、显示、需要海量的数据积累、处理、显示、模拟和实验验证。建立一个系统的、模拟和实验验证。建立一个系统的、有普遍性的信息体系是必不可少的。有普遍性的信息体系是必不可少的。 生命存在、生长和繁衍的动态基础是生命存在、生长和繁衍的动态基础是新陈代谢。新陈代谢是由错综复杂的新陈代谢。新陈代谢是由错综复杂的生化代谢途径所构成的动态网络组成。生化代谢途径所构成的动态网络组成。要揭示代谢的本
28、质是一个长期的目标。要揭示代谢的本质是一个长期的目标。但是,我们可以从现有数据出发建立但是,我们可以从现有数据出发建立主要或特定代谢途径的模型,如植物主要或特定代谢途径的模型,如植物光合作用、家猪重要经济性状、影响光合作用、家猪重要经济性状、影响人类健康的常见代谢疾病等。人类健康的常见代谢疾病等。 基因功能研究的瓶颈是实验的证明。运用基因功能研究的瓶颈是实验的证明。运用信息学的方法来预测基因产物的功能为基信息学的方法来预测基因产物的功能为基因功能的规模化验证开辟了一条必要途径。因功能的规模化验证开辟了一条必要途径。这些方法包括,蛋白质功能域的识别,启这些方法包括,蛋白质功能域的识别,启动子识别
29、、动子识别、RNA协同表达模型,蛋白质三协同表达模型,蛋白质三维结构预测等。整合这些体系,建立系统维结构预测等。整合这些体系,建立系统软件,发展新的算法等是重要的科学命题软件,发展新的算法等是重要的科学命题。 基因组学和信息学研究都有其特定的、基因组学和信息学研究都有其特定的、不断创新的方法学。以系统优化、软不断创新的方法学。以系统优化、软件并行化和数据处理技术为主体的海件并行化和数据处理技术为主体的海量生物学数据处理体系的建立将基于量生物学数据处理体系的建立将基于新的思路和设想。新的思路和设想。 5 5、生命科学信息的算法和工具、生命科学信息的算法和工具 基因识别与预测软件基因识别与预测软件
30、 由于生物学基本数据形态各异,因此涉及由于生物学基本数据形态各异,因此涉及的算法和数理知识面很广。以隐马为基础的算法和数理知识面很广。以隐马为基础的的ab inito的预测方法是大多数现有基因识的预测方法是大多数现有基因识别软件的主要方法。在此基础上,人们已别软件的主要方法。在此基础上,人们已开始注意到统计效应不明显的基因和一些开始注意到统计效应不明显的基因和一些非编码基因,非编码基因,cDNA、比较基因组学信息的、比较基因组学信息的引入,使找基因的效率提高。由于基因是引入,使找基因的效率提高。由于基因是物种行使功能的基本单位,基因的识别与物种行使功能的基本单位,基因的识别与预测的完整性和准确
31、性直接影响后续开发预测的完整性和准确性直接影响后续开发的速度。的速度。基本信息采集的算法和软件包基本信息采集的算法和软件包 这类软件的是得到大规模的生物信息的基这类软件的是得到大规模的生物信息的基本工具。它包括全基因组组装算法、本工具。它包括全基因组组装算法、SNP发现软件、芯片相关信息处理软件和蛋白发现软件、芯片相关信息处理软件和蛋白质的质谱质的质谱de novo 算法等。算法等。 数据挖掘算法和软件工具数据挖掘算法和软件工具 海量数据的出现使得人们从单基因水海量数据的出现使得人们从单基因水平扩展到全局水平,因此许多规律的平扩展到全局水平,因此许多规律的掌握和现象的阐述需要统计学和算法掌握和
32、现象的阐述需要统计学和算法领域的介入。在此基础上的算法体系领域的介入。在此基础上的算法体系的建立也一直是科学家关注的焦点,的建立也一直是科学家关注的焦点,许多新的观点、思路和科学发现也因许多新的观点、思路和科学发现也因此而生。此而生。 系统研究思路基因组序列信息的采集(包括多态性分析)找基因和其他功能元素定位基因和研究他们的表达在细胞过程中定位基因产物在系统网络中定义细胞过程联系物种的内部网络和它的生存环境提高健康水平得到更好的作物例子:水稻相关系统研究算法研究海量数据处理系统研究思路系统研究思路三个层面三个层面 整合以各种整合以各种“-omics”为主体的分子、为主体的分子、细胞、群细胞、群
33、/个体三个层面的信息,为绘个体三个层面的信息,为绘制生命活动信息化、数字化的时空图制生命活动信息化、数字化的时空图像和生物信息的有效利用打下基础。像和生物信息的有效利用打下基础。 复杂生物信息在各层面的整合复杂生物信息在各层面的整合 从基因组出发,系统研究从基因组出发,系统研究基因的结构和功能基因的结构和功能基因组ProteomicsSystems genomics 所有活着的物种都有自己的基因组。 所有的基因都是他们的基因组编码。 所有基因的功能通过他们的RNA或者蛋白质产物实现.基因组生物信息学转录组和蛋白质组代谢组机制组生理组 所有基因产物相互作用,建立截然不同的代谢途径和作用机制,从而
34、形成不同的生理学行为。四种数据四种数据 原始数据(原始数据(Original data)。)。原始数据的拥有原始数据的拥有是与其开采有关,开采的能力决定了数据量。是与其开采有关,开采的能力决定了数据量。它的多寡直接有科研的创新和深入有关。它的多寡直接有科研的创新和深入有关。 科学文献(科学文献(Scientific literature)。)。这类数据这类数据是专家研读、理解和加工后分类的数据。生命是专家研读、理解和加工后分类的数据。生命科学的各个领域相互交叉,在百年的历史中产科学的各个领域相互交叉,在百年的历史中产生了浩如烟海的知识和数据。这类数据的发掘生了浩如烟海的知识和数据。这类数据的发
35、掘已经引起关注。但由于它的开采过程是一个高已经引起关注。但由于它的开采过程是一个高级劳动力密集型的工作,只在某些局部有所展级劳动力密集型的工作,只在某些局部有所展开。急需开。急需: 数据的管理框架和工程的组织。数据的管理框架和工程的组织。 经典数据(经典数据(Datasets)。)。经过生物学和信经过生物学和信息学专家整理和验证过的数据,主要用于息学专家整理和验证过的数据,主要用于方法学的研究和信息理论研究。获取它的方法学的研究和信息理论研究。获取它的关键是对信息化数据和实验数据的理解。关键是对信息化数据和实验数据的理解。 综合性数据(综合性数据(Organized data)。包括以。包括以
36、生物体系为核心组织的相关性数据,如以生物体系为核心组织的相关性数据,如以细胞细胞/受精卵受精卵/组织等为单位的基因表达谱;组织等为单位的基因表达谱;RNA表达与蛋白质表达的相关性,基因突表达与蛋白质表达的相关性,基因突变有表现型的关系等。变有表现型的关系等。五个图谱 基于基于DNA序列的物种基因注释图谱。序列的物种基因注释图谱。 基因组多态性和遗传单倍体图。物种遗传基因组多态性和遗传单倍体图。物种遗传和进化的忠实记录,对疾病基因的鉴定,和进化的忠实记录,对疾病基因的鉴定,遗传育种实践都有非常重要的知道意义。遗传育种实践都有非常重要的知道意义。 基因产物(基因产物(RNA和蛋白质)时空表达分布和
37、蛋白质)时空表达分布图图 细胞机制和组分相关图细胞机制和组分相关图 生理过程和代谢途径相关图生理过程和代谢途径相关图6 6、我国生物信息学研究的目标、我国生物信息学研究的目标 (1 1)生物信息的获取与开发:)生物信息的获取与开发:建立国家级的建立国家级的生物信息搜集、分析和服务基地,形成开生物信息搜集、分析和服务基地,形成开放式和标准化的生物信息数据库应用、服放式和标准化的生物信息数据库应用、服务体系和技术平台,为我国生物技术的研务体系和技术平台,为我国生物技术的研究提供高效服务;重点建成一批有特色、究提供高效服务;重点建成一批有特色、可整合的一级和二级数据库。可整合的一级和二级数据库。(2
38、 2)生物信息加工和利用:)生物信息加工和利用:建立用于基因组、建立用于基因组、功能基因组和高通量生物技术研究,可整功能基因组和高通量生物技术研究,可整合各种相关信息及分析计算方法、界面友合各种相关信息及分析计算方法、界面友好的数据分析技术平台,开发出若干具有好的数据分析技术平台,开发出若干具有自主知识产权、有商业化前景的计算机分自主知识产权、有商业化前景的计算机分析系统和生物信息学软件包。析系统和生物信息学软件包。(3 3)结构基因组和蛋白质组学研究:)结构基因组和蛋白质组学研究: 建立有一定竞争力的结构基因组学研究和建立有一定竞争力的结构基因组学研究和蛋白质组学研究的技术平台,完成一批新蛋
39、白蛋白质组学研究的技术平台,完成一批新蛋白质或有重要价值的蛋白质及其复合物的结构测质或有重要价值的蛋白质及其复合物的结构测定;初步完成蛋白质组信息处理、分析和解释定;初步完成蛋白质组信息处理、分析和解释的生物信息学方法与工具的研制,提供对重大的生物信息学方法与工具的研制,提供对重大疾病的预警、诊断和治疗有应用前景的候选靶疾病的预警、诊断和治疗有应用前景的候选靶标。标。 (4 4)高通量药物筛选及相关技术:)高通量药物筛选及相关技术: 建立高通量药物筛选新模型;建立具有结建立高通量药物筛选新模型;建立具有结构多样性的化合物样品库;完善高通量药物筛构多样性的化合物样品库;完善高通量药物筛选和组合化
40、学新技术平台;发现一批具有自主选和组合化学新技术平台;发现一批具有自主知识产权的创新药物先导化合物。知识产权的创新药物先导化合物。(5 5)小分子药物设计和分子设计:)小分子药物设计和分子设计: 发现具有新机理、新结构类型的原创性发现具有新机理、新结构类型的原创性先导化合物,获得一批国际专利;针对药先导化合物,获得一批国际专利;针对药物设计及分子设计的关键环节,研发具有物设计及分子设计的关键环节,研发具有自主知识产权可供推广应用的软件并获得自主知识产权可供推广应用的软件并获得版权;获得应用前景明确的蛋白质及其它版权;获得应用前景明确的蛋白质及其它生物功能分子。生物功能分子。 (6 6)生物芯片
41、:)生物芯片: 建立和完善生物芯片的技术平台,研制有建立和完善生物芯片的技术平台,研制有重要应用价值的基因组表达芯片及检测专重要应用价值的基因组表达芯片及检测专用生物芯片,开发出实用的生物技术和基用生物芯片,开发出实用的生物技术和基因组研究、医学诊断、农产品开发等生物因组研究、医学诊断、农产品开发等生物芯片新技术、新方法、新产品。芯片新技术、新方法、新产品。(7 7)化学创新药物与新剂型:)化学创新药物与新剂型: 创新药物研究需在三年内完成临床前创新药物研究需在三年内完成临床前阶段的综合评价,确证其是否具有临床阶段的综合评价,确证其是否具有临床应用前景;新剂型研究需针对重要疾病,应用前景;新剂
42、型研究需针对重要疾病,研发出市场覆盖面广、需求量大、具有研发出市场覆盖面广、需求量大、具有自主知识产权的新制剂或新辅料,在三自主知识产权的新制剂或新辅料,在三年内可以获得临床批文或新药证书。年内可以获得临床批文或新药证书。 7 7、蛋白质组的生物信息学、蛋白质组的生物信息学蛋白质组研究的重要优势在于能够从整体水平蛋白质组研究的重要优势在于能够从整体水平上分析不同条件下蛋白质谱的变化,做为一种上分析不同条件下蛋白质谱的变化,做为一种差异显示技术,人们可以构建高质量的基本的差异显示技术,人们可以构建高质量的基本的人的看家蛋白质双向电泳图谱,以此作为其他人的看家蛋白质双向电泳图谱,以此作为其他组织、
43、细胞的参照图谱,研究新算法,进行蛋组织、细胞的参照图谱,研究新算法,进行蛋白质组差异表达谱分析。白质组差异表达谱分析。蛋白质各种翻译后修饰的研究。运用图像分析蛋白质各种翻译后修饰的研究。运用图像分析软件,在双向电泳数据库的参考图上,分析蛋软件,在双向电泳数据库的参考图上,分析蛋白质位置与该蛋白的理论预测位置的差异,构白质位置与该蛋白的理论预测位置的差异,构建双向电泳矢量图。针对不同翻译后修饰与蛋建双向电泳矢量图。针对不同翻译后修饰与蛋白质双向电泳迁移位置效应关系,建立一个矢白质双向电泳迁移位置效应关系,建立一个矢量库,从而有利于蛋白质翻译后修饰种类和程量库,从而有利于蛋白质翻译后修饰种类和程度
44、等预测,为实验研究提供信息。度等预测,为实验研究提供信息。 建立蛋白质建立蛋白质- -蛋白质相互作用连锁群的理论蛋白质相互作用连锁群的理论分析模型,如:分析模型,如:phylogeneticphylogenetic profile profile方方法、法、Rosetta StoneRosetta Stone方法和方法和gene neighbourgene neighbour方法等,从蛋白质组的水平上阐述蛋白质方法等,从蛋白质组的水平上阐述蛋白质- -蛋白质相互作用网络。蛋白质相互作用网络。 建立蛋白质组数据标准(建立蛋白质组数据标准(ontologyontology),建),建立可整合大量相
45、关数据库的蛋白质组立可整合大量相关数据库的蛋白质组- -基因基因组联合数据仓库。组联合数据仓库。 研究开发大规模、高通量、自动化的基于研究开发大规模、高通量、自动化的基于webweb界面的蛋白质组数据自动化注释系统。界面的蛋白质组数据自动化注释系统。 生物信息学课题组系统构成PC ServerQuantaand GCG SoftwarePC“我不能拿诺贝尔奖,但拿诺贝尔奖我不能拿诺贝尔奖,但拿诺贝尔奖的生物学家都知道我的工作。的生物学家都知道我的工作。”二、数据库的构建二、数据库的构建 1、工程前期工作、工程前期工作 (1)用户调研)用户调研 (2)需求分析)需求分析 (3)建立系统原型)建立
46、系统原型 (4)建立总体实施方案)建立总体实施方案 (5)建立组织机构、制度)建立组织机构、制度 2、软件系统实现、软件系统实现 (1)系统设计)系统设计 (2 2)程序质量)程序质量 (3 3)组织管理)组织管理 (4 4)实现技术)实现技术 (5 5)软件测试)软件测试3 3、实施及维护、实施及维护 (1 1)管理者完成的工作)管理者完成的工作 (2 2)维护阶段的投入)维护阶段的投入 (3 3)加强与拥护的沟通)加强与拥护的沟通 4 4、MySQLMySQL数据库数据库 (1 1)MySQLMySQL简介简介 LinuxLinux上使用:一种免费的类上使用:一种免费的类UnixUnix操
47、操作系统。作系统。 MySQLMySQL是一个多用户、多线程是一个多用户、多线程SQLSQL(结构话查询语言)数据库服务器。(结构话查询语言)数据库服务器。 (2 2)MySQLMySQL的一些重要特征的一些重要特征 三、蛋白质组研究中常用的网站及数据库三、蛋白质组研究中常用的网站及数据库 1 1、蛋白质数据库、蛋白质数据库SWISS-PROT/TrEMBLSWISS-PROT/TrEMBL http:/www.expsy.ch/sporthttp:/www.expsy.ch/sport http:/www.ebi.ac.uk/swissport http:/www.ebi.ac.uk/swi
48、ssport 内容:注释的蛋白数据库内容:注释的蛋白数据库 特点:高度注释、冗余程度最低、与其特点:高度注释、冗余程度最低、与其它数据库整合程度最高。补充:它数据库整合程度最高。补充:TrEMBL,源于源于EMBL。SWISS-PROT and TrEMBL a h i g h l e v e l o f annotations (such as the description of the function of a protein, its domains structure, post-translational modifications, variants, etc), a mini
49、mal level of redundancy and high level of integration with other databases supplement of SWISS-PROT , contains all the translations of EMBL nucleotide sequence entries not yet integrated in SWISS-PROT. is a non-redundant composite of four publicly-available primary sources: SWISS-PROT, PIR (1-3), Ge
50、nBank (translation) and NRL-3D. is a composite, non-redundant protein database compiled by NCBI for use with their search tools BLAST and Entrez. The entries have been compiled from GenBank CDS translations, PIR, SWISS-PROT, PRF, and PDB. is the division of GenBank that contains single-pass cDNA seq