1、生物信息学生物信息学 说文解字:生物 + 信息 + 学学 (bioinformatics) biology + information + theory 广义广义 应用信息科学的方法和技术,研究生物体系和生物过程中信息的存贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各种生物信息,或者也可以说成是生命科学生命科学中的信息科学信息科学。 狭义狭义 应用信息科学信息科学的理论、方法和技术,管理、分析和利用生物分子生物分子数据。 生命信息系统生物所处的时空系统 物质系统,信息传递与控制,能量相关学科图示广义概念图示狭义概念图示总结:生物信息学 生物信息学(Bi
2、oinformatics) 是一门新兴的交叉学科,是生命科学领域中的新兴学科,面对人类基因组计划等各种项目所产生的庞大的分子生物学信息,生物信息学的重要性将越来越突出,它将会为生命科学的研究带来革命性的变革。 生物信息学是在生命科学的研究中,以计算机为工具对生物信息进行储存、检索和分析的科学。 生物信息学是当今生命科学和自然科学的重大前沿领域之一,同时也将是21世纪自然科学的核心领域之一,其研究重点主要体现在基因组学(Genomics)和蛋白组学(Proteomics) 。 生物学基础速递 细胞(分子水平) 个体生命 生命之树生命的分子基础 细胞/分子水平 DNA/RNA 蛋白质 糖 脂类 D
3、NA结构和碱基互补原理中心法则生物信息学的历史曼哈顿原子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计划人类基因组计划人类基因组计划6060年代初,美国总统年代初,美国总统KennedyKennedy提出两个科学计划:提出两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因组计划(HGP,Human Genome Project)生命活动三要素:物质、能量、信息生命活动三要素:物质、能量、信息 DNA: 遗传物质遗传物质(遗传信息的载体遗传信息的载体) 双螺旋结构双螺旋结构 A, C, G, T四种基本字符的复杂文本四种基本字
4、符的复杂文本 基因基因(Gene):具有遗传效应的:具有遗传效应的DNA分子片段分子片段 基因组基因组(Genome)(Genome):包含包含细胞或生物体细胞或生物体全套的遗传信息的全部全套的遗传信息的全部 遗传物质。遗传物质。原核生物原核生物( (细菌、病毒等细菌、病毒等) ) 真核生物真核生物( (真菌、植物、动物等真菌、植物、动物等) )人类基因组:人类基因组: 3.2109 bp 1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义1985 Dulbecco在Science撰文 “肿瘤研究的转折点:人 类基因组的测序” 美国能源部(DOE)提出“人类基因
5、组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类 基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基因组研究中心”,Watson担任 第一任主任1990.10 经美国国会批准,人类基因组计划正式启动19951995 第一个自由生物体流感嗜血菌第一个自由生物体流感嗜血菌( (H. infH. inf) )的全基因组测序完成的全基因组测序完成1996 1996 完成人类基因组计划的遗传作图完成人类基因组计划的遗传作图 启动模式生物基因组计划启动模式生物基因组计划H.inf全基因组全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caen
6、orhabditis elegans秀丽线虫秀丽线虫1997 1997 大肠杆菌大肠杆菌( (E.coliE.coli) )全基因组测序完成全基因组测序完成1998 1998 完成人类基因组计划的物理作图完成人类基因组计划的物理作图 开始人类基因组的大规模测序开始人类基因组的大规模测序 CeleraCelera公司加入,与公共领域竞争公司加入,与公共领域竞争 启动水稻基因组计划启动水稻基因组计划1999.7 1999.7 第第5 5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划19
7、99.7 第5届国际公共领域人类基因组测序会议,加快测序速度2000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥全基 因组的测序工作Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥2001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果2001.2.16 Science刊文发表Celera公司及其合作者结果我国对人类基因组计划的贡
8、献我国对人类基因组计划的贡献6/1-8/31/99NoCenterRegionSize(Mb)Actual KGenbank KrProjected Kr4/1-11/30/99Proj Accum.Mr. 4/99-3/001Sanger Centre1,6,9,10,13,20,22,X85013009414200122WIBR(Clones from Wash U)837296290083Wash U2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1,2,3,X2304622616603.16Rike
9、n21,18,11q1601361955202.17IMB8,21,X50180321801.58GenoscopeMost of 14851001183001.49U. Wash (Olson)10 Beijing3p3012.512.51000.511 GTC (Smith)105051500.4512 MPIMG17,21,X6.94012400.313 GBF21, reg of 96500.314 Stanford (Davis)8231370.2915 Keio2,6,8,22,213011751100.2316 U. Wash (Hood LAB) 14,15267127400.
10、17Total2671Mb4663Kr2950Kr13687Kr32.64Mr 随着实验数据和可利用信息急剧增加,信息的管理和随着实验数据和可利用信息急剧增加,信息的管理和分析成为分析成为HGP的一项重要的工作的一项重要的工作 发现生物学发现生物学规律规律解读生物解读生物遗传密码遗传密码认识生命的本质认识生命的本质研究基因组数据研究基因组数据之间的关系之间的关系分析现有的分析现有的基因组数据基因组数据利用数学模型利用数学模型和计算技术和计算技术 各学科参与、协作:生命科学、数学、物理学、化学、计算机 科学、材料科学以及伦理、法律等社会科学 首要科学问题首要科学问题 如何找到记载在基因组DNA一
11、维结构上控制生命时间、空间 的调控信息的编码方式和调节规律。 应用数学、复杂系统理论、信息论、非线性科学 催生生物信息学生物信息学、计算生物学计算生物学 芯片技术芯片技术 交叉性技术领域:物理学、微电子信息技术、生化技术、信 息技术、自动化、材料科学 结构生物学结构生物学 前沿领域之一:生物物理学、生物化学、晶体学、波谱学、 光谱学以及X射线晶体衍射技术、核磁共振技术25生物信息学的发展历史生物信息学的发展历史生物信息学生物信息学基本思想的产生基本思想的产生 生物信息学生物信息学 的迅速发展的迅速发展二十世纪二十世纪50年代年代二十世纪二十世纪80-90年代年代生物科学和生物科学和技术的技术的
12、发展发展人类基因组人类基因组计划的计划的推动推动 26 2020世纪世纪5050年代,生物信息学开始孕育年代,生物信息学开始孕育 2020世纪世纪6060年代,生物分子信息在概念上将计算年代,生物分子信息在概念上将计算 生物学和计算机科学联系起来生物学和计算机科学联系起来 2020世纪世纪7070年代,生物信息学的真正开端年代,生物信息学的真正开端 2020世纪世纪7070年代到年代到8080年代初期年代初期 ,出现了一系列著,出现了一系列著 名的序列比较方法和生物信息分析方法名的序列比较方法和生物信息分析方法 2020世纪世纪8080年代以后,出现一批生物信息服务机年代以后,出现一批生物信息
13、服务机 构和生物信息数据库构和生物信息数据库 2020世纪世纪9090年代后年代后 ,HGPHGP促进生物信息学的迅速促进生物信息学的迅速 发展发展27关于生物信息学发展历程中的重要大事,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:请参见下面两个网站的介绍:http:/www.ncbi.nlm.nih.gov/Education/BLASTinfo/milestones.html、http:/www.biosino.org/bioinformatics/。生物信息学的研究内容生物信息学的研究内容1、 生物分子数据的收集与管理生物分子数据的收集与管理2、 数据库搜索及序列比较数
14、据库搜索及序列比较 3、 基因组序列分析基因组序列分析 4、基因表达数据的分析与处理、基因表达数据的分析与处理 5、蛋白质结构与功能预测、蛋白质结构与功能预测6、基因、基因-蛋白相互作用网络蛋白相互作用网络 7、整个系统调控网络、整个系统调控网络基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR数据库搜索及序列比较数据库搜索及序列比较 搜索同源序列在一定程度上就是通过序列比较搜索同源序列在一定程度上就是通过序列比较寻找相似序列寻找相似序列 序列比较序列比较的一个基本操作就是的一个基本操作
15、就是比对比对(Alignment),即将两个序列的各个字符),即将两个序列的各个字符(代表核苷酸或者氨基酸残基)按照对应等同(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结果是两个序或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的一种列共有的排列顺序,这是序列相似程度的一种定性描述定性描述 多重序列比对多重序列比对研究的是多个序列的共性。序列研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,的多重比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。也可用于研究一组蛋白质之间的进化关系。 基因组序列分析基
16、因组序列分析 遗传语言分析遗传语言分析天书天书 基因组结构分析基因组结构分析 基因识别基因识别 基因功能注释基因功能注释 基因调控信息分析基因调控信息分析 基因组比较基因组比较基因表达数据的分析与处理基因表达数据的分析与处理 基因表达数据分析基因表达数据分析是目前生物信息学研究的热是目前生物信息学研究的热 点和重点点和重点 目前对基因表达数据的处理主要是进行目前对基因表达数据的处理主要是进行聚类分聚类分 析析,将表达模式相似的基因聚为一类,在此基,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能 所用方法所用方法主要有:相关分析方法、模式识
17、别技主要有:相关分析方法、模式识别技术中的层次式聚类方法、人工智能中的自组织术中的层次式聚类方法、人工智能中的自组织映射神经网络、主元分析方法映射神经网络、主元分析方法 等等 表达数据表达数据缺点缺点:仅反映:仅反映mRNA丰度,噪声,丰度,噪声,蛋白质结构预测蛋白质结构预测 蛋白质的生物蛋白质的生物功能功能由蛋白质的由蛋白质的结构结构所决定所决定 ,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径 蛋白质结构预测分为蛋白质结构预测分为: 二级结构预测二级结构预测 空间结构预测空间结构预测 蛋白质折叠蛋白质折叠二级结构预测二级结构预测 在一定程度上二级结构
18、的预测可以归结为模式识别问题在一定程度上二级结构的预测可以归结为模式识别问题 在二级结构预测方面主要方法有:在二级结构预测方面主要方法有: 立体化学方法立体化学方法 图论方法图论方法 统计方法统计方法 最邻近决策方法最邻近决策方法 基于规则的专家系统方法基于规则的专家系统方法 分子动力学方法分子动力学方法 人工神经网络方法人工神经网络方法 预测准确率超过预测准确率超过70%的第一个软件是基于神经网络的的第一个软件是基于神经网络的PHD系统系统空间结构预测空间结构预测 在空间结构预测方面,比较成功的理论在空间结构预测方面,比较成功的理论方法是方法是同源模型法同源模型法 该方法的依据是:相似序列的
19、蛋白质倾该方法的依据是:相似序列的蛋白质倾向于折叠成相似的三维空间结构向于折叠成相似的三维空间结构 运用同源模型方法可以完成所有蛋白质运用同源模型方法可以完成所有蛋白质10-30%的空间结构预测工作的空间结构预测工作 生物信息学当前的主要任务生物信息学当前的主要任务 当今生物信息学界的大当今生物信息学界的大部分人都把注意力集中在部分人都把注意力集中在基基因组、蛋白质组、蛋白质结因组、蛋白质组、蛋白质结构构以及与之相结合的以及与之相结合的药物设药物设计计上,随蛋白组学、代谢组上,随蛋白组学、代谢组学进一步的发展,将在学进一步的发展,将在整体整体水平进行水平进行 基因组基因组 新基因的发现新基因的
20、发现 通过计算分析从EST(Expressed Sequence Tags)序列库中拼接出完整的新基因编码区,也就是通俗所说的“电子克隆电子克隆”;通过计算分析从基因组DNA序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。 非蛋白编码区生物学意义的分析非蛋白编码区生物学意义的分析 非蛋白编码区约占人类基因组的95%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物
21、学功能可能体现在对基因表达的时空调控上。 对非蛋白编码区进行生物学意义分析的策略有两种,一种一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。 基因组整体功能及其调节网络的系统把握基因组整体功能及其调节网络的系统把握 把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯片基因芯片技术
22、由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是网络机制,便成了生物信息学在该领域中首先要解决的问题。 基因组演化与物种演化基因组演化与物种演化 (生命之树) 尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的
23、部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整从基因组整体结构组织和整体功能调节网络方面,结合相应的生体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。物种真实演化历史的最佳途径。 基因组对生命体的整体控制必须通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表
24、达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况; 近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术二维凝胶电泳技术和质谱质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运转和调控的整体系统的分子机制。 蛋白质组蛋白质组 基因组和蛋白质组研究的迅猛发展,使许多新蛋
25、白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不蛋白质三维结构也不一定是静态的,在行使功能的过程一定是静态的,在行使功能的过程中其结构也会相应的有所改变中其结构也会相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三维结构蛋白质结构蛋白质结构 另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百
26、到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构 新药设计新药设计 随着结构生物学的发展,相当数量的蛋白质以及一些核酸、多糖的三维结构获得精确测定,基于生物大分子结构知识的药物设计成为当前的热点。生物信息学的研究不仅可提供生物大分子空间结构的信息,还能提供电子结构的信息,如能级、表面电荷分布、分子轨道相互作用等以及动力学行为的信息,如生物化学反应中的能量变化、电荷转移、构象变化等。理论模拟还可研究包括生物分子及其周围环境的复杂体系和生物分子的量子效应。结构结构 功能功能 行为行
27、为 但生物信息学的任务远不止于此。在以上工作的基础上,最重要的是如何运用数理理论成果对生物体进行完整系统的数理模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来认识和控制自身以及所有其他的生命体生物信息学不仅仅是一门科学学科,生物信息学不仅仅是一门科学学科, 它更是一种重要的研究开发工具。它更是一种重要的研究开发工具。 从科学的角度来讲,它是一门研究生物和生物相关系统中信息内容物和信息流向的综合系统科学,只有通过生物信息学的计算处理,我们才能从众多分散的生物学观测数据中获得对生命运行机制的详细和系统的理解。 从工具的角度来讲,它是今后几乎进行所有生物(医药)研究开发所必需的舵
28、手和动力机,只有基于生物信息学通过对大量已有数据资料的分析处理所提供的理论指导和分析,我们才能选择正确的研发方向,同样,只有选择正确的生物信息学分析方法和手段,我们才能正确处理和评价新的观测数据并得到准确的结论。生物信息学的研究意义生物信息学的研究意义生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心 认识生物本质认识生物本质 了解生物分子信息的组织和结构,破译基因了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系组信息,阐明生物信息之间的关系 改变生物学的研究方式改变生物学的研究方式 改变传统研究方式,引进现代信息学方法改变传统研究方式,引进现代信息学方法 在
29、医学上的重要意义在医学上的重要意义 为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据 为设计新药提供依据为设计新药提供依据生物信息学系统化概图生物信息学所用的方法和技术生物信息学所用的方法和技术 1、数学统计方法数学统计方法 (高维、样本量的问题高维、样本量的问题)2、动态规划方法、动态规划方法 3、机器学习与模式识别技术、机器学习与模式识别技术 (从数据中学习)(从数据中学习)4、数据库技术及数据挖掘、数据库技术及数据挖掘 5、人工神经网络技术、人工神经网络技术6、专家系统、专家系统 7、分子模型化技术、分子模型化技术8、量子力学和分子力学计算、量子力学和分子力学计算 9、生物分子的计算
30、机模拟、生物分子的计算机模拟10、因特网(、因特网(Internet)技术)技术(Grid计算计算) 。目前进展 生物信息学与系统生物学(Systems Biology) 还原论 整体论 系统生物学的4个层次:【?】 系统的结构系统的结构 系统的动力学系统的动力学 系统的控制系统的控制 系统的设计系统的设计 生物系统的复杂性!一切从基因组开始 “基因组到生命”(Genomes to Life,GTL)计划 国内外状况 国外 http:/ 国内 北大、清华 上海生物信息中心 华大基因组信息中心(北京 杭州 深圳) 天大生物信息中心 中科院计算所生物信息中心 复旦理论生物中心 。 炎黄项目中基因与
31、疾病相关部分将实现以下四个大的目标: 1)选取一个代表中国人,建立覆盖95%序列以上的全基因组精细图谱; 2)选取包括汉族、少数民族、东亚地区不同国家人群在内的100个个体;测序约400个覆盖度,找到能够覆盖所有大于1%的突变的大约100万个分子标记,建立东亚人种特异性的高密度、高分辨医学遗传图谱; 3)利用医学遗传图谱,建立包括可用于筛查疾病相关基因的分子标记集,大规模筛查中国(东亚)人群特异性疾病。初步选择高血压、高血糖、血脂异常、骨质疏松四种高发多基因复杂疾病,通过疾病和正常个体的比较,识别出疾病表型强关联性遗传多态性位点组合,用于这些疾病的预测; 4)专利疾病关联多态性位点(约100个
32、),与商业操作相结合,扩大样本量,并结合个体所处的环境因素,验证候选位点,合理进行疾病的预防和个性化诊疗; 5)对疾病相关位点进行功能分析,阐明疾病致病机理,从而加快基因研究成果进入临床的步伐。 摘自华大深圳研究院网站机遇生物信息学人才需求 学校的人才培养(系统化训练) (深圳大学、大学城、南方科技大学)公司/企业微芯生物微芯生物 是国内研发小分子专利创新药物的标志性企业,其自行构建的基于化学基因组学的集成式药物创新与早期评价体系是当今国际新药研发的最重要手段之一(2005年被批准成为“深圳市化学创新药物工程技术中心”) 。 医疗机构(北京大学深圳医院)机遇个性化医疗(疾病的治疗是一种艺术)诊
33、断(家族历史)治疗(基因治疗)制药(中药现代化)机遇芯片技术产业芯片技术产业与服务 第一种分类:微阵列芯片和微流控芯片 (第二种分类:主动式芯片与被动式芯片 )微阵列芯片基因芯片蛋白芯片组织芯片 由科技部主办,清华大学、中国医药生物技术协会、中国医药生物技术协会生物芯片分会、中华医学会健康管理学分会、生物芯片北京国家工程研究中心承办的“生物芯片在医学和食品安检中的应用大会”于2008年4月21日23日在北京中关村生命科学园内召开。 会议就生物芯片在肿瘤研究、生殖发育研究、临床诊断、个体化医疗、农兽药残留检测、致病微生物检测和药物研究及开发中的应用等主题,还举办了生物芯片及相关设备试剂展览。 机
34、遇生物数据挖掘与服务 基因筛选基因识别与发现基因功能预测蛋白结合位点预测蛋白组数据分析。挑战 民间的合作 学校与学校 学校与企业 深圳、香港、珠三角产学研合作时刻铭记时刻铭记 实验永远起着决定作用实验永远起着决定作用 计算计算/理论生物学的发展离不开实理论生物学的发展离不开实验生物学的贡献验生物学的贡献 实验生物学日益依赖计算实验生物学日益依赖计算/理论生理论生物学的指导物学的指导 重视基础研究,原创重视基础研究,原创!2121世纪生命科学世纪生命科学理论理论计算计算实验实验数学与物理科学数学与物理科学 学习和超越 上海生物信息技术研究中心(www.scbit.org) 2002年8月,上海市
35、科学技术委员会依托中国科学院上海生命科学研究院、国家人类基因组南方研究中心、复旦大学、上海交通大学、上海第二医科大学、上海医药工业研究院和中国科学院上海有机化学研究所等单位,整合上海生物信息学主要研究力量,正式组建了上海生物信息技术研究中心(以下简称“中心”)。“中心”作为上海市编制的自收自支的独立事业法人单位,是我国第一个以推动我国生物信息学数据共享为目的,完全从事生命科学数据库建设、生物信息学软件开发的地方政府支持的独立事业法人单位。64生物信息学生物信息学 国际著名的生物信息中心国际著名的生物信息中心 NCBI National Center for Biotechnology Info
36、rmation (US) EBI European Bioinformatics Institute (EU) HGMP Human Genome Mapping Project Resource Centre (UK) ExPASy Expert of Protein Analysis System (Switzerland ) CMBI Centre of Molecular and Biomolecule (The Netherlands) ANGIS National Genome Information Service (Australia) NIG National Institu
37、te of Genetics (Japan) BIC National Bioinformatics Centre (Singapore)65分子生物学网站分子生物学网站 NCBI: http:/www.ncbi.nlm.nih.gov EMBL: http:/www.embl.org ExPASy: http:/www.expasy.ch UCSCUCSC:http:/genome.ucsc.eduhttp:/genome.ucsc.edu NIG: http:/www.nig.ac.jp66DNA 数据库:数据库: EMBL :欧洲分子生物学实验室(欧洲的分子生物学实验室)核酸序列数据库
38、NCBI:美国国家生物技术情报中心,美国最主要的核酸序列数据库,世界两大核酸数据库之一。 DDBJ :日本国立遗传学研究所(日本国家的学会 DNA 数据库为数据生物学)维护集中。位于日本的核酸序列数据库,为亚洲主要的核酸序列数据库。67蛋白质序列数据库:蛋白质序列数据库: SWISS-PROT:1987年由日内瓦大学医学生物化学系和欧洲分子生物学实验室共同维护;现在由EMBL分支机构EBI维护。 PIR:(Protein Identification Resource)由美国国家生物医学研究基金会所支持,德国马普学会慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共
39、同维护。 TrEMBL:(Translated EMBL, TrEMBL)。是从EMBL中翻译出来的氨基酸序列。 PDB:(protein databank, PDB)蛋白序列三维立体结构数据库,由美国自然科学基金会、能源部和国立卫生研究院共同投资建设。68基因组及其它数据库基因组及其它数据库 GDB:人类基因组数据库。支持构建人类基因图谱和测序。其主节点移至加拿大多伦多儿童医院生物信息超级计算中心。 GeneCards:基因及其产物以及生物医学应用的文献库。以色列魏茨曼科学研究所维护。 其它其它:UniGene(表达谱信息)、(表达谱信息)、RefSeq 、dbEST、dbSTS、dbSNP
40、、CDD(Conserved Domain Database,蛋白结构域数据库)、OMIM (online mendelian Inheritance in Man):是孟德尔人类遗传学():是孟德尔人类遗传学(MIM)的持续)的持续更新的电子版等等。更新的电子版等等。 National Center for Biotecnology Information (NCBI)www.ncbi.nlm.nih.gov70NCBINCBI起源和任务起源和任务 NCBI于1988年11月4日创立,由于参议员Claude Pepper意识到信息计算机化过程方法对指导生物医学研究的重要性,于是提案立法设立N
41、CBI。其隶属于NIH的国立医学图书馆(NLM)的一个分支,NLM负责创立生物信息学数据库。 NCBI的任务是发展新的信息学技术以提高对控制健康和疾病的基本分子和遗传过程的理解。71NCBI的主要作用 建立关于分子生物学,生物化学和遗传学知识的存储和分析的自动系统 实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的先进方法的研究 加速生物技术研究者和医药治疗人员对数据库和软件的使用。 全世界范围内的生物技术信息收集的合作努力。72NCBI的维护 NCBI有一个多学科的研究小组包括计算机科学家、分子生物学家、数学家、生物化学家、实验物理学家和结构生物学家,集中于计算分子生
42、物学的基本的和应用的研究。 他们一起用数学和计算的方法研究在分子水平上的基本的生物医学问题。这些问题主要包括基因的组织、序列的分析和结构的预测。73NCBI所含的数据库点击74NCBI-DatabasesThere are three major public DNA databasesGenBankDDBJEMBLHousedat EBIEuropeanBioinformaticsInstituteHoused at NCBINationalCenter forBiotechnologyInformationHoused in Japan75www.ncbi.nlm.nih.gov数据库选择
43、数据库选择76NCBI中一些常用的数据库资源PubMed: The biomedical literature (PubMed)Nucleotide: sequence database (GenBank)Protein: sequence databaseStructure: three-dimensional macromolecular structuresGenome: complete genome assembliesSNP: single nucleotide polymorphismsOMIM:online Mendelian Inheritance in Man 77PubM
44、ed is 是美国国立医学图书馆(是美国国立医学图书馆(National Library of Medicine, NLM)的国家生物信息中心()的国家生物信息中心(National Center for Biotechnology Information, NCBI)开发)开发的一个以网络为基础的检索系统,自的一个以网络为基础的检索系统,自1997年免费提年免费提供服务。供服务。78PubMed- MEDLINE 1879年编译年编译医学索引医学索引Index Medicus,即即 IM 1964开发开发医学文献分析与检索系统医学文献分析与检索系统,Medical Literature An
45、alysis and Retrieval System, MEDLARS 1971年建立了年建立了MDELARS的联机系统,称为的联机系统,称为“MEDLARS 联机检索系统,联机检索系统, MEDLARS online, 即即MEDLINE系统系统”。 PubMed作为一个以网络为基础的检索系统,自作为一个以网络为基础的检索系统,自1997年免费年免费提供服务。提供服务。79PubMed收录范围收录范围 MEDLINE:自:自1966年以来年以来71各国家出版的各国家出版的4000多多种期刊。有种期刊。有UI和和PMID。带有标识。带有标识PubMed-index for MEDLINE P
46、reMEDLINE:处于加工阶段的文献记录,尚未表:处于加工阶段的文献记录,尚未表引主题词。有引主题词。有UI和和PMID。带有。带有PubMed-in process标识。标识。 出版商提供的文献数据:出版商以电子版形式先将出版商提供的文献数据:出版商以电子版形式先将文献传送给文献传送给PubMed。仅有。仅有PMID。带有。带有PubMed-as supplied by publisher标识。标识。(MEDLINE唯一识别码唯一识别码UI;PubMed唯一识别码唯一识别码PMID)80Entrez integrates 由美国由美国NCBI开发一个数据库检索系统。开发一个数据库检索系统。
47、 用于对文献摘要、序列、结构和基因组数据库进用于对文献摘要、序列、结构和基因组数据库进 行关键词查询,找出相关的一个或几个数据库条行关键词查询,找出相关的一个或几个数据库条 目。目。 特点:是面向生物学家的数据库查讯系统,使用特点:是面向生物学家的数据库查讯系统,使用 方便,它把序列、结构、文献、基因子、蛋白、方便,它把序列、结构、文献、基因子、蛋白、 系统分类等不同类型的数据库有机的结合在一起系统分类等不同类型的数据库有机的结合在一起、8182Entrez is a search and retrieval system that integrates NCBI databases83BLA
48、ST is Basic Local Alignment Search Tool(BLAST) NCBIs 序列相似性搜索工具序列相似性搜索工具 supports DNA 和蛋白质数据库的分析和蛋白质数据库的分析 80,000 searches per day84LocusLink:位点链接位点链接,提供一个单一查询界面来将提供一个单一查询界面来将与某一个序列相关的每一个数据库的信息组织起来与某一个序列相关的每一个数据库的信息组织起来每一个每一个LocusLink记录包括一系列的数据库的链接,记录包括一系列的数据库的链接,它展现官方命名,别名,序列登录,表型,它展现官方命名,别名,序列登录,表型,EC号码,号码,MIM号码,号码,UniGene聚类,同源,图谱位点,和相聚类,同源,图谱位点,和相关的网站信息。相反,关的网站信息。相反,UniGene和和dbSNP等数据库也等数据库也提供了提供了LocusLink链接。链接。Map Viewer:多种生物体的全部基因组、染:多种生物体的全部基因组、染色体图谱色体图谱多种水平查看基因周围的详细信息和局部赶兴多种水平查看基因周围的详细信息和局部赶兴趣区域趣区域“Map”代表所感兴趣目标基因在特殊坐标系代表所感兴趣目标基因在特殊坐标系统中所处的位置统中所处的位置NCBI