1、 生物信息学概况 王依满王依满n20世纪生理学、细胞生物学、分子生物学等学科的发展使我们从器官、组织、细胞、生物大分子等各个层次认识了生命的物质基础。n与其他物质相比,生物具有本质的区别,生物体生物体的生长发育是在生命信息控制之下的复杂而有序的生长发育是在生命信息控制之下的复杂而有序的过程。的过程。n生命过程牵扯到数以亿计的生物分子,随着科学研究的不断进展,这些分子的作用、结构和性质在不断的被发现,2023-2-102023-2-10n生物分子数据量增加很快,平均每15个月翻一番;蛋白质结构数据增长趋势图YearBase pairs of DNA(billions)Sequences(mill
2、ions)Updated 8-12-04:40b base pairs198219861990199419982002n基因序列数据增长趋势图n生物分子数据数量快速增加n生物分子数据具有丰富的内涵n如何充分利用这些数据,通过数据分析、处理,揭示这些数据的内涵,从而得到对人类有用的信息,是生物学家、数学家和计算机科学家所面临的一个严峻的挑战。2023-2-10 生命的奥秘,牵扯到生命信息的组织、传递和生命的奥秘,牵扯到生命信息的组织、传递和表达,牵扯到多个学科,表达,牵扯到多个学科,因此可以用信息科学的方法和技术来尝试认识和分析生命信息。2023-2-10生物学家数学家计算机科学家HGP生物数据
3、的激增生物信息学的诞生生物信息学是生物学、应用数学和计算机科学生物信息学是生物学、应用数学和计算机科学等学科之间的一门交叉学科等学科之间的一门交叉学科 生物信息学是伴随基因组研究而产生的,因此它的研究内容紧随着基因组研究而发展。生物信息学是当今生命科学和自然科学生物信息学是当今生命科学和自然科学的重大前沿领域之一,也是的重大前沿领域之一,也是2121世纪自然科世纪自然科学的核心领域之一。学的核心领域之一。2023-2-10n生物信息学(bioinformatics)是指应用信息科学的应用信息科学的方法和技术,研究生物体系和生物过程中信息的存方法和技术,研究生物体系和生物过程中信息的存贮、信息的
4、内涵和信息的传递,研究和分析生物体贮、信息的内涵和信息的传递,研究和分析生物体细胞、组织、器官的生理、病理、药理过程中的各细胞、组织、器官的生理、病理、药理过程中的各种生物信息的一门学科,也可以说是生命科学中的种生物信息的一门学科,也可以说是生命科学中的信息科学。信息科学。n它通过通过对生物学实验数据的获取、加工、存储、检生物学实验数据的获取、加工、存储、检索与分析索与分析,进而达到揭示数据所蕴含的生物学意义揭示数据所蕴含的生物学意义的目的。2023-2-10n指应用信息科学的理论、方法和技术,管理、分析和利用生物分子数据。通过收集、组织、管理生物分子数据,使研究人员能够迅速地获得和方便地使用
5、相关信息;通过处理、分析、挖掘生物分子数据,得到深层次的生物学知识,加深对生物世界的认识;n在生物学、医学的研究和应用中,利用生物分子数据及其分析结果,可以大大提高研究和开发的科学性及效率,如根据基因功能分析结果来检测与疾病相关的基因,根据蛋白质分析结果进行新药设计。n一般提到的“生物信息学”是就指这个狭义的概念,更准确地说,应该称为分子生物信息学(Molecular Bioinformatics)。生物信息学的研究内容n广义地说,生物信息学从事对广义地说,生物信息学从事对基因组研究相关生物信息基因组研究相关生物信息的的获取、加工、存储、分配、分析和解释。获取、加工、存储、分配、分析和解释。n
6、具体地说,生物信息学是把基因组(脱氧核糖核酸)具体地说,生物信息学是把基因组(脱氧核糖核酸)序列信息分析作为源头,找到基因组序列中代表蛋白质和序列信息分析作为源头,找到基因组序列中代表蛋白质和(核糖核酸)基因的(核糖核酸)基因的编码区编码区。阐明基因组中大量存。阐明基因组中大量存在的在的非编码区非编码区的信息实质,破译的信息实质,破译隐藏在序列中的遗隐藏在序列中的遗传语言传语言规律。在此基础上,归纳、整理与基因组规律。在此基础上,归纳、整理与基因组遗传信息遗传信息释放释放及其及其调控调控相关的相关的转录谱和蛋白质谱转录谱和蛋白质谱的数据,从而认识的数据,从而认识代谢、发育代谢、发育、分化、进化
7、分化、进化的规律的规律。生物信息学的研究内容n获取人和各种生物的完整基因组完整基因组n发现新基因新基因和新的单核苷酸多态性(1)基因的电脑克隆电脑克隆(2)从基因组 D NA序列中预测新基因预测新基因(3)发现单核苷酸多态单核苷酸多态(SNP)n基因组中非编码区信息结构分析n在基因组水平研究生物进化n完整基因组的比较研究n从功能基因组到系统生物学n蛋白质结构模拟与药物设计n生物信息学的产生n生物信息学的发展历程n生物信息学的发展现状2023-2-101、生物信息学的产生n生物信息学(bioinformatics)是20世纪80年代未随着人类基因组计划(Human genome project)
8、的启动而兴起的一门新的交叉学科。生物信息学的产生和发展仅有十几年的时间-bioinformatics这一名词在1991年左右才在文献中出现,还只是出现在电子出版物的文本中。n事实上,生物信息学的存在已有30多年,只不过最初常被称为基因组信息学。2023-2-10n近年来,随着现代分子生物学的发展,特别是人类基组计划的实施,不断产生出巨量的分子生物学数据,这些数据有着数量巨大、关系复杂,以至于不利用计算机根本无法实现数据的存储和分析。这样,生物信息学最终形成一门独立的学科并被推上了生物科学发展的最前沿。二十一世纪是生命科学的时代,也是信息时代二十一世纪是生命科学的时代,也是信息时代 n早在19世
9、纪,已经知道蛋白质在生命活动中的作用n1956年在美国田纳西州的Gatlin burg召开了首次“生物学中的信息理论研讨会”。n一般认为,生物信息学的真正开端是20世纪70年代。n70年代初期到80年代初期,出现了一系列著名的序列比较方法及许多生物信息分析方法n20世纪90年代后,科学家们开始大规模的基因组研究。1986年,出现基因组学(Genomics)概念,即研究基因组的作图、测序和分析。1990年,国际人类基因组计划启动2023-2-102023-2-10 生物信息学自诞生以来,经历了三个阶段:n基因组前期的生物信息学基因组前期的生物信息学:主要是序列分析、数据库的查询、计算机操作和PC
10、的应用;n基因组年代的生物信息学基因组年代的生物信息学:主要是基因的寻找、数据与数据之间的比较、网络相互界面(Interface);n后基因组年代的生物信息学后基因组年代的生物信息学:主要是数据的挖掘、表达、数据多样性的分析、相互交叉数据分布的总结与分析。其研究的内容不仅包括基因的查寻和同源性分析;而且进一步到基因和基因组的功能分析,即所谓的功能基因组学研究。2023-2-10n生物医药工业也是推动生物信息学发展的重要动力。HGP所推动的大规模DNA测序也为生物医药工业提供了大量可用于新药开发的原材料。有些基因产物可以直接作为药物,而有些基因则可以成为药物作用的对象。n生物信息学为分子生物学家
11、提供了大量对基因序列进行分析的工具,既可以从资料的获取、基因功能的预测、药物筛选过程中的信息处理等方面加快新药开发的进程,又可以很大程度的加快传统的基因发现和研究,从而刺激了生物信息学的快速发展。2023-2-10n生物信息学的发展将会对生命科学带来革命性的变革。它的成果不仅对相关基础学科起巨大的推动作用,而且还将对医药、卫生、食品、农业等产业产生巨大的影响,甚至引发新的产业革命。2023-2-10n因此,各国政府和工业界对此极为重视,投入了大量资金。欧美各国及日本相继成立了生物信息中心,如美国的国家生物技术信息中心(National Center for Biotechnology Info
12、rmatics,NCBI)、欧洲生物信息学研究所(European Bioinformatic Institute,EBI)、日本信息生物学中心(Center for Information Biology,CIB)等。NCBI、EBI和CIB相互合作,共同维护着GenBank、EMBL、DDBJ三大基因序列数据库。它们每天通过计算机网络互相交换数据,使得三个数据库能同时获得最新数据。此外,他们每年召开两个年会讨论合作事宜。2023-2-10n在我国,生物信息学随着人类基因组研究的展开才刚刚起步,但已显露出蓬勃发展的势头。在政府的支持和科学家的呼吁下,国家级生物医学信息学中心正在筹建之中。n各
13、地政府也给予了足够重视,北京市已经成立了北京生物工程学会生物信息学专业委员会(即北方生物信息学研究会),目的在于联合北方地区从事生物信息学的专家,加强合作,促进学科的发展,并为政府决策提供参考意见。分析工具n除了数据库、网络组织管理、生物序列的分析比较、基因和蛋白结构和功能的预测等以外,生物信息学还需要发展一系列相应的分析工具,如 1.快速、严格的多序列比较工具 2.遗传疾病分析,从单基因疾病研究向多基因疾病并包括环境因素在内的多因子分析等 n分析软件分析软件是有效利用基因组信息的工具,也是构建二级、三级数据库的条件和手段,还可将不同性质数据库中的数据结合在一起,综合分析,如将基因组序列数据和
14、蛋白质序列、结构及功能数据结合计算,可以推断结构和功能的关系,从而成为一种发现新信息的快捷方法。2023-2-10n从信息学的角度来看,最重要的任务是利用各种数学模型和人工智能技术,分析现有的基因组数据,研究基因组数据之间的关系,发现隐藏在大量数据背后的生物学规律,解读生物遗传密码,认识生命的本质。n生物信息学的应用图示如下:2023-2-10利用数学模型利用数学模型和人工智能工具和人工智能工具研究基因组数据研究基因组数据之间的关系之间的关系分析分析现有基因组数据现有基因组数据解读解读生物遗传密码生物遗传密码发现发现生物学规律生物学规律认识认识生命本质生命本质生物信息学数据库概况n据2008核
15、酸研究(Nucleic acid research)统计,全球共有1078个主要的分子生物学数据库,涵盖生物学研究的诸多领域,并逐渐向专门化、专业化方向发展。n核酸研究将生物信息数据库主要划分14大类-.Nucleotide sequence databases .Protein sequence databases.RNA sequence databases.Structure databases.Genomics databases .Metabolic and signaling pathways .Human and other vertebrate genomes.Human ge
16、nes and diseases.Microarray data and other gene expression.Protein resources.Other molecular biology databases.Organelle databases.Plant databases.Immunological databases生物信息学数据库类型n初级数据库:收录存贮生物信息学的基本数据资源,如核酸收录存贮生物信息学的基本数据资源,如核酸序列、蛋白结构、基因组信息等序列、蛋白结构、基因组信息等n次级数据库:在初级数据库基础上整理、标注,为特定专在初级数据库基础上整理、标注,为特定专
17、业领域服务的派生数据库,如表达序列标记、微阵列、遗传疾病业领域服务的派生数据库,如表达序列标记、微阵列、遗传疾病数据库等数据库等n系统生物学数据库:发展方向是构建包含完整生物信息发展方向是构建包含完整生物信息的细胞、组织数据(模拟)系统,在更高层次上分析解释生命的的细胞、组织数据(模拟)系统,在更高层次上分析解释生命的基本规律基本规律初级数据库n核酸序列数据库n蛋白质序列数据库n生物大分子三维结构数据库n基因组数据库核酸序列初级数据库n以核苷酸顺序及注释信息为基本内容的数据库n世界三大核酸数据库 1.GENBANK(http:/www.ncbi.nlm.nih.gov)2.EMBL(http:
18、/www.ebi.ac.uk/embl)3.DDBJ(http:/www.ddbj.nlg.ac.jp)1998年,三大库共同成立国际核酸序列数据库协会(INSDC,http:/www.insdc.org).蛋白质序列初级数据库n以蛋白质氨基酸顺序及注释信息为基本内容的数据库n世界主要蛋白质序列数据库1.PIR PSD(protein information resource-protein sequence database),由美国国家医学研究基金会1984年创建,1988年,日本国际蛋白质信息库JIPID和德国蛋白质信息中心MIPS加入PIR,成立国际蛋白质信息中心(PIR-intern
19、ational)蛋白质序列初级数据库2.Swissprot 1986年创于瑞士日内瓦大学,(http:/www.expasy.ch/sprot)主要特点主要特点:可信度高;注释详细(包括蛋白质功能、序列、结构域的结构、翻译后修饰及其位点、突变体等)3.TrEMBL建立于1996年,是从EMBL的 cDNA序列翻译得到的蛋白质数据库,相似的还有GENpept。特点:序列条目来自核酸序列的翻译,但未经专家的注释、分析、核实,错误率较高。蛋白质序列初级数据库n全球统一的蛋白质序列与功能数据库UniProt(通用蛋白质资源)(http:/www.uniprot.org)n截止2008年8月,UniPr
20、ot 共收录蛋白质序列6462751个生物大分子结构初级数据库n以生物大分子荣各原子空间信息为基本内容的数据库n信息来源:对蛋白质晶体的X射线衍射、核主要磁共振及冷冻电镜分析而来n主要数据库:2003年美国Brookhaven国家实验室的PDB(protein data bank)倡导成立全球共享的-wwPDB(http:/www.wwpdb.org),截止2008年8月,共收录蛋白质结构52684个。基因组数据库n包含某一物种的全基因组序列的专门数据库包含某一物种的全基因组序列的专门数据库n人类基因组数据库(http:/www.gdb.org)n拟南芥基因组数据库(http:/www.ara
21、bidopsis.org)n水稻基因组数据库(http:/rgp.dna.affrc.go.jp)次级数据库n核酸序列数据库派生-如Genbank的refseq、unigene、est、stsn蛋白序列、结构数据库派生库(包括蛋白家族、结构域和功能位点的信息)如Interpro数据库(http:/www.ebj.ac.uk)GenBankn全球著名的生物信息综合数据库 1982年成立,包含所有已知的核苷酸及蛋白质序列以及与之有关的生物学信息和参考文献,由美国生物技术信息中心(NCBI)维护,是权威序列数据库。序列为作者直接提交或查文献所得,并与其他数据库如EMBL/DDBJ交换每日更新的数据。
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。