1、生物信息学概述 v徐燕v生物信息学产生的背景v生物信息学的定义和研究内容v生物信息学的研究方法v软件开发 一、产生的背景 1990,由美国能源部(DOE)和国立卫生研究院(NIH)提出并提供资助,被称为生命科学“登月计划”的人类基因组计划(Human Genome Project,HGP)。HGP的主要任务是:人类基因组以及一些模式生物体(细菌、酵母、线虫、果蝇等)基因组的作图、测序和基因识别。即以测定基因组的序列数据为出发点,随后对其进行分析解读,确定基因数量,预测各基因的功能,搜索疾病基因,比较不同基因之间的差别,以达到了解和认识生命的起源、重间和个体间差异的起因,以及疾病产生的机制、长寿
2、与衰老等生命现象的本质,并造福人类。该计划一经提出,很快扩展成为世界范围的研究计划。经过美、英、13、法、德和中国科学家的共同努力,至2000年6月26 日完成了工作草图;至2001年2月12 日完成并公布了准确、清晰完整的人类基因组图谱。二、定义和研究内容v1.定义v现代生物信息学是现代生命科学与信息科学、计算机科学、数学、v统计学、物理学和化学等学科相互渗透而形成的交叉学科,是应v用计算机技术和信息论方法研究蛋白质及核酸序列等各种生物信v息的采集、存储、传递、检索、分析和解读,以帮助了解生物学v和遗传学信息的科学。v从其研究所涉及的学科上看,生物信息学是集生物学、数学、信v息学和计算机科学
3、一体化的一门新的科学;v从其研究的主要内容看,基因组信息学、蛋白质结构模拟以及药v物设计是生物信息学三者有机结合的重要组成部分。v2.研究内容v生物信息学虽涉及许多学科,但其内涵十分具体,范围非常明v确。因其伴随基因组研究而产生的,因此其研究内容就紧随着基v因组研究而发展,其核心是基因组信息学。v生物信息学还利用基因组中编码区的信息进行蛋白质空间结v构的模拟和蛋白质功能的预测,并将此类信息与生物体和生命过v程的生理生化信息相结合,阐明其分子机制,最终进行蛋白质、v核酸的分子设计、药物设计和个体化的医疗保健设计。v生物芯片研究。生物芯片通常指通过微加工技术和微电子技术v在固体芯片表面构建的微型生
4、物化学分析系统,能够高速率、高v通量地完成对细胞、蛋白质、DNA以及其他生物组分的检测并实v现分析过程的连续化、集成化、微型化和自动化。v世界上第一台计算机是美国于1994年11月在实验室研v制成功的。生物计算机的主要材料之一是生物工程技v术产生的蛋白质分子,并以此作为生物芯片。在这种v芯片中,信息以波的方式传播,运算速度比当今最快v的计算机快10万倍左右,能量消耗仅为普通计算机的v几亿分之一,而存储信息空间仅占百亿分之一。制造v生物计算机,纳米技术是关键。三、研究方法v借助于计算机科学、信息科学及其他学科的共同参与,人们发展了生物信息的多种分析方法,其中最基本的方法有序列对比、结构对比及功能
5、对比预测法。v 序列比对预测法v序列比对是以核酸和蛋白质序列为依据,来比较两个或两个以上核酸或蛋白质在碱基、氨基酸水平上的相似性和不相似性。v 结构比对预测法v结构比对的基本问题是比较两个或两个以上蛋白质空间结构的相似性或不相似性。从方法学上来看有演绎法和归纳法两种:前者是从一些基本原理或假设出发来预测和研究蛋白质的结构和折叠过程;后者主要是从观察和总结已知结构的蛋白质结构规律出发来预测蛋白质结构。v 功能比对预测法 v蛋白质的功能预测是以目的蛋白为线索力图发现它和功能已知蛋白的相似性。四、软件开发 vSAS(Statistical Analysis System)是一个模块化、集成化的大型应
6、用软件系统。它由数十个专用模块构成,功能包括数据访问、数据储存及管理、应用开发、图形处理、数据分析、报告编制、运筹学方法、计量经济学与预测等等。SAS系统基本上可以分为四大部分:SAS数据库部分;SAS分析核心;SAS开发呈现工具;SAS对分布处理模式的支持极其数据仓库设计。vSAS系统主要完成以数据为中心的四大任务:数据访问;数据管理;数据呈现;数据分析。vSPSS(Statistical Package for the Social Science)社会科学统计软件包是世界是著名的统计分析软件之一。v20世纪60年代末,美国斯坦福大学的三位研究生研制开发了最早的统计分析软件SPSS,同时成
7、立了SPSS公司,并于1975年在芝加哥组建了SPSS总部。20世纪80年代以前,SPSS统计软件主要应用于企事业单位。1984年SPSS总部首先推出了世界第一个统计分析软件微机版本SPSS/PC+。v目前已经在国内逐渐流行起来。它使用Windows的窗口方式展示各种管理和分析数据方法的功能,使用对话框展示出各种功能选择项,只要掌握一定的Windows操作技能,粗通统计分析原理,就可以使用该软件为特定的科研工作服务。v测序分析软件Phred/Phrap/ConsedvPhred/Phrap/Consed 是华盛顿大学开发的用于大规模DNA测序的分析软件系统。该系统运行于UNIX环境下,包括ph
8、red 碱基读取程序、phrap序列组装程序和consed图形化视图。vPhred采用快速傅立叶变换分析技术,从DNA测序所得到的图形数据中提取DNA碱基排列顺序信息(即Base-Calling)。vPhrap是一个基于Swat算法实现序列比较的软件,它能寻找序列间的重叠部分,将高质量嵌合匹配的片段拼接成contig序列,最后生成完整的DNA序列。vConsed是图形化软件,可用于进一步分析phrap拼接的结果,检查phrap拼接中的错误,从而提高拼接结果的质量。vBioperl(http:/bioperl.org)vBioperl是一个开放源代码的软件包,源代码可以免费下载、测试和修改。vB
9、ioperl是perl模块的集合,通过perl模块的重载从数据库中获取不同格式的数据并对其进行处理。v在本地和远程数据库中访问序列数据v转换数据库/文件记录的格式v对单个序列进行处理v搜索相似序列v建立和操作序列联配v在基因组DNA上搜索基因和其他结构v开发机器可读的序列注释vEST通道化分析系统vEST(Expressed Sequence Tags)是基因组中被表达的部分,携带着完整基因的某些片段。现在Genbank中,EST序列已超过300万条,覆盖了全部人类基因的90%以上。国际上1994年开始应用EST数据发现新基因。EST通道化分析系统依靠优秀的酸法和程序支持,对EST数据进行高效
10、率的处理和管理,通过数据库和数据处理模块寻找新基因并进行其他辅助实验。v基因组信息学作为一个学科领域,关键是“读懂”人类基因组的核v苷酸顺序,即全部基因在染色体上的确切位置及各DNA片段的功v能。具体说,其内涵包括:要发展有效的能支持大尺度数据需v要的软件和数据库;需产生若干数据库工具,包括电子网络等v远程通讯工具,能简便地处理日益增长的物理图、遗传图、染色v体图和序列信息,并在这些数据资料中进行比较;要研究算v法和分析技术,用于解释基因组的信息,例如预测功能基因等。返回v绝大多数生物,包括低等生物和高等生物的基因组都由脱氧核糖核酸(DNA)组成,少数病毒基因组则为核糖核酸(RNA)。基因组所
11、含有的遗传信息由DNA或RNA分子中核苷酸的排列顺序所决定,它们组成独立的结构单元基因。v基因所包含的信息可由特定功能的蛋白质解读,这类蛋白质附着在DNA或RNA分子的一定位置,起始一系列的生化反应合成基因的编码产物,这一过程称为基因表达。v基因表达(gene expression)是指细胞在生命过程中,把储存在DNA顺序中遗传信息经过转录和翻译,转变成具有生物活性的蛋白质分子。v生命的所有现象都与DNA、RNA和蛋白质的结构与功能有关。v遗传信息在世代之间的传递是由DNA的复制完成的。复制使亲代DNA加倍,通过细胞分裂将两份相同的DNA拷贝分配到2个子代细胞中。DNA在复制时偶尔会发生突变与重组,使其所携带的遗传信息改变,它们是生命进化与生物多样性的源泉。vDNA是一种长链多聚分子,由4种核苷酸组成,这4种核苷酸可以任何次序排列连接成数百万个核苷酸的长链分子。v每个核苷酸分子都含有3个组成:脱氧核糖(由5个碳原子组成的核糖)、含氮碱基、磷酸基团。v碱基配对:位于2条DNA单链中的碱基可以相互配对。vDNA的双螺旋结构:2条反向平行的DNA单链彼此相互缠绕组成双螺旋分子。返回