1、生物信息学生物信息学第一章:绪第一章:绪 论论第一节第一节 引言引言 从人类基因组计划说起从人类基因组计划说起 第二节第二节 生物信息学及其发展历史生物信息学及其发展历史 第三节第三节 生物信息学主要研究内容生物信息学主要研究内容 第四节第四节 生物信息学当前的主要任务生物信息学当前的主要任务 第五节第五节 生物信息学所用的方法和技术生物信息学所用的方法和技术曼哈顿原子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计划人类基因组计划人类基因组计划6060年代初,美国总统年代初,美国总统KennedyKennedy提出两个科学计划:提出两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类
2、遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因组计划(HGP,Human Genome Project)生命活动三要素:物质、能量、信息生命活动三要素:物质、能量、信息 DNA:遗传物质遗传物质(遗传信息的载体遗传信息的载体)双螺旋结构双螺旋结构 A,C,G,T四种基本字符的复杂文本四种基本字符的复杂文本 基因基因(Gene):具有遗传效应的:具有遗传效应的DNA分子片段分子片段 基因组基因组(Genome)(Genome):包含细胞或生物体全套的遗传信息的全部包含细胞或生物体全套的遗传信息的全部 遗传物质。遗传物质。原核生物原核生物(细菌、病毒等细菌、病毒等)真核生物真核生物(真
3、菌、植物、动物等真菌、植物、动物等)人类基因组:人类基因组:3.2109 bp基因组基因组 一个物种中所有基因的整体组成一个物种中所有基因的整体组成back 人类基因组计划准备用人类基因组计划准备用1515年时间,年时间,投入投入3030亿美元,完成人类全部亿美元,完成人类全部2424条条染色体的染色体的3 310109 9脱氧核苷酸对脱氧核苷酸对(bp)(bp)的序列测定,主要任务包括作图的序列测定,主要任务包括作图(遗遗传图谱、物理图谱的建立及转录图传图谱、物理图谱的建立及转录图谱的绘制谱的绘制)、测序和基因识别。其中、测序和基因识别。其中还包括模式生物还包括模式生物(如大肠杆菌、酵母、如
4、大肠杆菌、酵母、线虫、小鼠等线虫、小鼠等)基因组的作图和测序,基因组的作图和测序,以及信息系统的建立。以及信息系统的建立。作图作图和和测序测序是基本的任务,在此基础上解读和是基本的任务,在此基础上解读和破译生物体生老病死以及和疾病相破译生物体生老病死以及和疾病相关的遗传信息关的遗传信息back1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义1985 Dulbecco在Science撰文“肿瘤研究的转折点:人 类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类 基因组计划”下拨启动经费约550
5、万美元1989 美国成立“国家人类基因组研究中心”,Watson担任 第一任主任1990.10 经美国国会批准,人类基因组计划正式启动James WatsonWalter Gilbert19951995第一个自由生物体流感嗜血菌第一个自由生物体流感嗜血菌(H.infH.inf)的全基因组测序完成的全基因组测序完成1996 1996 完成人类基因组计划的遗传作图完成人类基因组计划的遗传作图 启动模式生物基因组计划启动模式生物基因组计划H.inf全基因组全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caenorhabditis elegans秀丽线虫秀丽线虫1997 19
6、97 大肠杆菌大肠杆菌(E.coliE.coli)全基因组测序完成全基因组测序完成1998 1998 完成人类基因组计划的物理作图完成人类基因组计划的物理作图 开始人类基因组的大规模测序开始人类基因组的大规模测序 CeleraCelera公司加入,与公共领域竞争公司加入,与公共领域竞争 启动水稻基因组计划启动水稻基因组计划1999.7 1999.7 第第5 5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划2001年年2月月15日日Nature封面封面2001年年2月月16日日Sci
7、ence封面封面At the White House on June 26,Francis Collins(r),Director of the National Human Genome Research Institute,President Clinton,and J.Craig Venter,President of Celara Genomics,lauded the thousands of scientists who contributed to the genome sequence.1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度2000 Celera公司宣
8、布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥全基 因组的测序工作2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果2001.2.16 Science刊文发表Celera公司及其合作者结果Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥HGPHGP的最初目标的最初目标通过国际合作,用通过国际合作,用1515年时间年时间(1990(19902005)2005)至至少投入少投入3030亿美元,构建详细的人类基因组遗传图和物理图亿美元,构建详细
9、的人类基因组遗传图和物理图 ,确定人类确定人类DNADNA的全部核苷酸序列,定位约的全部核苷酸序列,定位约1010万基因,并对其它万基因,并对其它生物进行类似研究。生物进行类似研究。4 4张图:张图:HGPHGP的终极目标的终极目标阐明人类基因组全部阐明人类基因组全部DNADNA序列;序列;识别基因;识别基因;建立储存这些信息的数据库;建立储存这些信息的数据库;开发数据分析工具;开发数据分析工具;研究研究HGPHGP实施所带来的伦理、法律和社会问题。实施所带来的伦理、法律和社会问题。遗传图物理图物理图序列图序列图转录图转录图n遗传图谱(遗传图谱(genetic mapgenetic map)又
10、称连锁图谱)又称连锁图谱(linkage map)(linkage map),它是以具有遗传多态性(在一,它是以具有遗传多态性(在一个遗传位点上具有一个以上的等位基因,在群体个遗传位点上具有一个以上的等位基因,在群体中的出现频率皆高于中的出现频率皆高于1%1%)的遗传标记为)的遗传标记为“路标路标”,以遗传学距离(在减数分裂事件中两个位点之间以遗传学距离(在减数分裂事件中两个位点之间进行交换、重组的百分率,进行交换、重组的百分率,1%1%的重组率称为的重组率称为1cM1cM)为图距的基因组图。遗传图谱的建立为基因识别为图距的基因组图。遗传图谱的建立为基因识别和完成基因定位创造了条件。和完成基因
11、定位创造了条件。遗传图谱遗传图谱 间间期期前前期期 I同同源源染染色色体体形形成成配配对对中中期期 I晚晚期期 I发发生生交交换换前前期期 II中中期期 II晚晚期期 II末末期期 II配配子子n遗传连锁图:通过遗传连锁图:通过计算连锁的遗传标计算连锁的遗传标志之间的重组频率,志之间的重组频率,确定它们的相对距确定它们的相对距离,一般用厘摩离,一般用厘摩(cMcM,即每次减数,即每次减数分裂的重组分裂的重组频率为频率为1%1%)表示。表示。back物理图谱物理图谱n物理图谱(物理图谱(physical map)是指有关构)是指有关构成基因组的全部基因的排列和间距的信成基因组的全部基因的排列和间
12、距的信息,它是通过对构成基因组的息,它是通过对构成基因组的DNA分子分子进行测定而绘制的。绘制物理图谱的目进行测定而绘制的。绘制物理图谱的目的是把有关基因的遗传信息及其在每条的是把有关基因的遗传信息及其在每条染色体上的相对位置线性而系统地排列染色体上的相对位置线性而系统地排列出来。出来。n1998 年完成了具有年完成了具有52,000个序列标签位点个序列标签位点(STS),并覆,并覆盖人类基因组大部分区域的连续克隆系的物理图谱。盖人类基因组大部分区域的连续克隆系的物理图谱。敲碎基因组,分析研究内容所处的染色体位置敲碎基因组,分析研究内容所处的染色体位置细菌人工染色体细菌人工染色体80300 k
13、b)酵母人工染色体酵母人工染色体(数百(数百 2000 kb中心粒中心粒一对紧密一对紧密一对相邻一对相邻染色体图染色体图()back转录图谱转录图谱 n转录图谱是在识别基因组所包含的蛋白转录图谱是在识别基因组所包含的蛋白质编码序列的基础上绘制的结合有关基质编码序列的基础上绘制的结合有关基因序列、位置及表达模式等信息的图谱。因序列、位置及表达模式等信息的图谱。通过定位克隆技术寻找疾病基因的过程通过定位克隆技术寻找疾病基因的过程 back序列图谱序列图谱n随着遗传图谱和物理图谱的完成,测序随着遗传图谱和物理图谱的完成,测序就成为重中之重的工作。就成为重中之重的工作。DNA序列分析序列分析技术是一个
14、包括制备技术是一个包括制备DNA片段化及碱基片段化及碱基分析、分析、DNA信息翻译的多阶段的过程。信息翻译的多阶段的过程。通过测序得到基因组的序列图谱通过测序得到基因组的序列图谱 大规模基因组测序大规模基因组测序大规模测序基本策略大规模测序基本策略n逐个克隆法:对连续克逐个克隆法:对连续克隆系中排定的隆系中排定的BACBAC克隆克隆逐个进行亚克隆测序并逐个进行亚克隆测序并进行组装(公共领域测进行组装(公共领域测序计划)序计划)n全基因组鸟枪法:在一全基因组鸟枪法:在一定作图信息基础上,绕定作图信息基础上,绕过大片段连续克隆系的过大片段连续克隆系的构建而直接将基因组分构建而直接将基因组分解成小片
15、段随机测序,解成小片段随机测序,利用超级计算机进行组利用超级计算机进行组装(美国装(美国CeleraCelera公司)公司)运用计算机软件进行序列拼接运用计算机软件进行序列拼接back人类基因组人类基因组人类基因组的组成人类基因组的组成线粒体基因组线粒体基因组(16.6kb)细胞核基因组细胞核基因组(3200Mb)基因外序列基因外序列基因和基因有关序列基因和基因有关序列约约10%约约90%专一或中等重复序列专一或中等重复序列Non-coding DNA假基因假基因内含子内含子基因片段基因片段90%专一的或低专一的或低拷贝数序列拷贝数序列中度至高度重复序列中度至高度重复序列2030%7080%分
16、散重复序列分散重复序列串联重复序列串联重复序列/成簇重复序列成簇重复序列约约60%约约40%蛋白编码蛋白编码基因基因rRNA基因基因tRNA基因基因Coding DNA人类基因组构成人类基因组构成2424条染色体和线粒体条染色体和线粒体http:/www.ncbi.nlm.nih.gov/mapview/map_search.cgi?taxid=9606基因识别基因识别 n 基因识别(基因识别(gene identification)是)是HGP的的重要内容之一,其目的是识别全部人类的基因。重要内容之一,其目的是识别全部人类的基因。n 基因识别包括:基因识别包括:l识别基因组编码区识别基因组编
17、码区l识别基因结构识别基因结构n 基因识别目前常采用的有二种方法:基因识别目前常采用的有二种方法:l从基因组序列中识别那些转录表达的从基因组序列中识别那些转录表达的DNA片段片段l从从cDNA文库中挑取并克隆。文库中挑取并克隆。人类基因组计划的实施意义人类基因组计划的实施意义 n人类基因组计划为我们研究生物信息的组织、人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。对自身有一个根本的了解。n人类是最高级、最复杂、最重要的生物,如果人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其
18、它的生物就搞清楚人类基因组,那么再研究其它的生物就容易得多。容易得多。n研究多种模式生物基因组将有助于研究地球生研究多种模式生物基因组将有助于研究地球生物的进化史。物的进化史。基因变异与疾病基因变异与疾病基基因因组组多多态态性性又一次成功!又一次成功!水稻基因研究水稻基因研究面对堆积如山的生物学数据面对堆积如山的生物学数据 随着实验数据和可利用信息急剧增加,信息的管理和随着实验数据和可利用信息急剧增加,信息的管理和分析成为分析成为HGP的一项重要的工作的一项重要的工作 发现生物学发现生物学规律,规律,解读生物解读生物遗传密码遗传密码认识生命的本质认识生命的本质研究基因组数据研究基因组数据之间的
19、关系之间的关系分析现有的分析现有的基因组数据基因组数据利用数学模型利用数学模型和人工智能技术和人工智能技术各学科参与、协作:生命科学、数学、物理学、化学、计算机 科学、材料科学以及伦理、法律等社会科学 首要科学问题首要科学问题 如何找到记载在基因组DNA一维结构上控制生命时间、空间 的调控信息的编码方式和调节规律。应用数学、复杂系统理论、信息论、非线性科学 催生生物信息学生物信息学、计算生物学计算生物学 DNA芯片技术芯片技术 交叉性技术领域:物理学、微电子信息技术、生化技术、信 息技术 结构生物学结构生物学 前沿领域之一:生物物理学、生物化学、晶体学、波谱学、光谱学以及X射线晶体衍射技术、核
20、磁共振技术生命信息的组织、传递、表达物理化学分子生物学遗传学信息技术功能基因组学功能基因组学 nHGP即将完成,我们即将进入即将完成,我们即将进入“后基因组后基因组学学”(post-genomics)时代时代n基因组学研究重心已开始从揭示生命的所有遗基因组学研究重心已开始从揭示生命的所有遗传信息转移到在传信息转移到在分子整体水平对功能的研究上分子整体水平对功能的研究上,即功能基因组学(即功能基因组学(functional genomics)n功能基因组的任务是功能基因组的任务是进行基因组功能注释(进行基因组功能注释(Genome annotation)认识基因与疾病的关系认识基因与疾病的关系掌
21、握基因的产物及其在生命活动中的作用掌握基因的产物及其在生命活动中的作用功能基因组学的研究内容功能基因组学的研究内容n进一步识别基因,识别基因转录调控信息,分进一步识别基因,识别基因转录调控信息,分析遗传语言。析遗传语言。n注释所有基因产物的功能,这是目前基因组功注释所有基因产物的功能,这是目前基因组功能注释的主要层次。能注释的主要层次。n研究基因的表达调控机制,研究基因在生物体研究基因的表达调控机制,研究基因在生物体代谢途径中的地位,分析基因、基因产物之间代谢途径中的地位,分析基因、基因产物之间的相互作用关系,绘制基因调控网络图。的相互作用关系,绘制基因调控网络图。n比较基因组学研究,在基因组
22、水平对各个生物比较基因组学研究,在基因组水平对各个生物进行对照比较,可以揭示生命的起源和进化、进行对照比较,可以揭示生命的起源和进化、发现蛋白质功能。发现蛋白质功能。人类基因组与其它生物基因组比较人类基因组与其它生物基因组比较例:人与鼠染色体的差别例:人与鼠染色体的差别Structure&FunctionPathways&PhysiologyPopulations&EvolutionEcosystemsGenomesGene Products后基因组时代生物信息学与新药研制生物信息学与新药研制未来的药物研究过程将是基于生物信息知未来的药物研究过程将是基于生物信息知识挖掘的过程识挖掘的过程数据处
23、理和数据处理和关联分析关联分析发现药物发现药物作用对象作用对象确定靶目标确定靶目标分子分子针对靶目标针对靶目标进行合理的进行合理的药物设计药物设计生物信息学与疾病检测生物信息学与疾病检测n基因组计划产生的基因及基因多态性数据与临基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示学的方法去分析、去揭示n根据这样的分析结果,科学家能够更准确地了根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻患癌症
24、、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式底改变我们诊断、治疗和预防疾病的方式 蛋白质结构与功能关系的研究蛋白质结构与功能关系的研究 蛋白质结构蛋白质结构 蛋白质序列蛋白质序列 蛋白质功能关系蛋白质功能关系 n基因组计划的不断推进,其结果不仅导致基因组计划的不断推进,其结果不仅导致DNADNA序列数据的迅速增长,也导致蛋白质序列数据序列数据的迅速增长,也导致蛋白质序列数据的迅速增长。的迅速增长。n生物信息学在蛋白组学研究中的主要任务是产生物信息学在蛋白组学研究中的主要任务是产生和分析蛋白质的结构,并将结构知识应用于生和分析蛋白质的结构,并将结构知识应用于生物学、医学
25、、药学等生命科学领域。生物学、医学、药学等生命科学领域。n蛋白质空间结构预测。蛋白质空间结构预测。n蛋白质结构是合理药物分子设计的基础。蛋白质结构是合理药物分子设计的基础。n蛋白质结构是蛋白质工程的基础。蛋白质结构是蛋白质工程的基础。基于生物信息学的新药设计基于生物信息学的新药设计生物信息学生物信息学研究蛋白质结构及功能关系研究蛋白质结构及功能关系 研究蛋白质的进化问题,研究蛋白质的进化问题,研究不同蛋白质之间的进化关系研究不同蛋白质之间的进化关系 研究蛋白质的性质研究蛋白质的性质 新的生物学研究模式的出发点应该是理论的。科学家将从理论推测出新的生物学研究模式的出发点应该是理论的。科学家将从理
26、论推测出发,然后再返回到实验中去,追踪或验证这些理论假设。发,然后再返回到实验中去,追踪或验证这些理论假设。生物学家不生物学家不仅必须成为计算机学者,而且也要改变他们研究生命现象的途径。仅必须成为计算机学者,而且也要改变他们研究生命现象的途径。W.Gilbert,Towards A Paradigm Shift in Biology,W.Gilbert,Towards A Paradigm Shift in Biology,Nature,Nature,349(1991)99349(1991)99传统生物学:实验科学传统生物学:实验科学现代生物学的发展:现代生物学的发展:1 1、高通量数据获取日
27、益实现自动化、半工业化、高通量数据获取日益实现自动化、半工业化 从数据库中实现数据挖掘、知识发现2 2、海量数据、海量数据 难以完全依赖实验手段对新数据进行分析,必须借助计算机实现分析和筛选3 3、更复杂层次的生物学问题、更复杂层次的生物学问题 复杂的基因调控网络、代谢网络;细胞间信号转导过程;生物个体全部基因表达变化分析、筛选大量新数据分析、筛选大量新数据生物中的复杂网络、复杂生物中的复杂网络、复杂过程、复杂现象过程、复杂现象理论生物学理论生物学计算生物学计算生物学 实验永远起着决定作用实验永远起着决定作用 计算计算/理论生物学的发展离不理论生物学的发展离不开实验生物学的贡献开实验生物学的贡献 实验生物学日益依赖计算实验生物学日益依赖计算/理理论生物学的指导论生物学的指导2121世纪生命科学世纪生命科学理论理论计算计算实验实验数学与物理科学数学与物理科学
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。