1、12022-7-23课程安排课程安排1、时间:每周一下午、时间:每周一下午58节节 教室:第三教学楼第二阶梯教室教室:第三教学楼第二阶梯教室 学时:每周学时:每周4学时(总计学时(总计4 4=16学时学时)2、学分:、学分:2学分学分3、成绩考核方式(、成绩考核方式(笔试笔试)4、E-mail:(办公室地址:理三(办公室地址:理三341室)室)2022-7-2321 1、生物信息学概论生物信息学概论 罗静初罗静初 北京大学北京大学 北京大学出版社北京大学出版社2 2、生物信息学生物信息学 D.R.Westhead 科学出版社科学出版社3 3、生物信息学生物信息学基因和蛋白质分析的使用指南基因和
2、蛋白质分析的使用指南 李衍达李衍达 清华大学清华大学 清华大学出版社清华大学出版社4 4、生物信息学中的计算机技术生物信息学中的计算机技术 孙超孙超 中国电力出版社中国电力出版社5 5、生物信息学手册生物信息学手册 郝柏林郝柏林 中科院物理所中科院物理所 上海科学技术出版社上海科学技术出版社6 6、简明生物信息学简明生物信息学 钟扬钟扬 复旦大学复旦大学 高等教育出版社高等教育出版社32022-7-2342022-7-232022-7-235生命信息的组织、传递、表达物理化学分子生物学遗传学信息技术2022-7-2361、生物信息学概念 HGP生物数据的激增(每15个月翻一番)生物学家数学家计
3、算机科学家生物信息学(bioinfomatics)的诞生2022-7-237生物体系和过程中信息的存贮、传递和表达细胞、组织、器官的生理、病理、药理过程的中各种生物信息信息科学生命科学中的信息科 学 2022-7-238深层次生物学知识分子生物信息学分子生物信息学 Molecular Bioinformatics挖掘获取生物分子信息的获取、存贮、分析和利用生物分子信息的获取、存贮、分析和利用生物分子数据2022-7-239生物分子数 据 计算机计 算+2022-7-2310 高性能计算服务器,图形工作站高性能计算服务器,图形工作站2022-7-23112022-7-23122022-7-231
4、32022-7-2314细胞分子存贮、复制、传递和表达存贮、复制、传递和表达遗传信息的系统遗传信息的系统生物信息的载体生物信息的载体2022-7-23152022-7-23162022-7-2317Protein Machines 2022-7-2318From the Cell to Protein Machines 2022-7-23192022-7-2320212022-7-23基因通过转录和翻译,使遗传信息在生物个体中得以表达,并使后代表现出与亲代相似的生物性状。基因控制着蛋白质的合成 DNARNA蛋白质转录翻译222022-7-23基因的DNADNA序列序列DNA前体RNAmRNA多
5、肽链多肽链蛋白质序列对对应应关关系系遗遗传传密密码码2022-7-23232022-7-23242022-7-2325生物分子信息DNA序列数据 蛋白质序列数据 生物分子结构数据 生物分子功能数据 最基本直观复杂生物分子数据类型生物分子数据类型2022-7-2326 DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器遗传密码生命体系千姿百态的变化生物分子数据及其关系生物分子数据及其关系2022-7-2327生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。生物分子数据是宝藏,生物信息数据库是金矿,等待我们去挖掘和利用。2022-7-2328202
6、2-7-23292022-7-2330 实验 数据 信息 知识 收集 表示 分析 建模 刻画特征 比较 推理 应 用基因工程蛋白质设计疾病诊断疾病治疗开发新药生物分子信息处理流程2022-7-23312022-7-2332表1.1 至2001年初已经得到的各类数据及基本数据处理任务2022-7-2333生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心 2022-7-2334352022-7-23生物信息学基本思想的产生 生物信息学 的迅速发展二十世纪50年代二十世纪80-90年代生物科学和技术的发展人类基因组计划的推动 2022-7-23362022-7-2337关于生物信息学
7、发展历程中的重要大事,关于生物信息学发展历程中的重要大事,请参见下面两个网站的介绍:请参见下面两个网站的介绍:http:/www.ncbi.nlm.nih.gov/Education/BLASTinfo/milestones.html、http:/www.biosino.org/bioinformatics/。2022-7-2338生物信息学发展现状生物信息学发展现状PubMed中与生物信息学相关论文统计 90002%2022-7-23392022-7-2340酵母大肠杆菌果蝇线虫老鼠2022-7-2341曼哈顿原子弹计划曼哈顿原子弹计划(1942-46)阿波罗登月计划阿波罗登月计划(1961
8、-69)人类基因组计划人类基因组计划(1990-2003)20世纪世纪三大科学计划三大科学计划2022-7-23421961年,美国总统年,美国总统Kennedy提出两个科学计划:提出两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因组计划(HGP,Human Genome Project)为什么提出为什么提出HGP?2022-7-2343生命活动三要素:物质、能量、信息生命活动三要素:物质、能量、信息 DNA:遗传物质遗传物质(遗传信息的载体遗传信息的载体)双螺旋结构双螺旋结构 A,C,G,T四种基本字符的复杂文本四种基本字
9、符的复杂文本 基因基因(Gene):具有遗传效应的:具有遗传效应的DNA分子片段分子片段DNA、基因、基因组、基因、基因组2022-7-2344 基因组基因组(Genome):包含包含细胞或生物体的细胞或生物体的全套遗传全套遗传信息信息的全的全 部遗传物质部遗传物质 原核生物原核生物(细菌、病毒等细菌、病毒等)真核生物真核生物(真菌、植物、动物等真菌、植物、动物等)人类基因组:人类基因组:含有约含有约3万个万个 基因基因2022-7-23451984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义1986.3 杜尔贝科(Dulbecco)在Science撰文“肿瘤研
10、究的转折点:人类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类 基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基因组研究中心”,Watson担任 第一任主任1990.10 经美国国会批准,人类基因组计划正式启动James WatsonWalter GilbertHGP历史回顾历史回顾2022-7-2346尽管比之于人类登月,尽管比之于人类登月,HGP的投入资金的投入资金要少得多,但要少得多,但HGP对人类生活的影响要对人类生活的影响要更为深远更为深远。因为随着这个计划的完成,。因为随着这个计划的完成,D
11、NA分子中编码的分子中编码的遗传信息将对人类存遗传信息将对人类存在的化学基础作出最终的回答在的化学基础作出最终的回答。这将不。这将不仅帮助我们理解我们是如何作为健康的仅帮助我们理解我们是如何作为健康的人发挥正常功能的,而且也将在化学水人发挥正常功能的,而且也将在化学水平上解释遗传因子在各种疾病,如癌症、平上解释遗传因子在各种疾病,如癌症、早老痴呆症、精神分裂症等一些严重危早老痴呆症、精神分裂症等一些严重危害人类健康的疾病中的作用。毕竟害人类健康的疾病中的作用。毕竟对人对人类自身更深入的了解是人类活动中最重类自身更深入的了解是人类活动中最重要的一个部分。要的一个部分。Watson,1990,Sc
12、ience2022-7-2347HGP的最初目标的最初目标通过国际合作,用15年时间(19902005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究。4张图:遗传图 物理图 序列图 基因图HGP的终极目标的终极目标阐明人类基因组全部DNA序列;识别基因;建立储存这些信息的数据库;开发数据分析工具;研究HGP实施所带来的伦理、法律和社会问题。2022-7-23481995 第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996 完成人类基因组计划的遗传作图 启动模型生物基因组计划H.Inf 全基因组
13、全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caenorhabditis elegans秀丽线虫秀丽线虫2022-7-23491997 大肠杆菌(E.coli)全基因组测序完成1998 完成人类基因组计划的物理作图 开始人类基因组的大规模测序 赛立拉(Celera)公司加入,与公共领域竞争 启动水稻基因组计划1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划2022-7-23502000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥全基 因组的测序
14、工作2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果2001.2.16 Science刊文发表Celera公司及其合作者结果Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥2022-7-23512001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面2022-7-2352At the White House on June 26,Francis Collins(r),Director of the National
15、Human Genome Research Institute,President Clinton,and J.Craig Venter,President of Celara Genomics,lauded the thousands of scientists who contributed to the genome sequence.2022-7-23532022-7-23542001年年8月月26日日 人类基因组人类基因组“中国卷中国卷”的绘制工作宣告完成。的绘制工作宣告完成。2002年年 水稻、小鼠、疟原虫等基因组测序完成水稻、小鼠、疟原虫等基因组测序完成2003年年4月月14日日
16、 中、美、日、德、法、英等中、美、日、德、法、英等6国科学家宣布人类基因国科学家宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。组序列图绘制成功,人类基因组计划的所有目标全部实现。2004年年10月人类基因组完成图公布。月人类基因组完成图公布。2022-7-23552022-7-23562022-7-2357(http:/www.ebi.ac.uk/genomes/,2007年年2月)月)已完成测序的已完成测序的3,000多个基因组多个基因组2022-7-23581、大协作研究大协作研究:以学科为中心,以问题为中心,多学科合作2、研究的计划性和有序性研究的计划性和有序性:各方共
17、同参与,制定更科学、更全面的研究计划4、政府与国家的作用政府与国家的作用:美:领导与推动 英:始于1989年2月,贡献为1/3左右 法:始于1990年6月,贡献为3左右 日:始于1990年,贡献为7左右 德:始于1995年,贡献为7左右 中:始于1999年9月,贡献为1左右3、商业竞争促进基础研究商业竞争促进基础研究:1998年Celera公司的加入2022-7-23595、可持续性可持续性:太空观测和基因组计划都是科学上出色的计划,每一个都是太空观测和基因组计划都是科学上出色的计划,每一个都是科学上迈出的一大步。但是两者之间存在着一个刺眼的差别:科学上迈出的一大步。但是两者之间存在着一个刺眼
18、的差别:开支方面有四十倍的差别。开支的差别是至关重要的,因为开支方面有四十倍的差别。开支的差别是至关重要的,因为这意味着可持续性。这意味着可持续性。当一个计划足够便宜到成为一条可以无当一个计划足够便宜到成为一条可以无限向未来延伸的系列的第一个时,它是可持续的。限向未来延伸的系列的第一个时,它是可持续的。而当一个而当一个计划太昂贵,以至不经过重大的政治斗争就无法重复时,它计划太昂贵,以至不经过重大的政治斗争就无法重复时,它就是不可持续的。可持续计划带来新计划的开始,不可持续就是不可持续的。可持续计划带来新计划的开始,不可持续计划则标志着老时代的结束计划则标志着老时代的结束。The Sun,the
19、 Genome,and the InternetTools of Scientific RevolutionFreeman Dyson 2022-7-2360各学科参与、协作:生命科学、数学、物理学、化学、计算机科学、材料科学以及伦理、法律等社会科学HGP带来的科学挑战带来的科学挑战HGP:Pandoras Box 2022-7-2361 首要科学问题首要科学问题 如何找到记载在基因组DNA一维结构上控制生命时间、空间的调控信息的编码方式和调节规律。应用数学、复杂系统理论、信息论、非线性科学 催生生物信息学生物信息学、计算生物学、系统生物学计算生物学、系统生物学 DNA芯片技术芯片技术 交叉性
20、技术领域:物理学、微电子信息技术、生化技术、信息技术 结构生物学结构生物学 前沿领域之一:生物物理学、生物化学、晶体学、波谱学、光谱学以及X射线晶体衍射技术、核磁共振技术2022-7-23622022-7-23632022-7-2364间期间期前期前期 I同源染色体同源染色体形成配对形成配对中期中期 I晚期晚期 I发生交换发生交换前期前期 II中期中期 II晚期晚期 II末期末期 II配子配子n遗传连锁图:通遗传连锁图:通过计算连锁的遗过计算连锁的遗传标志之间的重传标志之间的重组频率,确定它组频率,确定它们的相对距离,们的相对距离,一般用厘摩(一般用厘摩(cM,即每次减数分裂即每次减数分裂的重
21、组的重组频率为频率为1%)表示。表示。2022-7-23652022-7-2366n1998 年完成了具有年完成了具有52,000个序列标签位点个序列标签位点(STS),并,并覆覆盖人类基因组大部分区域的连续克隆系的物理图谱。盖人类基因组大部分区域的连续克隆系的物理图谱。细菌人工染色体细菌人工染色体(80300 kb)酵母人工染色体酵母人工染色体(数百(数百 2000 kb)中心粒中心粒一对紧密一对紧密相邻的标志相邻的标志一对相邻一对相邻较远的标志较远的标志染色体图染色体图2022-7-23672022-7-2368 Megabace 测序仪测序仪3700 测序仪测序仪2022-7-2369n
22、逐个克隆法:对连续克逐个克隆法:对连续克隆系中排定的隆系中排定的BAC克隆克隆逐个进行亚克隆测序并逐个进行亚克隆测序并进行组装(国际合作测进行组装(国际合作测序计划)序计划)n全基因组鸟枪法:在一全基因组鸟枪法:在一定作图信息基础上,绕定作图信息基础上,绕过大片段连续克隆系的过大片段连续克隆系的构建而直接将基因组分构建而直接将基因组分解成小片段随机测序,解成小片段随机测序,利用超级计算机进行组利用超级计算机进行组装(美国装(美国Celera公司)公司)2022-7-23702022-7-23712022-7-23722022-7-23732022-7-23742022-7-2375基因变异与疾
23、病基因变异与疾病2022-7-2376772022-7-232022-7-23786/1-8/31/99NoCenterRegionSize(Mb)Actual KGenbank KrProjected Kr4/1-11/30/99Proj Accum.Mr.4/99-3/001Sanger Centre1,6,9,10,13,20,22,X85013009414200122WIBR(Clones from Wash U)837296290083Wash U2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1
24、,2,3,X2304622616603.16Riken21,18,11q1601361955202.17IMB8,21,X50180321801.58GenoscopeMost of 14851001183001.49U.Wash(Olson)10 Beijing3p3012.512.51000.511 GTC(Smith)105051500.4512 MPIMG17,21,X6.94012400.313 GBF21,reg of 96500.314 Stanford(Davis)8231370.2915 Keio2,6,8,22,213011751100.2316 U.Wash(Hood L
25、AB)14,15267127400.17Total2671Mb4663Kr2950Kr13687Kr32.64Mr2022-7-2379又一次成功!又一次成功!水稻基因研究水稻基因研究2022-7-2380发现生物学规律解读生物遗传密码认识生命的本质研究基因组数据之间的关系分析现有的基因组数据利用数学模型和人工智能技术2022-7-23812022-7-23822022-7-23832022-7-2384人类基因组与其它生物基因组比较人类基因组与其它生物基因组比较2022-7-23852022-7-2386数据处理和关联分析发现药物作用对象确定靶目标分子针对靶目标进行合理的药物设计872022
26、-7-232022-7-2388蛋白质结构 蛋白质序列 蛋白质功能关系 2022-7-23892022-7-23902022-7-23912022-7-2392基因组数据库 蛋白质序列数据库 蛋白质结构数据库 DDBJEMBLGenBankSWISS-PROT PDBPIR2022-7-23932022-7-23942022-7-23952022-7-23962022-7-2397基因芯片基因芯片2022-7-23982022-7-23992022-7-23100蛋白质折叠蛋白质折叠2022-7-231012022-7-231022022-7-231032022-7-231042022-7-231052022-7-231062022-7-23107环境学习知识库执行机器学习系统的基本结构机器学习系统的基本结构 反反 馈馈2022-7-231082022-7-231092022-7-23110输入层隐藏层输出层2022-7-231112022-7-231122022-7-231132022-7-231142022-7-23115 反馈,改进模型 实 验实验现象数学模型计算机模 拟模拟结果分析 新的设想计算机模拟实验计算机模拟实验 产生设计解释2022-7-231162022-7-231172022-7-23118