第一章(更改)生物信息学教程课件.ppt

上传人(卖家):晟晟文业 文档编号:5186613 上传时间:2023-02-16 格式:PPT 页数:84 大小:2.66MB
下载 相关 举报
第一章(更改)生物信息学教程课件.ppt_第1页
第1页 / 共84页
第一章(更改)生物信息学教程课件.ppt_第2页
第2页 / 共84页
第一章(更改)生物信息学教程课件.ppt_第3页
第3页 / 共84页
第一章(更改)生物信息学教程课件.ppt_第4页
第4页 / 共84页
第一章(更改)生物信息学教程课件.ppt_第5页
第5页 / 共84页
点击查看更多>>
资源描述

1、生物信息学生物信息学主讲人:彭晓莉课程特点课程特点v多学科交叉,知识覆盖面广:多学科交叉,知识覆盖面广:生物、计算机、数学、物理、化学等生物、计算机、数学、物理、化学等v内容众多,且应用领域宽广:内容众多,且应用领域宽广:涉及从基因组序列分析直到药物设计等涉及从基因组序列分析直到药物设计等v实践环节非常重要:实践环节非常重要:生物信息数据资源与分析工具繁多生物信息数据资源与分析工具繁多v知识更新快:知识更新快:理论方法尚不系统成熟,处于迅速发展变化阶段理论方法尚不系统成熟,处于迅速发展变化阶段v缺乏合适的教材缺乏合适的教材计算机方面计算机方面数学方面数学方面课程定位课程定位v介绍生物信息学对于

2、生命科学研究及生物技术相关产业发展的重要性v沿着“从生物信息查询、DNA和蛋白质相似性对比、蛋白质结构和功能预测”这一主线,介绍相关的生物信息学研究内容、所涉及的主要方法与研究思路、所取得的研究成果及其解决问题的能力v讲授与研讨相结合,请学有所长的同学参与部分讲授教学计划教学计划v第一章 生物信息学引论 v第二章 生物信息学的发展和前景v第三章 常用生物信息学数据库简介 v第四章 生物信息查询v第五章 DNA和蛋白质相似性对比v第六章 蛋白质结构和功能预测 生物信息学实验教学生物信息学实验教学实验1.使用Oligo和Primer软件设计PCR引物实验2.常用分子生物学数据库的使用和数据格式、数

3、据库查询与下载(Entrez.SRS)实验3.核酸和蛋白质序列的进化分析(CLUSTALX、MEGA2软件的使用)实验4.蛋白质序列分析和结构预测主要参考书主要参考书1生物信息学,David W.Mount 著,钟 扬、王 莉、张 亮等译,高等教育出版社,20032 生物信息学基因和蛋白质分析的实用指南(Andreas D.Baxevanis And B.F.Francis Ouellette 著).李衍达、孙子荣等 译.北京:清华大学出版社,20003简明生物信息学,钟 扬等 主编.高等教育出版社,2001探索基因组学、蛋白质组学和生物信息学,孙子荣译.科学出版社,20044生物信息学方法与

4、实践,张成岗 贺福初 编著.科学出版社,20025 生物信息学导论,李巍等 主编.郑州大学出版社,200 第一章第一章 生物信息学引论生物信息学引论v研究背景研究背景v生物信息学定义生物信息学定义v生物信息学研究内容生物信息学研究内容v生物信息学研究方法生物信息学研究方法研究背景研究背景为什么提出为什么提出HGP?1961年,美国总统年,美国总统Kennedy提出两个科学计划提出两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性 人类基因组计划人类基因组计划 (HGP,Human Genome Project)1、“曼哈顿原子弹计划曼哈顿原子弹计划

5、”历史遗留问题之产物历史遗留问题之产物 2、对生命科学和医学的科学影响、对生命科学和医学的科学影响 二十世纪三大科学计划二十世纪三大科学计划曼哈顿原子弹计划曼哈顿原子弹计划(1942-46)阿波罗登月计划阿波罗登月计划(1961-69)人类基因组计划人类基因组计划(1990-2003)HGPHGP的驱动的驱动 19861986年年ScienceScience上上 Dulbecco RDulbecco R重要文章重要文章“肿瘤研究肿瘤研究的转折的转折 人类基因组的全序列分析人类基因组的全序列分析”。包括包括肿瘤在内的一切疾病的发生,都与肿瘤在内的一切疾病的发生,都与基因基因相关。是相关。是“零敲

6、碎打零敲碎打”?还是从整体上研究和分析整个人类还是从整体上研究和分析整个人类基因基因组组?他指出,这个世界上发生的一切事情,都与这人类的?他指出,这个世界上发生的一切事情,都与这人类的DNADNA序列相关序列相关。只有弄清人类基因组全部或大部分基因的。只有弄清人类基因组全部或大部分基因的工作情况,实施其它计划才有可能。这样的工作是任何一工作情况,实施其它计划才有可能。这样的工作是任何一个实验室难以单独承担的个实验室难以单独承担的 DNA、基因、基因组、基因、基因组生命活动三要素:物质、能量、信息生命活动三要素:物质、能量、信息DNA:遗传物质(遗传信息的载体)双螺旋结构 A,C,G,T四种基本

7、字符的复杂文本 基因(Gene):具有遗传效应的DNA分子片段v基因组(Genome):包含细胞或生物体的全套遗传信息的全部遗传物质 原核生物(细菌、病毒等)真核生物(真菌、植物、动物等)v人类基因组:3.2109 bp,含有约3万个 基因HGP历史回顾历史回顾v1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基v 因组DNA序列的意义v1986.3 Dulbecco在Science撰文“肿瘤研究的转折点:v 人类基因组的测序”v 美国能源部(DOE)提出“人类基因组计划”草案v1987 美国能源部和国家卫生研究院(NIH)联合为“人类v 基因组计划”下拨启动经费约550万美元v19

8、89 美国成立“国家人类基因组研究中心”,Watson担任v 第一任主任v1990.10 经美国国会批准,人类基因组计划正式启动James WatsonWalter Gilbertv尽管比之于人类登月,尽管比之于人类登月,HGP的投入资金的投入资金要少得多,但要少得多,但HGP对人类生活的影响要对人类生活的影响要更为深远更为深远。因为随着这个计划的完成,。因为随着这个计划的完成,DNA分子中编码的分子中编码的遗传信息将对人类存遗传信息将对人类存在的化学基础作出最终的回答在的化学基础作出最终的回答。这将不。这将不仅帮助我们理解我们是如何作为健康的仅帮助我们理解我们是如何作为健康的人发挥正常功能的

9、,而且也将在化学水人发挥正常功能的,而且也将在化学水平上解释遗传因子在各种疾病,如癌症、平上解释遗传因子在各种疾病,如癌症、早老痴呆症、精神分裂症等一些严重危早老痴呆症、精神分裂症等一些严重危害人类健康的疾病中的作用。毕竟害人类健康的疾病中的作用。毕竟对人对人类自身更深入的了解是人类活动中最重类自身更深入的了解是人类活动中最重要的一个部分。要的一个部分。Watson,1990,SciencevHGP的最初目标的最初目标:通过国际合作,用15年时间(19902005)至少投入30亿美元,构建详细的人类基因组遗传图和物理图,确定人类DNA的全部核苷酸序列,定位约10万基因,并对其它生物进行类似研究

10、。4张图:遗传图 物理图 序列图 基因图vHGP的终极目标的终极目标阐明人类基因组全部DNA序列识别基因建立储存这些信息的数据库开发数据分析工具研究HGP实施所带来的伦理、法律和社会问题HGP辅助计划辅助计划v在人类基因组计划中,还包括对五种生物基因组的研究:大肠杆菌、酵母、线虫、果蝇和小鼠,称之为人类的五种“模式生物”。1995 第一个自由生物体流感嗜血菌(H.inf)的全基因组测序完成1996 完成人类基因组计划的遗传作图 启动模式生物基因组计划H.Inf 全基因组全基因组 1997 大肠杆菌(E.coli)全基因组测序完成1998 完成人类基因组计划的物理作图 开始人类基因组的大规模测序

11、 Celera公司加入,与公共领域竞争 启动水稻基因组计划 1999.7 第5届国际公共领域人类基因组测序会议,加快测序速度 2000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥因组的测序工作 2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图 2001.2.15 Nature刊文发表国际公共领域结果 2001.2.16 Science刊文发表Celera公司及其合作者结果At the White House on June 26,Francis Collins(r),Director of the National Human

12、 Genome Research Institute,President Clinton,and J.Craig Venter,President of Celara Genomics,lauded the thousands of scientists who contributed to the genome sequence.2001年年8月月26日日 人类基因组人类基因组“中国卷中国卷”的绘制工作宣告完成。的绘制工作宣告完成。2002年年 水稻、小鼠、疟原虫等基因组测序完成水稻、小鼠、疟原虫等基因组测序完成 2003年年4月月14日日 中、美、日、德、法、英等中、美、日、德、法、英等6

13、国科学家宣布人类基国科学家宣布人类基因组序列图绘制成功,人类基因组计划的所有目标全部实现。因组序列图绘制成功,人类基因组计划的所有目标全部实现。2003年年10月,月,2004年年10月人类基因组完成图公布。月人类基因组完成图公布。vAGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTA

14、GCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGT

15、TGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAA

16、GAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTA

17、GTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCA

18、TGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCA

19、TGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATA地球生物圈约有140万余种物种,其中2以上至少有一段DNA序 列被测定 真核生物 12500 种 哺乳动物 4200 种 真 细 菌 3600 种 古 细 菌 180 种 病 毒 1750 种功能基因组研究 功能相关海量数据v转录组EST(Expressed Sequence Tag)SAGE

20、(Serial Analysis of Gene Expression)DNA Microarray large scale gene expression analysisv蛋白质组2D Gel Electrophoresis protein expression analysisMass Spectrometry protein sequencingYeast Two-Hybrid(Y2H)System protein interaction analysisv结构基因组X-ray CrystallographyNMR(Nuclear Magnetic Resonance)Spectros

21、copy生物分子数据类型生物分子数据类型生物分子信息DNA序列数据 蛋白质序列数据 生物分子结构数据 生物分子功能数据 最基本直观复杂 DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化v生物数据爆炸性增长:有人估计得到的结论是:生物数据量的积累已达到人类有史以来所说过的话的数百倍,而且还将以越来越快的速度增长。生物数据爆炸性增长所带来的挑战v海量数据的存储、管理、共享v数据 知识,如何将这些数据变为生物学知识?vAGCATCGAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGC

22、ATGACGATGCATGACCTAGCAAGTTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCT

23、AGCAAGTTGCATGACGATTGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGCGATGCATGACCTAGCAAGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGCAAGTTGCATGACGATTGACCTAGTGCATGACTGACCTAGCAGCATCGAAGTTGCATGACGATGCATGACCTAGTGCATGACGATGCATGACCTAGCAGCATCGAA 人类基因组以及其它模式生物基因组计划的全面实施,使分子人类基因组以及其它

24、模式生物基因组计划的全面实施,使分子生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔生物数据以爆炸性速度增长。在计算机科学领域,按照摩尔定律飞速前进的计算机硬件,定律飞速前进的计算机硬件,以及逐步受到各国政府重视的以及逐步受到各国政府重视的信息高速公路计划的实施,信息高速公路计划的实施,为生物信息资源的研究和应用带为生物信息资源的研究和应用带来了福音。来了福音。及时、充分、有效地利用网落上不断增长的生物及时、充分、有效地利用网落上不断增长的生物信息数据库资源,已经成为生命科学和生物技术研究开发的信息数据库资源,已经成为生命科学和生物技术研究开发的必要手段。核酸和蛋白质序列、结构、功能分析软

25、件已经成必要手段。核酸和蛋白质序列、结构、功能分析软件已经成为生物学、医学、药物学、农学和环境科学等领域的必备工为生物学、医学、药物学、农学和环境科学等领域的必备工具。具。如何开发和利用生物信息数据,已经成了当今一个前沿如何开发和利用生物信息数据,已经成了当今一个前沿领域和研究热点。面对这种形势,一门新兴的边缘学科领域和研究热点。面对这种形势,一门新兴的边缘学科-生生物信息学应运而生。物信息学应运而生。?v美国国家卫生研究院(美国国家卫生研究院(NIH)的定义:)的定义:(Research,development,or application of computational tools an

26、d approaches for expanding the use of biological,medical,behavioral or health data,including those to acquire,store,organize,archive,analyze,or visualize such data.)为拓展生物学、医学、行为学和卫生学数据的用途,而进行为拓展生物学、医学、行为学和卫生学数据的用途,而进行有关计算机方法手段的研究、开发与应用,包括此类数据的有关计算机方法手段的研究、开发与应用,包括此类数据的采集、存贮、整理、归档、分析与可视化采集、存贮、整理、归档、分

27、析与可视化?v广义定义:泛指任何与运用计算机及其网络和数据库进行大规模生物数据的收集,组织管理和分析相关的研究领域v狭义定义:指用计算机的手段和方法来对生物遗传的信息和数据进行管理和分析v生物信息学生物信息学(Bioinformatics)的来源vDr.Hwa A.Lim(林华安)(林华安)1987年提出年提出 “Bio-informatique”“Bioinformatics”v1955年出生于马来西亚。联合国年出生于马来西亚。联合国Bioinformatics专家,专家,University of Texas at Dallas分子与细胞生物学分子与细胞生物学Adjunct Profess

28、or、中国科学院基因遗传研究所客座教授。中国科学院基因遗传研究所客座教授。1981年年英国伦敦大学帝国学院英国伦敦大学帝国学院(Imperial College,London University)毕业,毕业,1986年获得美国年获得美国Rochester University生化物理学博士学位,生化物理学博士学位,30岁取得佛罗里达州立大学终生教授。岁取得佛罗里达州立大学终生教授。1992年年受聘担任美国国家癌症中心及美国国家科学基受聘担任美国国家癌症中心及美国国家科学基金会审核委员。金会审核委员。1995年后,历任多家生物科技年后,历任多家生物科技公司生化信息执行长、副总裁等高层管理职位。

29、公司生化信息执行长、副总裁等高层管理职位。1997年,创立结合软件与数据分析的专业顾问年,创立结合软件与数据分析的专业顾问公司公司D Trends,服务生物技术、制药及卫生保,服务生物技术、制药及卫生保健等机构健等机构v林华安最近又将林华安最近又将Biothechnology、Information结合纳米科技(结合纳米科技(Nano),提出),提出 Binformatics(生纳信息学)(生纳信息学)生物信息学之父生物信息学之父林华安林华安v生物信息学生物信息学 一门新兴的交叉学科一门新兴的交叉学科 (1).新兴的交叉学科新兴的交叉学科 Molecule biology;Computer s

30、cience;Informatics science;Mathematics,Physics etc.(2).生物信息学和其它生物学科研究的关系生物信息学与其他学科之间的关系生物学分子生物学医学生物信息学数学统计学计算机学计算机网络前基因组时代的前基因组时代的“钓鱼钓鱼”和后基因组时代的和后基因组时代的“捞鱼捞鱼”When I give talks to young scientists seeking advice about areas of future intense scientific excitement,bioinformatics is my number one recom

31、mendation.,Director of HGP at NIH The next step in the project is the“interpretation phase”.That is really the fun part of the whole project because then we finally have the complete order of all layers of genetic codes and we have to discover what it all means.,Head of Celera Genomics Inc.v生物信息学的研究

32、内容生物信息学的研究内容 v 1.1.基因组信息学基因组信息学 1).1).基因组信息的收集、存储、管理与提供基因组信息的收集、存储、管理与提供 2).2).基因组序列信息的提取和分析基因组序列信息的提取和分析 基因的发现与鉴定;非基因的发现与鉴定;非编码区的信息结构分析等编码区的信息结构分析等 3).3).基因组信息分析方法与技术的研究基因组信息分析方法与技术的研究 4).4).应用与发展研究应用与发展研究v 2.2.蛋白质空间结构模拟与预测蛋白质空间结构模拟与预测 1).1).分子模拟技术分子模拟技术 2).2).蛋白质空间结构预测蛋白质空间结构预测 v3.3.药物分子设计药物分子设计 1

33、).1).靶分子的确定靶分子的确定 2).2).药物分子设计药物分子设计v4.4.基因表达的调控基因表达的调控,基因功能的预测基因功能的预测;芯片表达芯片表达,数据分析等数据分析等v5.5.分子的进化、生物的起源分子的进化、生物的起源v6.Network,Pathway6.Network,Pathway(分子调控网络、复杂疾病分子网络)等(分子调控网络、复杂疾病分子网络)等基因组研究的内容:基因组研究的内容:结构基因组学(结构基因组学(structural genomicsstructural genomics)功能基因组学(功能基因组学(functional genomics)functio

34、nal genomics)结构基因组学(结构基因组学(structural genomicsstructural genomics):以以全基因组测序为目标全基因组测序为目标,弄清基因组中全部基因的位置和结构,弄清基因组中全部基因的位置和结构,为基因功能的研究奠定基础为基因功能的研究奠定基础目的:建立高分辨的遗传图谱、物理图谱、转录图谱和序列图目的:建立高分辨的遗传图谱、物理图谱、转录图谱和序列图谱谱功能基因组学(功能基因组学(functional genomics)functional genomics):以以基因功能鉴定为目标基因功能鉴定为目标,利用结构基因组学提供的信息,以高,利用结构基

35、因组学提供的信息,以高通量,大规模实验方法及统计与计算机分析为特征,通量,大规模实验方法及统计与计算机分析为特征,全面系全面系统地分析全部基因的功能统地分析全部基因的功能。研究角度包括:生物学功能、细。研究角度包括:生物学功能、细胞学功能、发育学功能等胞学功能、发育学功能等遗传图谱遗传图谱物理图谱物理图谱转录图谱转录图谱序列图谱序列图谱1结结构构基基因因组组学学结构基因组学结构基因组学遗传图谱:遗传图谱:指基因或指基因或DNA标标志在染色体上的相对位置与遗志在染色体上的相对位置与遗传距离传距离。CM表示(基因或表示(基因或DNA片段在染色体交换过程片段在染色体交换过程中分离的频率)。通过该图谱

36、中分离的频率)。通过该图谱可分清各基因或可分清各基因或DNA片段之片段之间的相对距离与方向,如靠近间的相对距离与方向,如靠近着丝粒或端粒着丝粒或端粒水稻1号染色体结构基因组学结构基因组学物理图谱:物理图谱:指指DNA序序列上两点间的实际距离列上两点间的实际距离。用于确定各遗传标志间用于确定各遗传标志间的物理距离有两种物理的物理距离有两种物理图谱:(图谱:(1)以已定位)以已定位的的DNA序列标记位点序列标记位点(STS)为位标,以)为位标,以DNA实际长度为图谱实际长度为图谱距离的基因组图谱。距离的基因组图谱。(2)由)由YAC和和/或细菌或细菌人工染色体(人工染色体(BAC)连续克隆重叠群组

37、成的连续克隆重叠群组成的物理图谱物理图谱结构基因组学结构基因组学转录图谱:转录图谱:以以EST为位标,根据转录顺序的位置和距离为位标,根据转录顺序的位置和距离绘制的图谱,它是染色体绘制的图谱,它是染色体DNA某一区域内所有可转录序某一区域内所有可转录序列的分布图,是基因图的雏形列的分布图,是基因图的雏形结构基因组学结构基因组学人基因组人基因组 1号染色体局部号染色体局部序列图谱:序列图谱:以某一染色体上所含的全部碱基顺序绘制的图谱。以某一染色体上所含的全部碱基顺序绘制的图谱。基因组测序Complete Published Genome Projects:226古细菌(古细菌(Archaeal)

38、:19 细菌(细菌(Bacterial):178 真核(真核(Eukaryal):29http:/www.genomesonline.org/与HGP相关的生物信息学研究内容v高度自动化的实验数据的获得、加工和整理高度自动化的实验数据的获得、加工和整理 v序列片段的拼接序列片段的拼接 v基因区域的预测基因区域的预测 v基因功能预测基因功能预测 v分子进化的研究分子进化的研究 高度自动化的实验数据的高度自动化的实验数据的获得、加工和整理获得、加工和整理v如何将实验室中得到的生物学信息如何将实验室中得到的生物学信息转化为转化为计计算机能够处理的算机能够处理的数字信息数字信息,是生物信息学的,是生物

39、信息学的一个重要课题。一个重要课题。序列片段的拼接v目前目前DNA自动测序仪每个反应只能测序自动测序仪每个反应只能测序600bP左右。如何左右。如何将将这些这些序列片段拼接成完序列片段拼接成完整的整的DNA顺序顺序就成为接下来的一个重要工作。就成为接下来的一个重要工作。基因区域的预测基因区域的预测v基因区域的预测,基因区域的预测,一般是指预测一般是指预测DNA顺序中编码蛋白质的部分,即外显顺序中编码蛋白质的部分,即外显子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因子部分。不过目前基因区域的预测已从单纯外显子预测发展到整个基因结构的预测结构的预测。这些预测综合各种外显子预测的算法

40、和人们对基因结构信。这些预测综合各种外显子预测的算法和人们对基因结构信号(如号(如 TATA box和加尾信号)的认识,预测出可能的完整基因。预测和加尾信号)的认识,预测出可能的完整基因。预测外显子的基本算法:外显子的基本算法:v早期有早期有ORF(open reading frame)法)法v核苷酸语汇核苷酸语汇(nucleotide words,即数个连续核苷酸的排列),即数个连续核苷酸的排列)v法则系统(法则系统(rulebased systm)v语言学(语言学(linguistic)系统)系统 v线性判别分析(线性判别分析(Linear Discriminant Analysis,LD

41、A)v决策树(决策树(decision tree););spliced alignment算法算法 v傅利叶分析(傅利叶分析(Fourier analysis)等。)等。基因功能预测基因功能预测v序列同源比较:序列同源比较往往是得到新基因后预测其功序列同源比较:序列同源比较往往是得到新基因后预测其功能的第一步。能的第一步。v同源比较的同源比较的 3种流行的算法:种流行的算法:SmithWaterman算法,算法,FASTA和和BLAST算法有各自的优缺点。算法有各自的优缺点。同源比较算法中一个需要继续发展的方面是同源比较算法中同源比较算法中一个需要继续发展的方面是同源比较算法中使用的使用的计分

42、矩阵的完善计分矩阵的完善,特别是间隔的计分方法的研究。,特别是间隔的计分方法的研究。需要解决的另一个问题是需要解决的另一个问题是目前数据库中部分数据的冗余度太目前数据库中部分数据的冗余度太高高。特别是。特别是EST库,某些基因甚至有数千条库,某些基因甚至有数千条EST与之对应。与之对应。v寻找蛋白质家族保守顺序寻找蛋白质家族保守顺序:通过同源检索通过同源检索,我们可能,我们可能推测推测待检的新基因是某个蛋白质家族的新成员待检的新基因是某个蛋白质家族的新成员,下一步就是寻找下一步就是寻找新基因中包含的该蛋白质家族的保守序列,这样也就为进一新基因中包含的该蛋白质家族的保守序列,这样也就为进一步深入

43、研究其功能作好了准备步深入研究其功能作好了准备多序列同源比较,或称为多序列对齐(多序列同源比较,或称为多序列对齐(multiplesequence alignment),是将多个序列进行同源比较以发),是将多个序列进行同源比较以发现其共同的结构特征的方法,被广泛用来寻找基因家族或蛋现其共同的结构特征的方法,被广泛用来寻找基因家族或蛋白质家族中的保守部分。白质家族中的保守部分。FengDoolittle算法是较常用的多序列对齐算法。其他的算法是较常用的多序列对齐算法。其他的新算法包括新算法包括 HMM方法,方法,Gibbs sampling以及处理多结构以及处理多结构域蛋白质家族的算法。域蛋白质

44、家族的算法。v蛋白质结构的预测:蛋白质结构的预测:通过基于结构的同源比较(通过基于结构的同源比较(structurestructure alignment)寻找结构同源的基因或直接预测)寻找结构同源的基因或直接预测其高级结构来推测其可能的功能其高级结构来推测其可能的功能。有许多蛋白质高级结构数。有许多蛋白质高级结构数据库提供结构同源比较的检索。另一方面,直接预测基因产据库提供结构同源比较的检索。另一方面,直接预测基因产物的高级结构的算法现在已经有不少,然而,由于蛋白质的物的高级结构的算法现在已经有不少,然而,由于蛋白质的折叠结构实在太复杂,使得计算最佳构象非常困难。折叠结构实在太复杂,使得计算

45、最佳构象非常困难。基因预测基因预测v所要预测的基因类型所要预测的基因类型编码基因(编码基因(protein-coding genes)假基因(假基因(pseudogenes)RNA基因(基因(functional RNA genes)-tRNAtransfer RNA-rRNAribosomal RNA-snoRNAsmall nuclelar RNA-snRNAsmall nuclear RNA-miRNAmicroRNARNA基因预测基因预测v预测软件预测软件 tRNAscan-SE v准确率:准确率:99-100%(tRNA)http:/www.genetics.wustl.edu/ed

46、dy/tRNAscan-SE/编码基因预测编码基因预测v几类外显子(几类外显子(exons):-非翻译区(非翻译区(noncoding)-启示外显子(启示外显子(initial coding exons)-中间外显子(中间外显子(internal exons)-终止外显子(终止外显子(terminal exons)-单一外显子基因(单一外显子基因(some single-exon genes)基因预测方法基因预测方法同源序列法同源序列法 Homology-based searches依靠以前鉴定的基因序列依靠以前鉴定的基因序列算法预测法算法预测法Algorithm-based searches

47、分析分析DNA组成组成,ORF,和其他一些属性和其他一些属性 同源序列法同源序列法DNARNARNAproteinintronintronintron算法预测法算法预测法vGENSCAN http:/genes.mit.edu/GENSCAN.html 隐式马尔可夫模型(HMM)分子进化的研究v预测新基因只是生物信息学研究的一个方面,这门学科的根预测新基因只是生物信息学研究的一个方面,这门学科的根本目标是探究隐藏在生物数据后面的生物学知识。本目标是探究隐藏在生物数据后面的生物学知识。对于基因对于基因组研究来说,一个重要的研究方向就是分子序列的进化组研究来说,一个重要的研究方向就是分子序列的进化

48、。从。从各种基因结构与成分的进化,密码子使用的进化,到进化树各种基因结构与成分的进化,密码子使用的进化,到进化树的构建,各种理论上和实验上的课题都等待生物信息学家的的构建,各种理论上和实验上的课题都等待生物信息学家的研究。研究。生物信息学研究手段1.数学统计方法数学统计方法 2.动态规划方法动态规划方法 3.机器学习与模式识别技术机器学习与模式识别技术 4.数据库技术及数据挖掘数据库技术及数据挖掘 5.人工神经网络技术人工神经网络技术6.专家系统专家系统 7.分子模型化技术分子模型化技术8.量子力学和分子力学计算量子力学和分子力学计算 9.生物分子的计算机模拟生物分子的计算机模拟10.因特网(

49、因特网(Internet)技术)技术 1、数学统计方法v生物活动常常以大量、重复的形式出现,既受到内在因素的生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干扰。因此制约,又受到外界环境的随机干扰。因此概率论和数学统计概率论和数学统计是是现代生物学研究中现代生物学研究中一种常用的分析方法一种常用的分析方法 v数据统计、因素分析、多元回归分析是生物学研究必备的工数据统计、因素分析、多元回归分析是生物学研究必备的工具具v隐马尔科夫模型(隐马尔科夫模型(Hidden Markov Models)在序列分析方)在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔

50、科面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(夫链(Markov Chain)2.动态规划方法v动态规划(动态规划(Dynamic Programming)是一种解决多阶段决)是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法策过程的最优化方法或复杂空间的优化搜索方法 v动态规划解决问题的基本过程是:将一个问题的全局解分解动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推进,为局部解,逆序递推求出局部最优解,随着执行过程的推进,“局部局部”逐渐接近逐渐接近“全局全局”,最终获得全局最优解,最终获得全局最优解 3.机器学

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(第一章(更改)生物信息学教程课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|