1、生物信息学生物信息学生物化学研究所生物化学研究所聂作明聂作明联系方式联系方式6号楼号楼423室室Email: Tel:86843192或或13958160384课件信箱:课件信箱:bioinfo_考核方式考核方式平时成绩:平时成绩:10,考勤,考勤,3次缺勤记次缺勤记0分;分;作业成绩:作业成绩:30;期末考试:期末考试:60。参考书参考书主要参考书主要参考书蒋彦,王小行,曹毅:蒋彦,王小行,曹毅:基础生物信息学及应用基础生物信息学及应用,清华大,清华大学出版社,学出版社,2003年版年版.D.R.Westhead,J.H.Parish:生物信息学生物信息学(影印本),(影印本),科学出版社,
2、科学出版社,2003年版年版.自学参考资料自学参考资料张成岗:张成岗:生物信息学方法与实践生物信息学方法与实践贺福初:贺福初:生物信息学手册生物信息学手册孙之荣:孙之荣:生物信息学生物信息学蛋白质和蛋白质分析的实用指南蛋白质和蛋白质分析的实用指南黄英武:黄英武:生物信息学生物信息学罗静初:罗静初:生物信息学概论生物信息学概论课程主要内容课程主要内容概论概论专题一:生物信息学数据库专题一:生物信息学数据库专题二:核酸序列分析专题二:核酸序列分析专题三:蛋白序列分析专题三:蛋白序列分析生物信息学与药物设计生物信息学与药物设计序列分析流程和举例序列分析流程和举例能力目标能力目标1.能够查询检索生物信
3、息学数据库,获得想要的生能够查询检索生物信息学数据库,获得想要的生物学数据,为科研和实验服务。物学数据,为科研和实验服务。2.具有分析核酸序列和蛋白序列的能力,能够通过具有分析核酸序列和蛋白序列的能力,能够通过序列分析获得序列所代表的生物学意义、同源序序列分析获得序列所代表的生物学意义、同源序列、代表的基因和蛋白的结构与功能等;列、代表的基因和蛋白的结构与功能等;3.能利用能利用Entrez等常用文献检索系统检索生物学数等常用文献检索系统检索生物学数据和论文,了解所研究课题国内外最新进展。据和论文,了解所研究课题国内外最新进展。课程主要内容课程主要内容概论概论专题一:生物信息学数据库专题一:生
4、物信息学数据库专题二:核酸序列分析专题二:核酸序列分析专题三:蛋白序列分析专题三:蛋白序列分析生物信息学与药物设计生物信息学与药物设计序列分析流程和举例序列分析流程和举例概概 论论第一节第一节 引言引言 从人类基因组计划说起从人类基因组计划说起 第二节第二节 生物信息学概念生物信息学概念 第三节第三节 生物信息学主要研究内容生物信息学主要研究内容 第四节第四节 生物信息学当前的主要任务生物信息学当前的主要任务 第五节第五节 生物信息学所用的方法和技术生物信息学所用的方法和技术曼哈顿原子弹计划曼哈顿原子弹计划阿波罗登月计划阿波罗登月计划人类基因组计划人类基因组计划6060年代初,美国总统年代初,
5、美国总统KennedyKennedy提出提出两个科学计划:两个科学计划:登月计划登月计划攻克肿瘤计划攻克肿瘤计划 人类遗传信息的复杂性人类遗传信息的复杂性人类基因组计划人类基因组计划(HGP,Human Genome Project)基因组基因组 一个物种中所有基因的整体组成一个物种中所有基因的整体组成back 基因组基因组(Genome)(Genome):包含包含细胞或生物体细胞或生物体全套的遗传信息的全部全套的遗传信息的全部 遗传物质。遗传物质。人类基因组:人类基因组:3.2109 bpHGPHGP的最初目标的最初目标通过国际合作,用通过国际合作,用1515年时间年时间(1990(1990
6、2005)2005)至至少投入少投入3030亿美元,构建详细的人类基因组遗传图和物理图亿美元,构建详细的人类基因组遗传图和物理图 ,确定人类确定人类DNADNA的全部核苷酸序列,定位约的全部核苷酸序列,定位约1010万基因,并对其它万基因,并对其它模式模式生物进行类似研究生物进行类似研究,建立信息系统,建立信息系统。4 4张图:张图:遗传图物理图物理图序列图序列图转录图转录图人类基因组计划设想人类基因组计划设想HGPHGP的终极目标的终极目标n作图作图和测序和测序是基本的任务,在此基础是基本的任务,在此基础上解读和破译生物体生老病死以及和疾上解读和破译生物体生老病死以及和疾病相关的遗传信息病相
7、关的遗传信息1984.12 犹他州阿尔塔组织会议,初步研讨测定人类整个基 因组DNA序列的意义1985 Dulbecco在Science撰文“肿瘤研究的转折点:人 类基因组的测序”美国能源部(DOE)提出“人类基因组计划”草案1987 美国能源部和国家卫生研究院(NIH)联合为“人类 基因组计划”下拨启动经费约550万美元1989 美国成立“国家人类基因组研究中心”,Watson担任 第一任主任1990.10 经美国国会批准,人类基因组计划正式启动,联合了 10多个国家和地区的科研机构(公共领域)James WatsonWalter Gilbert19951995第一个自由生物体流感嗜血菌第一
8、个自由生物体流感嗜血菌(H.infH.inf)的全基因组测序完成的全基因组测序完成19961996完成人类基因组计划的遗传作图,随后启动模式生物基因组计划完成人类基因组计划的遗传作图,随后启动模式生物基因组计划H.inf全基因组全基因组Saccharomyces cerevisiae酿酒酵母酿酒酵母Caenorhabditis elegans秀丽线虫秀丽线虫1997 1997 大肠杆菌大肠杆菌(E.coliE.coli)全基因组测序完成全基因组测序完成1998 1998 完成人类基因组计划的物理作图完成人类基因组计划的物理作图 开始人类基因组的大规模测序开始人类基因组的大规模测序 Celera
9、Celera公司加入,与公共领域竞争公司加入,与公共领域竞争 启动水稻基因组计划启动水稻基因组计划1999.7 1999.7 第第5 5届国际公共领域人类基因组测序会议,加快测序速度届国际公共领域人类基因组测序会议,加快测序速度大肠杆菌及其全基因组大肠杆菌及其全基因组水稻基因组计划水稻基因组计划2000 Celera公司宣布完成果蝇基因组测序 国际公共领域宣布完成第一个植物基因组拟南芥全基 因组的测序工作2000.6.26 公共领域和Celera公司同时宣布完成人类基因组工作草图2001.2.15 Nature刊文发表国际公共领域结果2001.2.16 Science刊文发表Celera公司及
10、其合作者结果Drosophila melanogaster果蝇果蝇Arabidopsis thaliana拟南芥拟南芥2001年年2月月15日日Nature封面封面2001年年2月月16日日Science封面封面At the White House on June 26,Francis Collins(r),Director of the National Human Genome Research Institute,President Clinton,and J.Craig Venter,President of Celara Genomics,lauded the thousands o
11、f scientists who contributed to the genome sequence.大规模基因组测序大规模基因组测序大规模测序基本策略大规模测序基本策略n逐个克隆法:对连续克逐个克隆法:对连续克隆系中排定的隆系中排定的BACBAC克隆克隆逐个进行亚克隆测序并逐个进行亚克隆测序并进行组装(公共领域测进行组装(公共领域测序计划)序计划)n全基因组鸟枪法:在一全基因组鸟枪法:在一定作图信息基础上,绕定作图信息基础上,绕过大片段连续克隆系的过大片段连续克隆系的构建而直接将基因组分构建而直接将基因组分解成小片段随机测序,解成小片段随机测序,利用超级计算机进行组利用超级计算机进行组装(
12、美国装(美国CeleraCelera公司)公司)运用计算机软件进行序列拼接运用计算机软件进行序列拼接back基因识别基因识别 n 基因识别(基因识别(gene identification)是)是HGP的的重要内容之一,其目的是识别全部人类的基因。重要内容之一,其目的是识别全部人类的基因。n 基因识别包括:基因识别包括:l识别基因组编码区识别基因组编码区l识别基因结构识别基因结构n 基因识别目前常采用的有二种方法:基因识别目前常采用的有二种方法:l从基因组序列中识别那些转录表达的从基因组序列中识别那些转录表达的DNA片段片段l从从cDNA文库中挑取并克隆。文库中挑取并克隆。人类基因组人类基因组
13、人类基因组的组成人类基因组的组成线粒体基因组线粒体基因组(16.6kb)细胞核基因组细胞核基因组(3200Mb)基因外序列基因外序列基因和基因有关序列基因和基因有关序列约约10%约约90%专一或中等重复序列专一或中等重复序列Non-coding DNA假基因假基因内含子内含子基因片段基因片段90%专一的或低专一的或低拷贝数序列拷贝数序列中度至高度重复序列中度至高度重复序列2030%7080%分散重复序列分散重复序列串联重复序列串联重复序列/成簇重复序列成簇重复序列约约60%约约40%蛋白编码蛋白编码基因基因rRNA基因基因tRNA基因基因Coding DNA估计估计10万万最初公布最初公布3.
14、5万万目前研究确定目前研究确定2.45万万人类基因组计划的实施意义人类基因组计划的实施意义 n人类基因组计划为我们研究生物信息的组织、人类基因组计划为我们研究生物信息的组织、结构、遗传、表达带来了极大的方便,使人类结构、遗传、表达带来了极大的方便,使人类对自身有一个根本的了解。对自身有一个根本的了解。n人类是最高级、最复杂、最重要的生物,如果人类是最高级、最复杂、最重要的生物,如果搞清楚人类基因组,那么再研究其它的生物就搞清楚人类基因组,那么再研究其它的生物就容易得多。容易得多。n研究多种模式生物基因组将有助于研究地球生研究多种模式生物基因组将有助于研究地球生物的进化史。物的进化史。我国对人类
15、基因组计划的贡献我国对人类基因组计划的贡献6/1-8/31/99NoCenterRegionSize(Mb)Actual KGenbank KrProjected Kr4/1-11/30/99Proj Accum.Mr.4/99-3/001Sanger Centre1,6,9,10,13,20,22,X85013009414200122WIBR(Clones from Wash U)837296290083Wash U2,3,4,7,11,15,18,Y90086555923007.94JGI5,16,1925068746121006.45Baylor1,2,3,X2304622616603.
16、16Riken21,18,11q1601361955202.17IMB8,21,X50180321801.58GenoscopeMost of 14851001183001.49U.Wash(Olson)10 Beijing3p3012.512.51000.511 GTC(Smith)105051500.4512 MPIMG17,21,X6.94012400.313 GBF21,reg of 96500.314 Stanford(Davis)8231370.2915 Keio2,6,8,22,213011751100.2316 U.Wash(Hood LAB)14,15267127400.17
17、Total2671Mb4663Kr2950Kr13687Kr32.64Mr又一次成功!又一次成功!水稻基因研究水稻基因研究面对堆积如山的生物学数据面对堆积如山的生物学数据 随着实验数据和可利用信息急剧增加,信息的管理和随着实验数据和可利用信息急剧增加,信息的管理和分析成为分析成为HGP的一项重要的工作的一项重要的工作 发现生物学发现生物学规律,规律,解读生物解读生物遗传密码遗传密码认识生命的本质认识生命的本质研究基因组数据研究基因组数据之间的关系之间的关系分析现有的分析现有的基因组数据基因组数据利用数学模型利用数学模型和人工智能技术和人工智能技术生命信息的组织、传递、表达物理化学分子生物学遗传
18、学信息技术各学科参与、协作:生命科学、数学、物理学、化学、计算机各学科参与、协作:生命科学、数学、物理学、化学、计算机 科学、材料科学以及伦理、法律等社会科学科学、材料科学以及伦理、法律等社会科学生物信息学生物信息学诞生诞生1、生物信息学的概念、生物信息学的概念2、生物分子信息、生物分子信息1、生物信息学的概念、生物信息学的概念生物信息学(生物信息学(BioinformaticsBioinformatics)这一名词的来由这一名词的来由 八十年代末期,林华安博士认识到将计算机科学与生物学结合起来的重要意义,开始留意要为这一领域构思一个合适的名称。起初,考虑到与将要支持他主办一系列生物信息学会议
19、的佛罗里达州立大学超型计算机计算研究所的关系,他使用的是“CompBio”;之后,又将其更改为兼具法国风情的“bioinformatique”,看起来似乎有些古怪。因此不久,他便进一步把它更改为“bio-informatics(或bio/informatics)”。但由于当时的电子邮件系统与今日不同,该名称中的-或/符号经常会引起许多系统问题,于是林博士将其去除,今天我们所看到的“bioinformatics”就正式诞生了,林博士也因此赢得了“生物信息学之父”的美誉。生物信息学生物信息学HGP生物数据的激增生物数据的激增(每(每15个月翻一番个月翻一番)生物学家生物学家数学家数学家计算机计算机
20、科学家科学家生物信息学生物信息学(bioinfomatics)的诞生的诞生概念(广义)概念(广义)生物体系和过程中信息生物体系和过程中信息的存贮、传递的存贮、传递和表达和表达细胞、组织、器官的生理、病理细胞、组织、器官的生理、病理、药理过程的中各种生物信息、药理过程的中各种生物信息信息科学信息科学生生命命科科学学中中的的信信息息科科 学学 广义的说,生物信息不仅包括基因组信息,如基因的DNA序列、染色体定位,也包括基因产物(蛋白质或RNA)的结构和功能及各生物种间的进化关系等其他信息资源。生物信息学既涉基因组信息的获取、处理、贮存、传递、分析和解释,又涉及蛋白质组信息学如蛋白质的序列、结构、功
21、能及定位分类、蛋白质连锁图、蛋白质数据库的建立、相关分析软件的开发和应用等方面,还涉及基因与蛋白质的关系如蛋白质编码基因的识别及算法研究、蛋白质结构、功能预测等,另外,新药研制、生物进化也是生物信息学研究的热点。概念(狭义概念(狭义)分子生物信息学分子生物信息学Molecular Bioinformatics挖掘获取生物分子生物分子信息的获取、存贮、分析和利用信息的获取、存贮、分析和利用 由于当前生物信息学发展的主要推动力来自分子生物学。生物信息学的研究主要集中于核苷酸和氨基酸序列的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为:将计算机科学和数学应用于生物大分子信息的获取、
22、加工、存储、分类、检索与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。Bioinformatics生物分子数 据 计算机计 算+生物信息学不仅仅是一门科学生物信息学不仅仅是一门科学学科,它更是一种重要的研究学科,它更是一种重要的研究开发工具。开发工具。2、生物分子信息、生物分子信息生物分子,使生活更美好生物分子,使生活更美好(Biomolecules(Biomolecules for Quality of Life)for Quality of Life)2009世界生化大会主题世界生化大会主题n生物信息学主要研究两种信息分子生物信息学主要研究两种信息分子DNA分子分子 腺嘌呤腺嘌
23、呤 A 胸腺嘧啶胸腺嘧啶T 鸟嘌呤鸟嘌呤G 胞嘧啶胞嘧啶C 蛋白质分子蛋白质分子甘氨酸甘氨酸 gly G 丝氨酸丝氨酸 ger S 丙氨酸丙氨酸 gla A 苏氨苏氨酸酸 thr T 缬氨酸缬氨酸 val V 异亮氨酸异亮氨酸 ile I 亮氨酸亮氨酸 leu L 酪氨酸酪氨酸 tyr Y 苯丙氨酸苯丙氨酸 phe F 组氨酸组氨酸 his H 脯氨酸脯氨酸 pro P 天冬氨酸天冬氨酸 asp D 蛋氨酸蛋氨酸 met M 谷氨酸谷氨酸 glu E 色氨酸色氨酸 trp W 赖氨酸赖氨酸 lys K 半胱半胱氨酸氨酸 cys C 精氨酸精氨酸 arg R 天冬酰胺天冬酰胺 asn N 谷谷酰
24、胺酰胺 gln Q 生物分子至少携带着三种信息生物分子至少携带着三种信息n遗传信息遗传信息n与功能相关的结构信息与功能相关的结构信息n进化信息进化信息(1)遗传信息的载体遗传信息的载体DNA 遗传信息的载体主要是DNA 控制生物体性状的基因是一系列DNA片段 生物体生长发育的本质就是遗传信息的传递和表达(2)蛋白质的结构决定其功能蛋白质的结构决定其功能n蛋白质蛋白质功能功能取决于蛋白质的空间取决于蛋白质的空间结构结构 n蛋白质结构决定于蛋白质的蛋白质结构决定于蛋白质的序列序列(这是(这是目前基本共认的假设),蛋白质结构的目前基本共认的假设),蛋白质结构的信息隐含在蛋白质序列之中。信息隐含在蛋白
25、质序列之中。(3)DNA分子和蛋白质分子分子和蛋白质分子都含有进化信息都含有进化信息n通过比较通过比较相似的蛋白质序列相似的蛋白质序列,如肌红蛋,如肌红蛋白和血红蛋白,可以发现由于基因复制白和血红蛋白,可以发现由于基因复制而产生的分子进化证据。而产生的分子进化证据。n通过比较来自于不同种属的同源蛋白质,通过比较来自于不同种属的同源蛋白质,即即直系同源蛋白质直系同源蛋白质,可以分析蛋白质甚,可以分析蛋白质甚至种属之间的系统发生关系,推测它们至种属之间的系统发生关系,推测它们共同的祖先蛋白质。共同的祖先蛋白质。生生物物分分子子信信息息DNA序列数据序列数据 蛋白质序列数据蛋白质序列数据 生物分子结
26、构数据生物分子结构数据 生物分子功能数据生物分子功能数据 最基本最基本直观直观复杂复杂生物分子数据类型生物分子数据类型 DNA核酸序列核酸序列蛋白质蛋白质氨基酸序列氨基酸序列蛋白质蛋白质结构结构蛋白质蛋白质功能功能最基本的最基本的生物信息生物信息维持生命活维持生命活动的机器动的机器第一部第一部遗传密码遗传密码第二部第二部遗传密码?遗传密码?生命体系千姿生命体系千姿百态的变化百态的变化生物分子数据及其关系生物分子数据及其关系u第一部遗传密码已被破译,但对密码的转录过第一部遗传密码已被破译,但对密码的转录过程还不清楚,对大多数程还不清楚,对大多数DNA非编码区域的功能非编码区域的功能还知之甚少还知
27、之甚少u 对于第二部密码,目前则只能用统计学的方法对于第二部密码,目前则只能用统计学的方法进行分析进行分析u无论是第一部遗传密码,还是第二部遗传密码,无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。都隐藏在大量的生物分子数据之中。生物分子数据是宝藏,生物分子数据是宝藏,生物信息数据库是金矿,生物信息数据库是金矿,等待我们去挖掘和利用。等待我们去挖掘和利用。生物分子信息的特征生物分子信息的特征n生物分子信息数据量大生物分子信息数据量大 n生物分子信息复杂生物分子信息复杂 n生物分子信息之间存在着密切的联系生物分子信息之间存在着密切的联系1、生物分子数据的收集与管理生物分
28、子数据的收集与管理2、数据库搜索及序列比较数据库搜索及序列比较 3、基因组序列分析基因组序列分析 4、基因表达数据的分析与处理、基因表达数据的分析与处理 5、蛋白质功能分析、蛋白质功能分析 基因组基因组数据库数据库 蛋白质蛋白质序列序列数据库数据库 蛋白质蛋白质结构结构数据库数据库 DDBJEMBLGenBankUniProt PDBPIR n搜索同源序列在一定程度上就是通过序列比较寻找相搜索同源序列在一定程度上就是通过序列比较寻找相似序列似序列 n序列比较的一个基本操作就是序列比较的一个基本操作就是比对比对(Alignment),),即将两个序列的各个字符(代表核苷酸或者氨基酸残即将两个序列
29、的各个字符(代表核苷酸或者氨基酸残基)按照对应等同或者置换关系进行对比排列,其结基)按照对应等同或者置换关系进行对比排列,其结果是两个序列共有的排列顺序,这是序列相似程度的果是两个序列共有的排列顺序,这是序列相似程度的一种定性描述一种定性描述n多重序列比对多重序列比对研究的是多个序列的共性。序列的多重研究的是多个序列的共性。序列的多重比对可用来搜索基因组序列的功能区域,也可用于研比对可用来搜索基因组序列的功能区域,也可用于研究一组蛋白质之间的进化关系。究一组蛋白质之间的进化关系。发现同源分子发现同源分子 n遗传语言分析遗传语言分析天书天书 n基因组结构分析基因组结构分析n基因识别基因识别n基因
30、功能注释基因功能注释n基因调控信息分析基因调控信息分析n基因组比较基因组比较n基因表达数据分析是目前生物信息学研究的热基因表达数据分析是目前生物信息学研究的热 点和重点点和重点 n目前对基因表达数据的处理主要是进行聚类分目前对基因表达数据的处理主要是进行聚类分 析,将表达模式相似的基因聚为一类,在此基析,将表达模式相似的基因聚为一类,在此基 础上寻找相关基因,分析基因的功能础上寻找相关基因,分析基因的功能 n所用方法主要有:所用方法主要有:n相关分析方法相关分析方法n模式识别技术中的层次式聚类方法模式识别技术中的层次式聚类方法n人工智能中的自组织映射神经网络人工智能中的自组织映射神经网络n主元
31、分析方法主元分析方法 基因芯片基因芯片层次式聚类层次式聚类生物信息学生物信息学研究蛋白质结构及功能关系研究蛋白质结构及功能关系 研究蛋白质的进化问题研究蛋白质的进化问题研究蛋白质的性质研究蛋白质的性质 5、蛋白质功能分析、蛋白质功能分析 n蛋白质结构预测分为蛋白质结构预测分为:n二级结构预测二级结构预测n空间结构预测空间结构预测 蛋白质折叠蛋白质折叠n蛋白质的生物功能由蛋白质的结构所决定蛋白质的生物功能由蛋白质的结构所决定,蛋,蛋白质结构预测成为了解蛋白质功能的重要途径白质结构预测成为了解蛋白质功能的重要途径蛋白质结构蛋白质结构 蛋白质序列蛋白质序列 蛋白质功能关系蛋白质功能关系 研究蛋白质结
32、构及功能关系研究蛋白质结构及功能关系研究蛋白质的进化问题研究蛋白质的进化问题 研究不同蛋白质之间的进化关系研究不同蛋白质之间的进化关系研究蛋白质的性质研究蛋白质的性质n理化性质理化性质(亲水和疏水性、分子量、等电点预测等)(亲水和疏水性、分子量、等电点预测等)n生物学功能预测生物学功能预测(信号通路、蛋白互作、功能位(信号通路、蛋白互作、功能位点、跨膜区、信号肽、亚细胞定位预测等)点、跨膜区、信号肽、亚细胞定位预测等)第四节第四节 生物信息学当前的主要任务生物信息学当前的主要任务 纵观当今生物信息学界的现状,可纵观当今生物信息学界的现状,可以发现,大部分人都把注意力集中在以发现,大部分人都把注
33、意力集中在基因组学基因组学、蛋白质组学蛋白质组学、蛋白质结构蛋白质结构以及与之相结合的以及与之相结合的药物设计药物设计上上 最新:最新:RNARNA组学组学和和转录组学转录组学Structure&FunctionPathways&PhysiologyPopulations&EvolutionEcosystemsGenomesGene Products后基因组时代nHGP完成,我们进入完成,我们进入“后基因组学后基因组学”(post-genomics)时代时代1.基因组学基因组学 1.1 新基因的发现新基因的发现 通过计算分析从EST(Expressed Sequence Tags)序列库中拼接
34、出完整的新基因编码区,也就是通俗所说的“电子克隆电子克隆”;通过计算分析从基因组DNA序列中确定新基因编码区,经过多年的积累,已经形成许多分析方法,如根据编码区具有的独特序列特征、根据编码区与非编码区在碱基组成上的差异、根据高维分布的统计方法、根据神经网络方法、根据分形方法和根据密码学方法等。功能基因组学功能基因组学 n基因组学研究重心已开始从揭示生命的所有遗传信息基因组学研究重心已开始从揭示生命的所有遗传信息转移到在转移到在分子整体水平对功能的研究上分子整体水平对功能的研究上,即功能基因组即功能基因组学(学(functional genomics)n功能基因组的任务是功能基因组的任务是进行基
35、因组功能注释(进行基因组功能注释(Genome annotation)认识基因与疾病的关系认识基因与疾病的关系掌握基因的产物及其在生命活动中的作用掌握基因的产物及其在生命活动中的作用1.2 非蛋白编码区生物学意义的分析非蛋白编码区生物学意义的分析 非蛋白编码区约占人类基因组的99%,其生物学意义目前尚不是很清楚,但从演化观点来看,其中必然蕴含着重要的生物学功能,由于它们并不编码蛋白,一般认为,它们的生物学功能可能体现在对基因表达的时空调控上。对非蛋白编码区进行生物学意义分析的策略有两种,一种一种是基于已有的已经为实验证实的所有功能已知的DNA元件的序列特征,预测非蛋白编码区中可能含有的功能已知
36、的DNA元件,从而预测其可能的生物学功能,并通过实验进行验证;另一种另一种则是通过数理理论直接探索非蛋白编码区的新的未知的序列特征,并从理论上预测其可能的信息含义,最后同样通过实验验证。1.3 基因组整体功能及其调节网络的系统把握基因组整体功能及其调节网络的系统把握 把握生命的本质,仅仅掌握基因组中部分基因的表达调控是远远不够的,因为生命现象是基因组中所有功能单元相互作用共同制造出来的。基因芯片基因芯片技术由于可以监测基因组在各种时间断面上的整体转录表达状况,因此成为该领域中一项非常重要和关键的实验技术,对该技术所产生的大量实验数据进行高效分析,从中获得基因组运转以及调控的整体系统的机制或者是
37、网络机制,便成了生物信息学在该领域中首先要解决的问题。1.4 基因组演化与物种演化基因组演化与物种演化 人类基因组与其它人类基因组与其它生物基因组比较生物基因组比较比较基因组学比较基因组学 例:人与鼠染色体的差别例:人与鼠染色体的差别人和老鼠的人和老鼠的DNA的有的有95%以上是相同的以上是相同的 从基因角度从基因角度很难判断:是人,是鼠?很难判断:是人,是鼠?尽管已经在分子演化方面取得了许多重要的成就,但仅仅依靠某些基因或者分子的演化现象,就想阐明物种整体的演化历史似乎不太可靠。例如,智人与黑猩猩之间有98%-99%的结构基因和蛋白质是相同的,然而表型上却具有如此巨大的差异,这就不能不使我们
38、联想到形形色色千差万别的建筑楼群,它们的外观如此不同,但基础的部件组成却是几乎一样的,差别就在于这些基础部件的组织方式不同,这就提示我们基因组整体组织方式而不仅仅是个别基因在研究物种演化历史中的重要作用。由于基因组是物种所有遗传信息的储藏库,从根本上决定着物种个体的发育和生理,因此,从基因组整从基因组整体结构组织和整体功能调节网络方面,结合相应的生体结构组织和整体功能调节网络方面,结合相应的生理表征现象,进行基因组整体的演化研究,将是揭示理表征现象,进行基因组整体的演化研究,将是揭示物种真实演化历史的最佳途径。物种真实演化历史的最佳途径。2、蛋白质组学、蛋白质组学 基因组对生命体的整体控制必须
39、通过它所表达的全部蛋白质来执行,由于基因芯片技术只能反映从基因组到RNA的转录水平上的表达情况,由于从RNA到蛋白质还有许多中间环节的影响,因此仅凭基因芯片技术我们还不能最终掌握生物功能具体执行者蛋白质的整体表达状况;因此,近几年在发展基因芯片的同时,人们也发展了一套研究基因组所有蛋白质产物表达情况蛋白质组研究技术,从技术上来讲包括二维凝胶电泳技术二维凝胶电泳技术和质谱质谱测序技术。通过二维凝胶电泳技术可以获得某一时间截面上蛋白质组的表达情况,通过质谱测序技术就可以得到所有这些蛋白质的序列组成。这些都是技术实现问题,最重要的就是如何运用生物信息学理论方法去分析所得到的巨量数据,从中还原出生命运
40、转和调控的整体系统的分子机制。差异表达蛋白的鉴定差异表达蛋白的鉴定Back 基因组和蛋白质组研究的迅猛发展,使许多新蛋白序列涌现出来,然而要想了解它们的功能,只有氨基酸序列是远远不够的,因为蛋白质的功能是通过其三维高级结构来执行的,而且蛋白质三维结构也不一定蛋白质三维结构也不一定是静态的,在行使功能的过程中其是静态的,在行使功能的过程中其结构也会相应的有所改变结构也会相应的有所改变。因此,得到这些新蛋白的完整、精确和动态的三维结构就成为摆在我们面前的紧迫任务。目前除了通过诸如X射线晶体结构分析、多维核磁共振(NMR)波谱分析和电子显微镜二维晶体三维重构(电子晶体学,EC)等物理方法得到蛋白质三
41、维结构之外3、蛋白质结构、蛋白质结构 另外一种广泛使用的方法就是通过计算机辅助预测的方法,目前,一般认为蛋白质的折叠类型只有数百到数千种,远远小于蛋白质所具有的自由度数目,而且蛋白质的折叠类型与其氨基酸序列具有相关性,这样就有可能直接从蛋白质的氨基酸序列通过计算机辅助方法预测出蛋白质的三维结构 4、新药设计、新药设计 生物信息学与新药研制生物信息学与新药研制未来的药物研究过程将是基于生物信息知未来的药物研究过程将是基于生物信息知识挖掘的过程识挖掘的过程数据处理和数据处理和关联分析关联分析发现药物发现药物作用对象作用对象确定靶目标确定靶目标分子分子针对靶目标针对靶目标进行合理的进行合理的药物设计
42、药物设计基于生物信息学的新药设计基于生物信息学的新药设计生物信息学与疾病检测生物信息学与疾病检测n基因组计划产生的基因及基因多态性数据与临基因组计划产生的基因及基因多态性数据与临床医学检验结果之间的关系需要利用生物信息床医学检验结果之间的关系需要利用生物信息学的方法去分析、去揭示学的方法去分析、去揭示n根据这样的分析结果,科学家能够更准确地了根据这样的分析结果,科学家能够更准确地了解疾病产生的根本原因,更精确地预测某个人解疾病产生的根本原因,更精确地预测某个人患癌症、糖尿病或者心脏病的可能性,从而彻患癌症、糖尿病或者心脏病的可能性,从而彻底改变我们诊断、治疗和预防疾病的方式底改变我们诊断、治疗
43、和预防疾病的方式 但生物信息学的任务远不止于此。在以上工作的基础上,最重要的是如何运用数理理论成果对生物体进行完整系统的数理模型描述,使得人类能够从一个更加明确的角度和一个更加易于操作的途径来认识和控制自身以及所有其他的生命体最新:最新:RNA组学组学和和转录组学转录组学生物信息学研究意义生物信息学研究意义生物信息学将是生物信息学将是21世纪生物学的核心世纪生物学的核心 n认识生物本质认识生物本质n了解生物分子信息的组织和结构,破译基因了解生物分子信息的组织和结构,破译基因组信息,阐明生物信息之间的关系组信息,阐明生物信息之间的关系n改变生物学的研究方式改变生物学的研究方式 n改变传统研究方式
44、,引进现代信息学方法改变传统研究方式,引进现代信息学方法n在医学上的重要意义在医学上的重要意义n为疾病的诊断和治疗提供依据为疾病的诊断和治疗提供依据n为设计新药提供依据为设计新药提供依据 实验永远起着决定作用实验永远起着决定作用 计算计算/理论生物学的发展离不理论生物学的发展离不开实验生物学的贡献开实验生物学的贡献 实验生物学日益依赖计算实验生物学日益依赖计算/理理论生物学的指导论生物学的指导2121世纪生命科学世纪生命科学理论理论计算计算实验实验数学与物理科学数学与物理科学第五节第五节 生物信息学所用的方法和技术生物信息学所用的方法和技术 1、数学统计方法数学统计方法 2、动态规划方法、动态
45、规划方法 3、机器学习与模式识别技术、机器学习与模式识别技术 4、数据库技术及数据挖掘、数据库技术及数据挖掘 5、人工神经网络技术、人工神经网络技术6、专家系统、专家系统 7、分子模型化技术、分子模型化技术8、量子力学和分子力学计算、量子力学和分子力学计算 9、生物分子的计算机模拟、生物分子的计算机模拟10、因特网(、因特网(Internet)技术)技术 1、数学统计方法n生物活动常常以大量、重复的形式出现,既受生物活动常常以大量、重复的形式出现,既受到内在因素的制约,又受到外界环境的随机干到内在因素的制约,又受到外界环境的随机干扰。因此概率论和数学统计是现代生物学研究扰。因此概率论和数学统计
46、是现代生物学研究中一种常用的分析方法中一种常用的分析方法 n数据统计、因素分析、多元回归分析是生物学数据统计、因素分析、多元回归分析是生物学研究必备的工具研究必备的工具n隐马尔科夫模型(隐马尔科夫模型(Hidden Markov Models)在序列分析方面有着重要的应用。与隐马尔科在序列分析方面有着重要的应用。与隐马尔科夫模型相关的技术是马尔科夫链(夫模型相关的技术是马尔科夫链(Markov Chain)2、动态规划方法n动态规划(动态规划(Dynamic Programming)是一种解决多阶段决策过程的最优化方是一种解决多阶段决策过程的最优化方法或复杂空间的优化搜索方法法或复杂空间的优化
47、搜索方法 n动态规划解决问题的基本过程是:将一动态规划解决问题的基本过程是:将一个问题的全局解分解为局部解,逆序递个问题的全局解分解为局部解,逆序递推求出局部最优解,随着执行过程的推推求出局部最优解,随着执行过程的推进,进,“局部局部”逐渐接近逐渐接近“全局全局”,最终,最终获得全局最优解获得全局最优解 3、机器学习与模式识别技术n机器学习机器学习n机器学习是模拟人类的学习过程,以计算机为工具获机器学习是模拟人类的学习过程,以计算机为工具获取知识、积累经验取知识、积累经验 n1 1、遗传算法遗传算法采用随机搜索方法,具有自适应能力和便于并行采用随机搜索方法,具有自适应能力和便于并行计算计算 n
48、2 2、神经网络神经网络的理论是基于人脑的结构,其目的是揭示一个系的理论是基于人脑的结构,其目的是揭示一个系统是如何向环境学习的,这一种方法被称为联接主义统是如何向环境学习的,这一种方法被称为联接主义。n模式识别模式识别n模式识别是机器学习的一个主要任务。模式是对感兴模式识别是机器学习的一个主要任务。模式是对感兴趣客体定量的或者结构的描述,而模式识别就是利用趣客体定量的或者结构的描述,而模式识别就是利用计算机对客体进行鉴别,将相同或者相似的客体归入计算机对客体进行鉴别,将相同或者相似的客体归入同种类别中同种类别中n模式识别主要有两种方法模式识别主要有两种方法:n根据对象的统计特征进行识别,根据
49、对象的统计特征进行识别,n根据对象的结构特征进行识别根据对象的结构特征进行识别 环境学习知识库执行机器学习系统的基本结构机器学习系统的基本结构 反反 馈馈4、数据库技术及数据、数据库技术及数据挖掘挖掘n 数据库技术数据库技术 n数据仓库数据仓库 n虚拟数据库技术(虚拟数据库技术(Virtual DatabaseVirtual Database,简称,简称 VDBVDB)n 数据挖掘(数据挖掘(data miningdata mining)n又称作数据库中的知识发现又称作数据库中的知识发现 (Knowledge Discovery(Knowledge Discovery in Database)
50、in Database),它是从数据库或数据仓库中发现并,它是从数据库或数据仓库中发现并提取隐藏在其中的信息的一种新技术,它能自动分提取隐藏在其中的信息的一种新技术,它能自动分析数据,对它们进行归纳性推理和联想,寻找数据析数据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中发掘出潜在的、对信息预间内在的某些关联,从中发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式测和决策行为起着十分重要作用的模式 n数据挖掘过程一般分为数据挖掘过程一般分为4 4个基本步骤:数据选择、数个基本步骤:数据选择、数据转换、数据挖掘和结果分析据转换、数据挖掘和结果分析 5、人工神经网络技术、人工神