后基因组时代的生物信息课件.ppt

上传人(卖家):晟晟文业 文档编号:4972117 上传时间:2023-01-29 格式:PPT 页数:63 大小:2.71MB
下载 相关 举报
后基因组时代的生物信息课件.ppt_第1页
第1页 / 共63页
后基因组时代的生物信息课件.ppt_第2页
第2页 / 共63页
后基因组时代的生物信息课件.ppt_第3页
第3页 / 共63页
后基因组时代的生物信息课件.ppt_第4页
第4页 / 共63页
后基因组时代的生物信息课件.ppt_第5页
第5页 / 共63页
点击查看更多>>
资源描述

1、后基因组时代的生物信息后基因组时代的生物信息胡艳玲胡艳玲 谢莹谢莹HGPHGP人类基因组计划人类基因组计划 这张解剖图将包括4张小图,包括了人类基因组计划的全部主要内容,它们分别是遗传图(连锁图)、物理图、序列图和转录图。后基因组时代的生物信息学后基因组时代的生物信息学2003年HGP测序工作全部完成后,生命科学进入后基因组时代。后基因组时代的工作重点是:在整体水平上对基因组的功能进行研究。由此诞生了功结构基因组学功结构基因组学能基因学能基因学,结构是功能的基础,又产生了。在功能基因组学的基础上又产生了蛋白组学蛋白组学和RNARNA组学组学。2023-1-294 4前基因组时代的前基因组时代的

2、“钓鱼钓鱼”和后基因和后基因组时代的组时代的“捞鱼捞鱼”在全细胞的水平,识别所有基因组表达产物:在全细胞的水平,识别所有基因组表达产物:mRNA:cDNA 阵列 蛋白质:二维电泳 质谱研究生物大分子相互作用:研究生物大分子相互作用:阐明基因组表达在发育过程中的时、空的整体调控网络。蛋白质组学:蛋白质组学:高通量解析蛋白质的高级结构,是连接基因组功能研究和新药开发的桥梁。基因组学、生物信息学与新药研制基因组学、生物信息学与新药研制未来的药物研究过程将是基于生物信息未来的药物研究过程将是基于生物信息知识挖掘的过程知识挖掘的过程数据处理和关联分析发现药物作用对象确定靶目标分子针对靶目标进行合理的药物

3、设计C CDNADNA 微阵列微阵列 基因表达数据的网络资源 GEO(http:/www.ncbi.nlm.nih.gov/geo)ArrayExpress(http:/www.ebi.ac.uk/arrayexpress/)SMD(http:/genome-www5.stanford.edu/)除了以上 3 个综合性的基因表达数据仓库外,还有一些专门的基因表达数据库,例如 YMD(Yale Microarray Database,http:/info.med.yale.edu/microarray/)ArrayDB(http:/genome.nhgri.nih.gov/arraydb/)Bo

4、dyMap(http:/bodymap.ims.u-tokyo.ac.jp/)ExpressDB(http:/twod.med.harvard.edu/ExpressDB/)HuGE Index(Human Gene Expression Index,http:/www.hugeindex.org/welcome/index.html)差异表达基因的选择差异表达基因的选择筛选差异基因包括:表达数据的获取和标准化 标记物的差异、荧光标记检测效能的差异以及样品RNA的原始浓度的差异。基因表达矩阵的构建 mn的基因表达矩阵,用以记录基因在不同的实验条件下的表达谱。通常m为基因的数目,n为实验的次数或

5、芯片的数目。差异表达基因的筛选:t-检验和方差分析基因表达数据的聚类分析基因表达数据的聚类分析 聚类分析可将具有相似表达模式的基因聚在一起,分析同类基因的功能,并对未知基因的功能和生物学特性进行推测。几种常用的聚类方法几种常用的聚类方法 分层聚类(hierarchical clustering,HCL)K-均值聚类(K-mean clustering,KMC)SOM聚类(self-organizing map clustering,SOM)分层聚类分层聚类分裂或凝聚算法运行到某一阶段,类别划分结果达到聚类标准时即可停止算法运行到某一阶段,类别划分结果达到聚类标准时即可停止分裂或凝聚分裂或凝聚;

6、层次聚类优缺点层次聚类优缺点优点:优点:所得结果可方便地进行可视化观察。缺点:缺点:选取某一水平(即某一类间距离)的类数作最终结果,此一步较为主观,很难确定哪个水平可给出最好的结果。此方法的复杂度与所分析表达谱数目的平方呈正比,对于现在数据集的大小而言是一大问题。K-K-均值聚类均值聚类 优点:优点:思想简单易行,时间复杂性接近线性,对大规模数据的挖掘具有高效性和可伸缩性。缺点:缺点:该算法要求预指定类数,而实际应用中很难预测类数,因此需要通过试误,即使用多套不同的参数设定,比较其结果,并且从生物学角度对结果进行验证。K-K-均值聚类均值聚类SOMSOM聚类聚类SOM(自组织映射)的由来:19

7、91,Kohonen提出,模拟人脑中的神经元层;人脑中不同的神经元区域负责不同的功能;一旦有外部刺激,与刺激相关的神经元会被激励,并且其附近神经元也会受到激励;SOM聚类(一)输入数据 获胜神经元 临近神经元 1 2 SOM SOM聚类聚类(二)输入数据 获胜神经元 临近神经元不同的神经元区域代表不同的输入数据模式 3 4 SOM SOM聚类的优缺点聚类的优缺点优点:优点:可以实现实时学习,网络具有自稳定性,无须外界给出评价函数,能够识别向量空间中最有意义的特征,抗噪音能力强。缺点:缺点:与K-均值聚类相似,它也需要预先指定参数(结点群的拓扑构形),因而遇到与之相似的困难基因网络研究的前提假定

8、和基本原理基因网络研究的前提假定和基本原理什么是基因调控网络?细胞、DNA、蛋白质、基因、基因网络为什么要研究基因调控网络?从分子水平认识细胞组织的功能。我完全不懂生物学;我为什么要讲这个?我完全不懂生物学;我为什么要讲这个?了解基因调控网络,对我们有什么启发?了解基因调控网络,对我们有什么启发?基因和蛋白质基因网络研究的前提假定和基本原理基因网络研究的前提假定和基本原理基因表达的调控:不同层次基因网络研究的前提假定和基本原理基因网络研究的前提假定和基本原理 基因调控网络是指一组调控因子如何调控一套基因表达的过程.机体的功能发展来缘于遗传网络间的互作。基因网络研究的前提假定和基本原理基因网络研

9、究的前提假定和基本原理基因调控网络研究的目的基因调控网络研究的目的 识别和推断基因网络的结构、特性和调控关系 认识复杂的分子调控过程 理解支配基因表达和功能的基本规则 揭示基因表达过程中的信息传输规律 整体的框架下研究基因的功能基因调控网络构建的方法基因调控网络构建的方法布尔网络模型:线性组合模型:加权矩阵模型:)()(tXwttXjjiji)(11)1(jjjtraietujjijituWtr)()(近年来发表的基于微阵列数据进行基因近年来发表的基于微阵列数据进行基因调控网络构建和分析的软件包调控网络构建和分析的软件包基因调控网络整合分析基因调控网络整合分析 基因表达数据 DNA 序列 转录

10、因子与顺式调控元件相互作用 蛋白蛋白相互作用 蛋白在细胞中的定位等 再结合生物学实验验证生物学实验验证,可以完善基因调控网络。经过若干次的建模模拟实验循环可以逼近真实的生物学基因调控网络。第二节第二节功能基因与蛋白质信息的文本挖掘功能基因与蛋白质信息的文本挖掘文本挖掘的提出文本挖掘的提出雷诺氏病:是一种治疗方法和病因学都未知的血液系统疾病,表现为血液循环紊乱,血液黏度升高。其他文献中发现食用鱼油可以降低血液黏度。Swanson把这两种知识联系起来提出食用鱼油应该对雷诺氏病病人有帮助的假设。3年后有人通过临床实验证实了这一点 从文献中可以发现或者挖掘到以前未知的知识文本挖掘的方法文本挖掘的方法

11、基于文献的生物信息分析最重要一点就是如何找出隐含的、具有语义关联的生物概念进行下一步的推理,这也是最为复杂的步骤。主要有以下方法:基于统计的方法 基于自然语言处理的方法 基于关联规则挖掘的方法 于模式识别的方法基于统计方法的文本挖掘基于统计方法的文本挖掘 基于统计的方法是通过词的共现对已知基因或者其他生物信息关系进行聚类分析,得到新的基因或生物功能相互作用关系,或通过查找彼此间经常同时出现但不是随机出现的实体,进而鉴别出关系。C CHAUSSABELHAUSSABEL等提等提出了一种用文献轮出了一种用文献轮廓挖掘微阵列表达廓挖掘微阵列表达数据技术数据技术PUBGENE(HTTP:/WWW.PU

12、BGENE.ORG/PUBGENE(HTTP:/WWW.PUBGENE.ORG/)基于自然语言处理的方法基于自然语言处理的方法 基于自然语言处理的系统:通过分析语法结构进行关系抽取,对句子从词法、句法和语义上进行解析,把自然语言分解为可以从中提取出关系的结构。例子:Medstract EngCG基于关联规则挖掘的方法基于关联规则挖掘的方法 关联规则相对于其他在基因芯片数据分析中使用的数据挖掘技术(例如聚类分析、主成份分析、因子分析等)而言,能够推测基因之间表达关联关系。关联规则一般形式是LHSRHS S。例子:geneA geneB ,geneC 基于模式识别的方法基于模式识别的方法 基于模式

13、识别的方法是对与已知有关系的实体相邻近的文本进行模式的抽象,再利用生成的模式对测试语料集文本进行模式匹配,最终得到基因或蛋白质关系结果。例子:RLIMSP第三节第三节分子进化和系统发育分析分子进化和系统发育分析分子进化和系统发育分析分子进化和系统发育分析我们学医,又不研究物种,学进化有什么用?我们学医,又不研究物种,学进化有什么用?广西地区动物HEV基因型及亚型分布过度繁殖有限的生活条件+导致导致生存斗争+变异导致导致适者生存+有利性状遗传导致导致生物新类型出现达尔文把这种在生存斗争中,适者生存、不适者被淘汰的达尔文把这种在生存斗争中,适者生存、不适者被淘汰的过程,叫做过程,叫做自然选择自然选

14、择。过度繁殖生存斗争遗传变异适者生存 达尔文的达尔文的“自然选择自然选择”学说学说基因突变基因突变1、核苷酸替代、插入/缺失、重组2、基因转换固定在生物个体固定在生物个体以及物种内以及物种内遗传漂变遗传漂变自然选择自然选择传递给后代传递给后代产生新的形态、性状产生新的形态、性状分子系统学是研究进化机制的一个重要工具。分子系统学是研究进化机制的一个重要工具。生物进化的分子机制生物进化的分子机制abcdabcd拓扑结构:拓扑结构:有根树:有根树:反映时间顺序反映时间顺序无根树:无根树:反映距离反映距离 理论上,一个理论上,一个DNA序列在物种形成或基因复制时,分裂序列在物种形成或基因复制时,分裂成

15、两个子序列,因此系统发育树一般是二歧的。成两个子序列,因此系统发育树一般是二歧的。一般考虑二歧的树结构:二歧树一般考虑二歧的树结构:二歧树分支:分支:内部分支内部分支外部分支外部分支节点:节点:内部节点内部节点外部节点外部节点1、特征数据特征数据(character data):提供了基因、个体、群体或物种的信息提供了基因、个体、群体或物种的信息2、距离数据距离数据(distance data)或或相似性数据相似性数据(similarity data):涉及的则是成对基因、个体、群体或物种的信息。涉及的则是成对基因、个体、群体或物种的信息。距离矩阵距离矩阵距离数据可以由特征数据计算得到。距离数

16、据可以由特征数据计算得到。反之反之?1、特征数据特征数据(character data):提供了基因、个体、群体或物种的信息提供了基因、个体、群体或物种的信息2、距离数据距离数据(distance data)或或相似性数据相似性数据(similarity data):涉及的则是成对基因、个体、群体或物种的信息。涉及的则是成对基因、个体、群体或物种的信息。距离矩阵距离矩阵距离数据可以由特征数据计算得到。距离数据可以由特征数据计算得到。反之反之?paralogsorthologs分子进化与系统发育分析软件分子进化与系统发育分析软件第四节第四节单核苷酸多态性与连锁不平衡单核苷酸多态性与连锁不平衡人类

17、基因组多态性人类基因组多态性遗传信息检验遗传信息检验 风险估计风险估计研究研究 临床医学转换临床医学转换分子遗传流行病学分子遗传流行病学Is there afamilialaggregation?Is itgenetic?Which geneticmodel?Whichgenes?Contributionin generalpopulation Clinical observation Case-control study Twin study Adoption study Migration study Segregation study Linkage study Association

18、study Gene-gene Gene-environment基因分型基因分型分析DNA序列的变异性人类DNA序列99.9%都是一样的3000 000 核酸存在差异通常定义为多态性SNP其较低等位位点频率 1%遗传变异研究的目的挖掘遗传性疾病的病因以及预防预测进行个性化医疗通过位点确定疾病基因一般术语一般术语连锁不平衡(连锁不平衡(LD LD)在某一群体中,不同座位上某两个等位基因出现在同一条单元型上的频率与预期的随机频率之间存在明显差异的现象。微卫星标记微卫星标记2-4个核苷酸重复GAACGTACTGAACGTACTCACACACACACACACACACACACACACATTTGACTTT

19、GACTTCGATGATATTCGATGATAGATAGATAGATAGATAGATAGATAGATAGATACGTCGT重复数(30)具有高度多态性均匀分布在整个基因组 通过PCR就可以鉴别出来A C G T G T C G G T C T T A A A Maternal chromosomeA C G T G T C C G T C T T A A A Paternal chromosomeA C G T G T C G G T C T T A A A Maternal chromosome A C G T G T C G G T C T T A A A Paternal chromos

20、omeA C G T G T C C G T C T T A A A Maternal chromosomeA C G T G T C C T A C T T A A A Paternal chromosomeIndividual 1Individual 2Individual 3SNP单核苷多态单核苷多态(SNP)(SNP)单体型单体型57 单体型即位于一条染色体上或某一区域的一组相关联的SNP位点。单体型构建单体型构建分子实验构建单体型费用昂贵、耗资大Genotypes Haplotypes,two alternativesSNP1 AT A T A TSNP2 GC G C C G 统计

21、统计学推断单体型更可行。单体型构建单体型构建基于家庭的单体型构建分析软件:Simwalk,Merlin,Genehunter,Allegro.基于非亲缘的单体型构建没有基于家庭可靠EM-算法(期望最大算法):/www-gene.cimr.cam.ac.uk/clayton/software/SnpHapPHASE单体域单体域o 域内重组率很低o高度连锁o单体型多样性低o通过较少的SNPs就可以识别大部分的单体型o一般3-5就可以代表90%的单体型o单体域平均大小 非洲人群:11 kb 其他人群:22 kb 60%-80%的基因组的单体域 10 kb标签标签SNPSNPS S连锁关联分析主要软件连锁关联分析主要软件PlinkPBATHaplo.statsFamhapHAPBLOCKPHASE,plemHaploviewIMPUTEThanks!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(后基因组时代的生物信息课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|