1、基因检测结果风险评估和生物信息学郑征 M.D.青岛大学 生物化学与分子生物教研室12序言:所有表型(疾病)都是遗传和环境共同作用的结果2外显率(外显率(Penetrance)是指一定环境条件下,群体中某一基因型(通常在杂合子状态下)个体表现出相应表型的百分率。外显率为100%时称完全外显(complete penetrance),低于100%时则为不完全外显(incomplete penetrance)或外显不全。临床中:临床中:外显率100%意味着所有携带某种遗传变异的人最终都会罹患相应的疾病,常为单基因遗传病,如Huntington病 BRCA1基因变异的女性有85%将会最终发展为乳腺癌,
2、外显率为85%;男性外显率则不到1%Huntington病 Crohn病 糖尿病 白血病 感染性疾病孟德尔遗传病孟德尔遗传病复杂疾病复杂疾病环境性疾病环境性疾病易受环境因素影响易受遗传因素影响12/1/2022序言:所有表型(疾病)都是遗传和环境共同作用的结果3基因检测:预测遗传因素对个人健康的影响基因检测:预测遗传因素对个人健康的影响指导生活方式(运动、饮食等)规避诱发疾病的风险因素指导用药(剂量、替换)进一步诊断、治疗、预防单基因遗传病复杂疾病遗传模式清晰;外显率高遗传模式不清晰;外显率低12/1/2022一、基因检测报告的内容:1.商业化检测案例(1)23andMe在在2013年初提供年
3、初提供的基因检测服务项目的基因检测服务项目Carrier Status:48项遗传变异位点检测Drug Response:20项药物反应检测Disease Risk:119项疾病患病风险检测Traits:57项遗传特征检测412/1/2022一、基因检测报告的内容:1.商业化检测案例(2)华大医学目前提)华大医学目前提供的基因检测项目供的基因检测项目 (卫计委评估公布的第一批高通量测序技术临床应用试点单位之一)512/1/2022一、基因检测报告的内容:1.商业化检测案例(2)华大医学目前提供)华大医学目前提供的单基因基因检测项目:的单基因基因检测项目:各种套组Gene Test Panel6
4、12/1/2022一、基因检测报告的内容:1.商业化检测案例(3)Pathway Genomics目前提供的基因检测项目前提供的基因检测项目目712/1/2022一、基因检测报告的内容:2.检测结果示例8(1)一脉基因的检测报告样例)一脉基因的检测报告样例12/1/2022一、基因检测报告的内容:2.检测结果示例9(1)一脉基因的检测报告样例)一脉基因的检测报告样例12/1/2022一、基因检测报告的内容:2.检测结果示例10说明:参考碱基和基因型为正链;SNPedia结论:红色、绿色、蓝色、灰色分别表示有害、正常、有益突变和样品未覆盖;SIFT:基于同源蛋白氨基酸保守性的预测;Polyphe
5、n2:基于同源蛋白的三维结构预测;MutationTaster预测:基于进化保守性、剪切位点改变和mRNA水平的变化引起的蛋白质特征丢失等信息预测;-(空数据值):表示突变位点不在基因编码区。(1)一脉基因的检测报告样例)一脉基因的检测报告样例12/1/2022一、基因检测报告的内容:2.检测结果示例11(2)Pathway Genomics的的检测报告样例检测报告样例12/1/2022一、基因检测报告的内容:2.检测结果示例12(2)Pathway Genomics的检测报告样例的检测报告样例12/1/2022一、基因检测报告的内容:2.检测结果示例13(2)Pathway Genomics
6、的的检测报告样例检测报告样例12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究14检测报告中的注意检测报告中的注意事项及事项及免责声明免责声明12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究15(1)HGP(Human Genome Project,人类基因组计划),人类基因组计划)(2)International HapMap Project(国际人类基因组单体型图计划)(国际人类基因组单体型图计划)(3)GWAS(Genome Wide Association Study,全基因组关联分析),全基因组关联分析)(4)GRS(Genetic risk score
7、,遗传风险评分),遗传风险评分)12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究16(1)Human Genome Project(人类基因组计划)(人类基因组计划)测定组成人类染色体(指单倍体)中所包含的30亿个碱基对组成的核苷酸序列,绘制人类基因组图谱,辨识其载有的基因及其序列,破译人类遗传信息。12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究17(2)International HapMap Project(国际人类基因组单体型图(国际人类基因组单体型图计划)计划)HapMap是人类基因组中常见遗传多态位点的目录,它描述了这些变异的形式、在DNA上存在的位
8、置、在不同人群间的分布状况。不同个体的碱基的差别是目前最常见的遗传多态现象,这些遗传上的差别称为单核苷酸多态性或SNPs(发音为“snips”)。HapMap通过识别在人类基因组中常见的大约一千万个SNPs的大多数,来确定人类的大部分遗传多样性的分子基础。SNPs也是进行基因定位的分子标记。比如说基因的改变会增加罹患高血压的风险,研究者可以比较高血压患者和正常人的SNPs。如果某一个SNP在高血压患者中很常见,就可以把这个SNP作为标记来定位和识别与这一疾病相关的基因。12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究18(3)GWAS(Genome Wide Associati
9、on Study,全基,全基因组关联分析)因组关联分析)是指在全基因组层面上,开展多中心、大样本、反复验证的基因与疾病的关联研究,是通过对大规模的群体DNA样本进行全基因组高密度遗传标记(如SNP或CNV等)分型,从而寻找与复杂疾病相关的遗传因素的研究方法,全面揭示疾病发生、发展与治疗相关的遗传基因。复杂性状GWAS分析方法的原理是,借助于SNP分子遗传标记,进行总体关联分析,在全基因组范围内选择遗传变异进行基因分型,比较异常和对照组之间每个遗传变异及其频率的差异,统计分析每个变异与目标性状之间的关联性大小,选出最相关的遗传变异进行验证,并根据验证结果最终确认其与目标性状之间的相关性。12/1
10、/2022二、基因检测报告的形成:1.支撑报告的基础研究19(3)GWAS(Genome Wide Association Study,全基因组关联分析),基因组水平,全基因组关联分析),基因组水平研究研究SNP与疾病的相关性与疾病的相关性人类的疾病分为单基因疾病和复杂性疾病。单基因疾病是指由于单个基因的突变导致的疾病,通过家系连锁分析的定位克隆方法,人们已发现了囊性纤维化、亨廷顿病等大量单基因疾病的致病基因,这些单基因的突变改变了相应的编码蛋白氨基酸序列或者产量,从而产生了符合孟德尔遗传方式的疾病表型。复杂性疾病是指由于遗传和环境因素的共同作用引起的疾病。目前已经鉴定出的与人类复杂性疾病相关
11、联的SNP位点有近千个。GWAS技术的重大革新及其应用,极大地推动了基因组医学的发展。12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究20(3)GWAS(Genome Wide Association Study,全基因组关联分析),全基因组关联分析),基因组水平研究基因组水平研究SNP与疾与疾病的相关性病的相关性a1)计算疾病的计算疾病的Risk通过通过队列研究(队列研究(cohort study)计算得出)计算得出健康人健康人(n=1005)发病率?发病率?105/1005=0.10时间时间得出得出Risk 为为10%12/1/2022二、基因检测报告的形成:1.支撑报告的
12、基础研究21(3)GWAS(Genome Wide Association Study,全基因组关联分析),全基因组关联分析),基因组水平研究基因组水平研究SNP与疾与疾病的相关性病的相关性D+D-TotalRisk解释解释All1059001005105/1005=0.10患病风险为10%TT15849915/99=0.15患病风险为15%TC4638342946/429=0.11患病风险为11%CC4443347744/477=0.09患病风险为9%a2)计算每种基因型(计算每种基因型(genotype)的绝对)的绝对Risk每个每个risk为绝对风险,是指某种基因型的人患某种疾病的风险为
13、绝对风险,是指某种基因型的人患某种疾病的风险12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究22(3)GWAS(Genome Wide Association Study,全基因组关联分析),全基因组关联分析),基因组水平研究基因组水平研究SNP与疾与疾病的相关性病的相关性绝对绝对Risk相对相对Risk(RR)TT0.150.15/0.09=1.7TC0.110.11/0.09=1.2CC0.091.0(参考值)a3)计算每种基因型(计算每种基因型(genotype)的相对风险)的相对风险 Relative RiskRR=两个两个risk的比值的比值用于衡量遗传变异对于患病风
14、险的用于衡量遗传变异对于患病风险的“影响程度影响程度”TT基因型的解释:1.7倍的患病风险,或患病风险增加了70%TC基因型的解释:1.2倍的患病风险,或患病风险增加了20%12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究23(3)GWAS(Genome Wide Association Study,全基因组,全基因组关联分析),基因组水平研究关联分析),基因组水平研究SNP与疾病的相关性与疾病的相关性注:这里Risk和Odds的概念与流行病学中的患病率(prevalence rate)和发病率(incidence rate)不同b1)计算患病几率计算患病几率Odds通过对照通
15、过对照研究(研究(case-control study)计算得出)计算得出健康对照组(健康对照组(Controls)(n=500)疾病组(疾病组(Case)(n=500)12/1/2022二、基因检测报告的形成:1.支撑报告的基础研究24(3)GWAS(Genome Wide Association Study,全基因组关联分析),全基因组关联分析),基因组水平研究基因组水平研究SNP与疾与疾病的相关性病的相关性CasesControlsTotal疾病的疾病的Odds解释解释All5005001000500/500=1.050:50患病概率TT160108268160/108=1.5患病概率不
16、患病概率TC160121281160/121=1.3患病概率不患病概率CC180271451180/271=0.7患病概率T,代表CYP2D6基因在NCBI中Genomic DNA的序列NG_012879.1中第4300位碱基C突变为T。g.为genomic的缩写。100CT和C188T一样是指SNP在cDNA中的位置。C188T代表在整段cDNA上第188位的位置。100CT则是去除了5UTR,从ATG开始数起的第100位的位置,一般也表示为c.100CT。这里的c.就是指condon。P34S或者p.Pro34Ser,这个很好理解,就是蛋白序列上第34个氨基酸的变化。但有很多内含子的SNP
17、或者lncRNA的SNP不会有这样的表示方法。三、仅知不规范命名,如何查SNP位点的序列在搜索引擎如Google、Bing、PubMed里搜“不规范命名 rs”,或者到专业SNP数据库如SNPedia、dbSNP中,人工搜寻SNP位点对应的rs号,只有拿到rs号才能找到正确的SNP具体信息。12/1/2022四、基因检测与精准医疗:1.精准医疗的发展41 症状 经验医学 模式、统计 循证医学 算法、数据 精准医学 过去 现在 未来数据决策操作规程+算法+数据库预防、诊断、治疗大数据分析数据库个人分子指纹非分子因素分子成像智能穿戴等交互设备检测项目精准医疗(精准医疗(Precision Medi
18、cine)是以个体化医疗为基础、随着基因组测序技术快速进步以及生物信息与大数据科学的交叉应用而发展起来的新型医学概念与医疗模式。其本质是通过基因组、蛋白质组等组学技术和医学前沿技术,对于大样本人群与特定疾病类型进行生物标记物的分析与鉴定、验证与应用,从而精确寻找到疾病的原因和治疗的靶点,并对一种疾病不同状态和过程进行精确分类,最终实现对于疾病和特定患者进行个性化精准治疗的目的,提高疾病诊治与预防的效益。12/1/2022DNA核酸序列蛋白质氨基酸序列蛋白质结构蛋白质功能最基本的生物信息维持生命活动的机器第一部遗传密码第二部遗传密码?生命体系千姿百态的变化蛋白质结构决定功能第一部遗传密码已被破译
19、,但对密码的转录过程还不清楚,对大多数DNA非编码区域的功能还知之甚少;对于第二部密码,目前则只能用统计学的方法进行分析;无论是第一部遗传密码,还是第二部遗传密码,都隐藏在大量的生物分子数据之中。四、基因检测与精准医疗:2.生物信息学(1)生物分子数据及其关系生物分子数据及其关系4212/1/2022(2 2)生物信息学的主要研究内容)生物信息学的主要研究内容1.数据管理2.序列比对3.基因组序列分析 4.基因表达分析5.基因功能注释6.蛋白质结构预测还有:7.基因-蛋白质相互作用网络8.整个系统调控网络基因组基因组数据库数据库 蛋白质序列蛋白质序列数据库数据库 蛋白质结构蛋白质结构数据库数据
20、库 DDBJEMBLGenBankSWISS-PROT PDBPIR123456四、基因检测与精准医疗:2.生物信息学4312/1/202244(3)数据库)数据库基因检测的数据来源基因检测的数据来源数据库(database)是将各种数据集中起来、按特定的方式进行组织并允许通过计算机对其内容进行查询、管理和修订维护的一种数据系统。生物学数据库所存储的原始数据常常需要经过不同程度整辑(curation),包括注释、层级分析,以及与其他相关数据库的交叉引证(cross-referencing)等。四、基因检测与精准医疗:2.生物信息学12/1/2022四、基因检测与精准医疗:2.生物信息学a)数据
21、库的信息检索数据库的信息检索 Entrez是国家生物技术信息中心(The National Center for Biotechnology Information,NCBI)的一个综合性检索系统,作为NCBI数据库及其检索操作的通用门户入口,将各独立数据库在统一的界面下联为一体,使得包括核酸和蛋白质序列、蛋白质结构、基因组全序列与基因物理图谱、基因表达以及生物医学文献和种属分类等在内的一系列数据库,拥有统一规范的检索模式。4512/1/2022b)常用数据库介绍常用数据库介绍PubMedPubMed是美国国家医学图书馆(National Library of Medicine,NLM)所属的
22、国家生物技术信息中心(NCBI)建立和维护的生物医学信息检索系统,向公众提供免费的MEDLINE收录文献信息。PubMed界面除了包含期刊全文出版商网址的链接外,还与综合分子生物学数据库进行链接,以方便用户对DNA和蛋白质序列、基因绘图数据、蛋白质三维构象和人类孟德尔遗传在线等多种常用数据的交叉印证与检索。近年来,PubMed陆续增加了对一些第三方生物学数据和测序中心数据等的互引。四、基因检测与精准医疗:2.生物信息学4612/1/2022四、基因检测与精准医疗:2.生物信息学c)常用数据库介绍常用数据库介绍GenBank GenBank是美国国立卫生研究院发起和维护的基因序列数据库,属于以N
23、IH、EMBL和DDBJ为主的序列数据库国际合作组织,汇集并详细注释所有公开的核酸和蛋白质序列。每个记录代表一个独立、连续并带有注释的DNA或RNA片段。4712/1/2022d)常用数据库介绍常用数据库介绍OMIM OMIM(Online Mendelian Inheritance in Man,人类孟德尔遗传在线资源)包括了迄今所有已知的人类遗传病、遗传决定性状及其相关基因,除了各种疾病的临床特征、诊断、鉴别诊断、治疗和预防等相关信息的扼要描述外,还提供已知有关致病基因的连锁关系、染色体定位、组成结构和功能及动物模型等资料,并附有详细的参考文献。四、基因检测与精准医疗:2.生物信息学481
24、2/1/2022四、基因检测与精准医疗:2.生物信息学e)常用数据库介绍常用数据库介绍 ENCODE ENCODE是ENCyclopedia Of DNA Elements的简称。在对源于147种不同组织类型的超过15兆兆字节的原始数据进行分析的基础上,该项目已初步确定了具有开放和关闭特征的基因及其在不同类型细胞中“开关”情况的差异,获得了迄今最为广泛和深入的人类基因组分析信息。4912/1/2022 e)常用数据库介绍常用数据库介绍 GEO GEO(Gene Expression Omnibus,高通量基因表达谱数据库)四、基因检测与精准医疗:2.生物信息学5012/1/202251(2)序
25、列对比)序列对比序列比对(sequence alignment)包括双序列的对比(pairwise comparison)和多序列的比对分析(multiple alignment)。常用相似性(similarity)或同源性(homology)的量化指标来表示序列间的类同关系或程度。生物信息学的基本任务是对各种生物分析序列进行分析,从大量的序列信息中获取基因结构、功能和进化等知识。而在序列分析中,将未知序列同已知序列进行相似性比较是一种强有力的研究手段,通过进行生物分子序列的相似性比较:从序列的片段测定,拼接 基因的表达分析 RNA和蛋白质的结构功能预测 物种亲缘树的构建AGTCAA10001G01000T00100T001-10C00010A10001四、基因检测与精准医疗:2.生物信息学12/1/202252二代测序(二代测序(NGS)等高通量测序技术的临床应用)等高通量测序技术的临床应用 四、基因检测与精准医疗:3.高通量测序Whole Genome Sequencing vs.Whole Exome Sequencing12/1/2022谢谢5312/1/2022
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。