1、2023-2-41基因多态性基因多态性与疾病发生遗传易感性与疾病发生遗传易感性Gene Polymorphism and Genetic Susceptibility to Disease2023-2-42提提 纲纲1.单核苷酸多态性单核苷酸多态性Single Nucleotide Polymorphism2.基因多态性与疾病发生遗传易感性基因多态性与疾病发生遗传易感性Gene Polymorphism and Genetic Susceptibility to Disease3.基因多态性与基因转录调控基因多态性与基因转录调控Gene Polymorphism and Regulation
2、of Gene Transcription4.展望展望Future ProspectsDNA Structure2023-2-44基因突变基因突变o基因突变基因突变(mutation):由于由于DNA碱基对的置换、插入或碱基对的置换、插入或缺失而引起的基因结构的变化缺失而引起的基因结构的变化,亦称点突变。,亦称点突变。o根据根据基因结构基因结构的改变方式,的改变方式,基因突变可分为碱基置换突基因突变可分为碱基置换突变和移码突变两种类型:变和移码突变两种类型:n碱基置换突变碱基置换突变:由一个错误的碱基对替代一个正确的碱基对的:由一个错误的碱基对替代一个正确的碱基对的突变叫碱基置换突变。碱基替换
3、过程只改变被替换碱基的那个突变叫碱基置换突变。碱基替换过程只改变被替换碱基的那个密码子,也就是说每一次碱基替换只改变一个密码子,不会涉密码子,也就是说每一次碱基替换只改变一个密码子,不会涉及到其他的密码子。及到其他的密码子。n移码突变移码突变:基因中插入或者缺失一个或几个碱基对,使:基因中插入或者缺失一个或几个碱基对,使DNA的的阅读框架(读码框)发生改变,导致插入或缺失部位之后的所阅读框架(读码框)发生改变,导致插入或缺失部位之后的所有密码子都跟着发生变化,结果产生一种异常的多肽链。有密码子都跟着发生变化,结果产生一种异常的多肽链。2023-2-45基因突变基因突变o根据根据遗传信息遗传信息
4、的改变方式,的改变方式,基因突变又可以分为同义突变、错基因突变又可以分为同义突变、错义突变和无义突变三种类型:义突变和无义突变三种类型:n同义突变同义突变:DNA的一个碱基对的改变并不会影响它所编码的蛋白的一个碱基对的改变并不会影响它所编码的蛋白质的氨基酸序列,这是因为改变后的密码子和改变前的密码子是质的氨基酸序列,这是因为改变后的密码子和改变前的密码子是简简并密码子并密码子,它们编码同一种氨基酸,这种基因突变称为同义突变。,它们编码同一种氨基酸,这种基因突变称为同义突变。n错义突变错义突变:由于一对或几对碱基对的改变而使决定某一氨基酸的密:由于一对或几对碱基对的改变而使决定某一氨基酸的密码子
5、变为决定另一种氨基酸的密码子的基因突变叫错义突变。码子变为决定另一种氨基酸的密码子的基因突变叫错义突变。这种这种基因突变有可能使它所编码的蛋白质部分或完全失活。基因突变有可能使它所编码的蛋白质部分或完全失活。n无义突变无义突变:由于一对或几对碱基对的改变而使决定某一氨基酸的密:由于一对或几对碱基对的改变而使决定某一氨基酸的密码子变成一个码子变成一个终止密码子终止密码子的基因突变叫无义突变。的基因突变叫无义突变。2023-2-46单核苷酸多态性单核苷酸多态性o单核苷酸多态性单核苷酸多态性(single nucleotide polymorphism,SNPs):):是指在基因组水平上由单个核苷酸
6、的变异所引起的是指在基因组水平上由单个核苷酸的变异所引起的DNA序列序列多态性。它是人类可遗传的变异中最常见的一种,占所有已多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的知多态性的90%以上。以上。SNP在人类基因组中广泛存在,平均在人类基因组中广泛存在,平均每每500-1000个碱基对中就有个碱基对中就有1个,人类个,人类30亿碱基中大约有亿碱基中大约有1000万个万个SNPs。oSNP所表现的多态性可以只涉及到单个碱基的变异,这种变所表现的多态性可以只涉及到单个碱基的变异,这种变异可由单个碱基的异可由单个碱基的转换转换(transition,嘌呤,嘌呤嘌呤或嘧啶嘌呤或嘧啶嘧
7、啶嘧啶)或或颠换颠换(transversion,嘌呤,嘌呤嘧啶嘧啶)所引起,也可由碱基的所引起,也可由碱基的插入或缺失所致。但通常所说的插入或缺失所致。但通常所说的SNP并不包括后两种情况。并不包括后两种情况。2023-2-47单核苷酸多态性单核苷酸多态性o理论上,理论上,SNPs可以分二、三和四等位基因,但可以分二、三和四等位基因,但人类一人类一般为二等位基因(般为二等位基因(biallelic)。二等位基因有。二等位基因有4种不同类种不同类型,包括型,包括1种转换种转换CT(GA)和和3种颠换种颠换CA(GT)、CG(GC)、TA(AT)。四种。四种SNPs类型在人类中的发类型在人类中的发
8、生频率不同,生频率不同,最常见的为最常见的为CT(GA)转换转换,约占,约占2/3,其它其它3种类型发生的频率相同。之所以转换几率高,可种类型发生的频率相同。之所以转换几率高,可能是因为能是因为CpG二核苷酸上的胞嘧啶残基是人类基因组中二核苷酸上的胞嘧啶残基是人类基因组中最易发生突变的位点,其中大多数是甲基化的,可自发最易发生突变的位点,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺嘧啶。地脱去氨基而形成胸腺嘧啶。单核苷酸多态性单核苷酸多态性Example of an SNP comprising a GA substitutionElectropherograms produced by
9、fluorescence-based sequencing using an ABI 3700 showing the genomic DNA from an individual homozygous for G at the site of the SNP(a)and an individual homozygous for A(b).The base substitution is denoted by an arrow.2023-2-49单核苷酸多态性单核苷酸多态性o人类基因组中大约估计每个基因有人类基因组中大约估计每个基因有2个常见的错义突变个常见的错义突变o在公共数据库中至少有在公
10、共数据库中至少有500万个万个SNPs。o仅有少量(可能为仅有少量(可能为50,000250,000)SNPs在一定程度上(小到中等在一定程度上(小到中等度)能反映与疾病发生危险相关的表型。度)能反映与疾病发生危险相关的表型。o根据根据SNP在基因中的位置,可分为在基因中的位置,可分为基因编码区基因编码区SNPs(Coding-region SNPs,cSNPs)、)、基因周边基因周边SNPs(Perigenic SNPs,pSNPs)以及以及基因间基因间SNPs(Intergenic SNPs,iSNPs)等三类。)等三类。oSNPs在基因组中的分布十分广泛,但不同的区域出现的频率不同。在基
11、因组中的分布十分广泛,但不同的区域出现的频率不同。人类单碱基等位基因十分稳定。人类单碱基等位基因十分稳定。o人类人类SNPs大部分大部分(85%)是共有的。是共有的。2023-2-410单核苷酸多态性单核苷酸多态性63%Intronic(内含子)(内含子)24%Locus region(基因座区)(基因座区)11%Untranslated region(非翻译区)(非翻译区)1%Nonsynonymous(nsSNPs,错义,错义SNPs)1%Synonymous(同义(同义SNPs)1%Splice site(剪接位点)(剪接位点)1,increased riskOR 1,protectiv
12、e effectQuestionnaire dataBiomarker assays2023-2-444研究设计和统计分析研究设计和统计分析以基于医院的肿瘤病例以基于医院的肿瘤病例对照研究为例对照研究为例o病例病例:病人应为新诊断、病理学确诊;未经放疗或化疗;无肿瘤病:病人应为新诊断、病理学确诊;未经放疗或化疗;无肿瘤病史;无输血史史;无输血史o对照对照:无肿瘤者,可从医疗或保健机构中招募的,与病例无生物学:无肿瘤者,可从医疗或保健机构中招募的,与病例无生物学上相关的医疗求助者或病人陪伴着。病例应与对照在年龄、性别、上相关的医疗求助者或病人陪伴着。病例应与对照在年龄、性别、种族和吸烟状况上在频
13、率上相匹配或采用个体匹配。种族和吸烟状况上在频率上相匹配或采用个体匹配。o正式的正式的知情同意书知情同意书、流行病学调查表流行病学调查表和和血液采集。血液采集。o统计分析统计分析:采用:采用t检验、方差检验和多因素检验、方差检验和多因素 logistic回归分析等。回归分析等。2023-2-445研究设计和统计分析研究设计和统计分析o 选定暴露于及未暴露于某因素的两组人群选定暴露于及未暴露于某因素的两组人群,随访观察一定的期间,比较两组人群某种疾,随访观察一定的期间,比较两组人群某种疾病的结局,从而判断该因素与发病或死亡有无关联及关联大小的研究方法。病的结局,从而判断该因素与发病或死亡有无关联
14、及关联大小的研究方法。o 特点特点n 属于属于观察法观察法,需设立对照组。,需设立对照组。由由“因因”及及“果果”,时序合理,检验暴露因素与疾病,时序合理,检验暴露因素与疾病的的因果联系科学性强。因果联系科学性强。n 最大优点是可以最大优点是可以获取相对真实而可靠的资料。获取相对真实而可靠的资料。但是如果需要观察大量人群,则花费但是如果需要观察大量人群,则花费太大。太大。n 如果疾病的潜伏期很长,则需要观察的时间很长。这些都会影响其可行性。如果疾病的潜伏期很长,则需要观察的时间很长。这些都会影响其可行性。o 用途用途n 检验病因假设检验病因假设:验证某种暴露因素对某种疾病发病率或死亡率的影响,
15、也可同时观:验证某种暴露因素对某种疾病发病率或死亡率的影响,也可同时观察某种暴露因素对人群健康的系统影响。察某种暴露因素对人群健康的系统影响。n 描述疾病的自然史描述疾病的自然史:疾病的自然发展过程,包括疾病的起病(病理发生期)、潜伏:疾病的自然发展过程,包括疾病的起病(病理发生期)、潜伏期期(隐伏期隐伏期)、临床前期、临床期到结局的全过程。、临床前期、临床期到结局的全过程。前瞻性队列(或群组)研究(Cohort Study)Susceptibility:Diet,Metabolism,DNA damage&RepairCarcinogenes CancerCancer-freeGenetic
16、 predisposition?(遗传易患体质?遗传易患体质?)Biomarkers for prevention and early detection?Cohort Study2023-2-447研究设计和统计分析研究设计和统计分析又称为单纯病例研究(又称为单纯病例研究(case only study)或病例系列研究(或病例系列研究(case series study)。病例)。病例-病例研究是近年来被病例研究是近年来被广泛应用于疾病病因研究中评价基因与广泛应用于疾病病因研究中评价基因与环境交互作用的一种方法环境交互作用的一种方法,该方法仅通过某一疾病患者群体来评价基因型与,该方法仅通过某
17、一疾病患者群体来评价基因型与环境暴露的交互作用,但不能评价二者各自的主效应。环境暴露的交互作用,但不能评价二者各自的主效应。有时在一般病例对照研究中不易有时在一般病例对照研究中不易选择合适的对照选择合适的对照,特别是在分子流行病学研,特别是在分子流行病学研究中,究中,从无疾病的对照中去获取某种生物标本也受到医学伦理从无疾病的对照中去获取某种生物标本也受到医学伦理方面的制约。方面的制约。如果对一种疾病的如果对一种疾病的两个亚型进行对比研究两个亚型进行对比研究,例如出血型脑卒中与缺血型脑卒,例如出血型脑卒中与缺血型脑卒中、中、p53突变阳性基因型的食管癌与突变阳性基因型的食管癌与p53突变阴性基因
18、型的食管癌或者食管突变阴性基因型的食管癌或者食管癌的鳞癌与腺癌的比较研究,可以不另外设对照组,而采取两个亚组的直接癌的鳞癌与腺癌的比较研究,可以不另外设对照组,而采取两个亚组的直接比较。比较。这种设计可以免除从无病的对照组收集资料特别是生物标本的麻烦,这种设计可以免除从无病的对照组收集资料特别是生物标本的麻烦,适用于适用于研究两组病因的差异部分研究两组病因的差异部分,而其相同或近似的危险因素则将被掩盖或低估。而其相同或近似的危险因素则将被掩盖或低估。病例-病例研究(Case-Case Study)2023-2-448研究设计和统计分析研究设计和统计分析 应用的前提条件:在正常人群中基因型与环境
19、暴露各自独立发生,而且所应用的前提条件:在正常人群中基因型与环境暴露各自独立发生,而且所研究的疾病为罕见病研究的疾病为罕见病(此时可用此时可用OR来估计来估计RR值值)。基本步骤:基本步骤:1.确定某一患者群体作为研究对象确定某一患者群体作为研究对象2.收集病人的一般情况、协变量、环境暴露资料,以及生物标本。收集病人的一般情况、协变量、环境暴露资料,以及生物标本。3.采用分子生物学技术检测基因型采用分子生物学技术检测基因型4.根据某一基因型的有无将研究对象分为类病例组和类对照组根据某一基因型的有无将研究对象分为类病例组和类对照组5.统计分析,计算统计分析,计算OR值、值、P值。值。6.判断有无
20、相乘模型的交互作用及显著性意义。若有,进一步判断为正判断有无相乘模型的交互作用及显著性意义。若有,进一步判断为正相乘作用还是负相乘作用。相乘作用还是负相乘作用。病例-病例研究(Case-Case Study)Blood Sample Processing and Biomarker Assay Flow ChartPHAPHASpinWhole blood short-term culture 1ml 1ml 1mlMutagen sensitivityassayBPDE ControlBPDEGamma 1mlBPDE-Induce DNA adducts assayDNAextractio
21、n 1mlRT-PCR forgene expressionLong-termstoragecDNADNA 1mlRNAextractionGenotypingLymphocyte isolation(frozen)CAT/LucassaysDNA repaircapacity2 mleachTransfectionHeparinized,10-30 ml Sample collection(cases and controls)1mlPlasmaSerum 2023-2-450研究设计研究设计和统计分析和统计分析o 相关性研究结果可重复吗?相关性研究结果可重复吗?遗憾的是,大多数结果不能重复
22、。遗憾的是,大多数结果不能重复。1.假阳性假阳性报告(报告(false-positive reports):伪相关:伪相关(spurious associations)2.假阴性假阴性报告(报告(false-negative reports):该研究):该研究无足够的效能来识别该相关性无足够的效能来识别该相关性3.人群之间存在的差异人群之间存在的差异(population differences)2023-2-451研究设计研究设计和统计分析和统计分析o在相关性研究结果缺乏一致性时,应采在相关性研究结果缺乏一致性时,应采用何种用何种可信度水平可信度水平?1.大样本大样本(large sampl
23、e size)2.避免出版偏差避免出版偏差(avoid publication bias)3.种族分层种族分层(ethnic stratification)2023-2-452研究设计研究设计和统计分析和统计分析o影响相关性研究结果的因素:影响相关性研究结果的因素:1.病因学病因学上的上的复杂性复杂性(etiological complexity)2.统计效能统计效能和和采样设计采样设计(statistical power and sampling design)3.人群结构人群结构(population structure)4.数据解释数据解释(data interpretation)202
24、3-2-453研究设计研究设计和统计分析和统计分析o数据解释(数据解释(Data Interpretation)有几种情况:显著关联、无重要关联、无法决定。有几种情况:显著关联、无重要关联、无法决定。1.假阳性报告概率假阳性报告概率(false positive report probability,FPRP)有助于作出判断)有助于作出判断2.FPRP取决于取决于先验概率先验概率(prior probability)、)、统计效统计效能能(statistical power)和)和效能指数效能指数(effect size)。)。统计效能统计效能:指当:指当H0为错时你正确地拒绝为错时你正确地拒
25、绝H0的概率(的概率(significance of the relationship under test)效能指数效能指数:是指被检验的两变量之间关系的强度:是指被检验的两变量之间关系的强度(strength of the relationship under test)。两者均与样本大小有关。)。两者均与样本大小有关。2023-2-454研究设计研究设计和统计分析和统计分析o 数据解释(数据解释(Data Interpretation)1.当先验概率较高时,那么假阳性报告概率将较低,当先验概率较高时,那么假阳性报告概率将较低,其关联性将更趋正确。其关联性将更趋正确。2.研究者必须选择一个
26、临床或病因学上有意义的效研究者必须选择一个临床或病因学上有意义的效能指数,如相对危险度(能指数,如相对危险度(relative risk,RR)或比)或比值比(值比(odds ratio,OR)以及先验范围。以及先验范围。3.通常我们计算并比较通常我们计算并比较OR值值及其及其95%可信限可信限(95%confidence interval,95%CI)。)。2023-2-455提提 纲纲1.单核苷酸多态性单核苷酸多态性Single Nucleotide Polymorphism2.基因多态性与疾病发生遗传易感性基因多态性与疾病发生遗传易感性Gene Polymorphism and Gene
27、tic Susceptibility to Disease3.基因多态性与基因转录调控基因多态性与基因转录调控Gene Polymorphism and Regulation of Gene Transcription4.展望展望Future Prospects启动子与基因转录Promoter RegionControl sites in DNA provide binding sites for proteins;coding regions are expressed via the synthesis of RNA2023-2-459基本概念基本概念 启动子启动子(promoter):位
28、于结构基因位于结构基因5端上游的一段端上游的一段DNA序列序列1.指导全酶指导全酶(holoenzyme)同模板正确结合同模板正确结合2.活化活化RNA聚合酶聚合酶3.启动基因转录启动基因转录 启动子区启动子区(promoter region):RNA聚合酶聚合酶(RNA polymerases)同启动子结合的区域同启动子结合的区域 RNA聚合酶聚合酶:利用利用DNA模板合成模板合成RNA的酶的酶RNA聚合酶的活性形式聚合酶的活性形式(全酶全酶)为为15S,由,由5种不同的多肽链构成,按分子种不同的多肽链构成,按分子量大小排列分别为量大小排列分别为(155000),(151000),(7000
29、),(36500)和和(11000)。每分子每分子RNA聚合酶除有两个聚合酶除有两个亚基外,其余亚基均只有一个,故全酶为亚基外,其余亚基均只有一个,故全酶为2(450000)。全酶是指酶蛋白及其辅酶构成的有功能的复合物。全酶是指酶蛋白及其辅酶构成的有功能的复合物。The function of RNA polymerase is to copy one strand of duplex DNA into RNA2023-2-462基本概念基本概念共有序列共有序列(consensus sequence)是指与真实序列是指与真实序列相比,启动子每个位置最常出现的理想化碱基相比,启动子每个位置最常出
30、现的理想化碱基序列。序列。即将所有已知启动子排列起来以求其最即将所有已知启动子排列起来以求其最大相似性大相似性。一个序列如果为共有,则。一个序列如果为共有,则每一个特每一个特定碱基定碱基都理应在相应位置上有都理应在相应位置上有分布优势分布优势。大多。大多数共有序列间的碱基差异不能超过数共有序列间的碱基差异不能超过1-2个。个。2023-2-463启动子结构启动子结构 1.有多种元件有多种元件:TATA框、框、GC框、框、CATT框、框、OCT等。等。2.结构不恒定结构不恒定:有的有多种框盒如组蛋白:有的有多种框盒如组蛋白H2B;有的只有;有的只有TATA框框和和GC框,如框,如SV40早期转录
31、蛋白。早期转录蛋白。3.它们的它们的位置位置、序列序列、距离距离和和方向方向都不完全相同。都不完全相同。4.有的存在有的存在远距离的调控元件远距离的调控元件,如增强子。,如增强子。5.这些元件常起到这些元件常起到控制转录效率和选择起始位点控制转录效率和选择起始位点的作用。的作用。6.不直接和不直接和RNA聚合酶结合聚合酶结合。转录时先和其它转录激活因子相结合,。转录时先和其它转录激活因子相结合,再和聚合酶结合。再和聚合酶结合。真核生物中有三种不同的RNA聚合酶,因此也有三种不同的启动子,其中以启动子最为复杂,它和原核的启动子有很多不同:2023-2-464RNA聚合酶的核心酶虽可合成聚合酶的核
32、心酶虽可合成RNA,但不能找到模板,但不能找到模板DNA上的转录起始位点,上的转录起始位点,只有带只有带因子的全酶才能专因子的全酶才能专一地同启动子结合一地同启动子结合。RNA聚合酶沿着模板前进,直到聚合酶沿着模板前进,直到终止子,转录产生一条终止子,转录产生一条RNA链。通常把基因转录链。通常把基因转录起点起点前面即前面即5端的序列称为上游端的序列称为上游(upstream),起点后面即起点后面即3端的序列称为下游端的序列称为下游(downstream)。并把起点的位置记。并把起点的位置记为为+1,下游的核苷酸依次记为,下游的核苷酸依次记为+2,+3,上游方,上游方向依次记为向依次记为-1,
33、-2,-3,启动子结构启动子结构 2023-2-465启动子结构启动子结构在真核基因中,有少数基因没有在真核基因中,有少数基因没有TATA框框。没有。没有TATA框的框的真核基因启动子序列中,有的富集真核基因启动子序列中,有的富集GC,即有,即有GC框框;有的;有的则没有则没有GC框。框。GC框位于框位于-80-110bp处的处的GCCACACCC或或GGGCGGG序列。序列。TATA框的主要作用是使转录精确地起框的主要作用是使转录精确地起始;始;CAAT框和框和GC框则主要是控制转录起始的频率,特别框则主要是控制转录起始的频率,特别是是CAAT框对转录起始频率的作用更大框对转录起始频率的作用
34、更大。在真核生物中,。在真核生物中,在转录起始位点上游在转录起始位点上游70-80bp处有处有CAAT顺序,也称为顺序,也称为CAAT盒盒,是比较保守的共有序列:,是比较保守的共有序列:GCCTCAATCT。DNA-蛋白质结合研究策略2023-2-467背景背景基因转录实际上是基因转录实际上是RNA聚合酶、转录调控因子和启动子聚合酶、转录调控因子和启动子区各种调控元件相互作用的结果。区各种调控元件相互作用的结果。在基因表达的调控中,在基因表达的调控中,转录的起始是关键转录的起始是关键。常常某个基。常常某个基因是否应当表达决定于在特定的启动子起始过程。因是否应当表达决定于在特定的启动子起始过程。
35、启动子区启动子区DNA结合蛋白作为转录调控因子,通过与启动结合蛋白作为转录调控因子,通过与启动子子DNA结合以调节基因转录结合以调节基因转录。犹如抗原。犹如抗原-抗体特异性结抗体特异性结合一样,蛋白质与合一样,蛋白质与DNA的结合也是特异的,这是的结合也是特异的,这是研究启研究启动子区动子区DNA结合蛋白的前提。结合蛋白的前提。DNA-binding and activating functions in a transcription factor may comprise independent domains of the protein2023-2-469研究方案研究方案细胞内法细胞内
36、法(in vivo):以已知启动子以已知启动子DNA序列筛选出与其相结合序列筛选出与其相结合的蛋白编码基因的蛋白编码基因,通过生物信息分析来确定该蛋白质的名称。通过生物信息分析来确定该蛋白质的名称。优点优点:更符合生理状态,操作简便,适合大通量筛选,用于:更符合生理状态,操作简便,适合大通量筛选,用于寻找未知基因及蛋白质。寻找未知基因及蛋白质。缺点缺点:一是只能筛选可与启动子:一是只能筛选可与启动子DNA特异性结合的蛋白质,特异性结合的蛋白质,但不能检查出精确的蛋白质结合位点;二是特异性略差。但不能检查出精确的蛋白质结合位点;二是特异性略差。常用的有常用的有酵母单杂交酵母单杂交(Yeast o
37、ne hybrid)技术、噬菌体表面展技术、噬菌体表面展示示(Phage display)技术技术等。等。2023-2-470研究方案研究方案细胞外法细胞外法(in vitro):即在体外用重组的已知蛋白质与启:即在体外用重组的已知蛋白质与启动子动子DNA结合。结合。优点优点:特异性好,且能够在启动子:特异性好,且能够在启动子DNA序列上找到精序列上找到精确的蛋白质结合位点。确的蛋白质结合位点。缺点缺点:效率低,操作复杂,一般不用于寻找未知基因:效率低,操作复杂,一般不用于寻找未知基因及蛋白质。及蛋白质。常用的有常用的有EMSA(electrophoretic mobility-shift a
38、ssay)、DNase I foot-printing assay等。等。2023-2-471凝胶迁移率变动试验凝胶迁移率变动试验(EMSA)基本原理为:在凝胶电泳中,由于电场的作基本原理为:在凝胶电泳中,由于电场的作用,小分子用,小分子DNA片段比其结合了蛋白质的片段比其结合了蛋白质的DNA片段向阳极移动的速度快。片段向阳极移动的速度快。若目的若目的DNA与特异性蛋白质结合,则其向阳极移动的速与特异性蛋白质结合,则其向阳极移动的速度受到阻滞度受到阻滞,在凝胶放射性自显影上或生物,在凝胶放射性自显影上或生物素标记,就可找到素标记,就可找到DNA结合蛋白。结合蛋白。2023-2-472超级超级E
39、MSA超级超级EMSA,即,即Super-shift assay,是是EMSA试试验的改进,将验的改进,将DNA与更多的蛋白结合,这样,与更多的蛋白结合,这样,与特异性蛋白结合的目的与特异性蛋白结合的目的DNA移动速度进一步移动速度进一步减慢。减慢。由于凝胶迁移率变动试验的特异性好,常用来由于凝胶迁移率变动试验的特异性好,常用来鉴定其它方法筛选出的结果。显而易见,克隆鉴定其它方法筛选出的结果。显而易见,克隆启动子启动子DNA片段并标记,用该实验就可找到相片段并标记,用该实验就可找到相应的结合蛋白。应的结合蛋白。2023-2-473EMSA优缺点优缺点优点:优点:简单、快速、敏感简单、快速、敏感
40、缺点缺点:1.需需已知目标已知目标DNA序列序列2.DNA序列较短序列较短,一般为一般为20-30个核苷酸。个核苷酸。3.体外体外(非体内)检测方法(非体内)检测方法EMSAEMSA原理原理(a)The binding site of interest is synthesized as a short radiolabelled DNA probe which can be used to identify both known and novel factors binding to the candidate region.Once bound to DNA,a proteinDNA c
41、omplex is stabilized when subjected to non-denaturing PAGE,allowing resolution of proteinDNA complexes as discrete bands.(b)The specificity of the interaction may be investigated by competition experiments in which typically 10-or 100-fold excess unlabelled probe is added,which,in the case of a spec
42、ific competitor probe,results in progressively less radiolabelled probe bound by the transcription factor protein.2023-2-475DNase I 足迹试验足迹试验 足迹试验(足迹试验(foot-printing assay)不仅能找到与特异性)不仅能找到与特异性DNA结结合的目标蛋白,而且能告知目标蛋白结合的碱基部位。足迹合的目标蛋白,而且能告知目标蛋白结合的碱基部位。足迹试验的方法较多,常用的有试验的方法较多,常用的有DNase I 足迹试验、硫酸二甲酯足迹试验、硫酸二甲酯(
43、dimethylsulfate,DMS)足迹试验,二者原理基本相同。足迹试验,二者原理基本相同。基本原理:蛋白结合在基本原理:蛋白结合在DNA片段上,保护结合部位不被片段上,保护结合部位不被DNase I破坏,这样,蛋白质在破坏,这样,蛋白质在DNA片段上留下了片段上留下了“足迹足迹”,在电泳凝胶的放射性自显影图片上,相应于蛋白质结合的部在电泳凝胶的放射性自显影图片上,相应于蛋白质结合的部位没有放射性标记条带。位没有放射性标记条带。Principle of the DNase I foot-printing assay(含乳糖操纵子DNA)(乳糖阻遏物)Principle of the DNa
44、seI foot-printing assay2023-2-478DNase I 足迹试验足迹试验技术流程:技术流程:1.标记探针标记探针:待检双链:待检双链DNA分子用分子用32P作末端标记,通常只标记作末端标记,通常只标记一端。一端。2.结合和消化结合和消化:蛋白质与:蛋白质与DNA混合,待二者结合后,加入适量混合,待二者结合后,加入适量的的DNase I以消化以消化DNA分子,控制酶的用量,使之达到每个分子,控制酶的用量,使之达到每个DNA分子只发生一次磷酸二酯键断裂,同时设未加蛋白质的分子只发生一次磷酸二酯键断裂,同时设未加蛋白质的对照。对照。3.电泳和显影电泳和显影:从:从DNA上除
45、去蛋白质,将变性的上除去蛋白质,将变性的DNA加样在测加样在测序凝胶中作电泳和放射性自显影,与对照组相比后解读出足序凝胶中作电泳和放射性自显影,与对照组相比后解读出足迹部位的核苷酸序列。迹部位的核苷酸序列。启动子区SNPs的功能研究2023-2-480背景背景p 编码编码DNA(Coding DNA):外显子:外显子(exons)氨基酸改变或转录氨基酸改变或转录mRNAp 非编码非编码DNA(Non-coding DNA):启动子:启动子(promoter)、内含子内含子(introns)、5-非翻译区非翻译区(5-UTR)、3-非翻译区非翻译区(3-UTR)基因表达基因表达(假定的调控区,假
46、定的调控区,putative regulatory regions)转录转录(启动子区启动子区)2023-2-481背景背景 如果如果SNPs发生在发生在DNA编码区,可引起翻译蛋白质的氨基酸发生改编码区,可引起翻译蛋白质的氨基酸发生改变,即使是同义突变变,即使是同义突变(synonymous mutation),该,该SNPs的功能效应的功能效应也可在也可在mRNA水平检出。水平检出。如果如果SNPs发生在非编码区,特别是基因上游的启动子区,则可能影发生在非编码区,特别是基因上游的启动子区,则可能影响基因的转录过程。响基因的转录过程。如果如果SNPs位于某转录因子的共有序列中,将可能改变该转
47、录因子与位于某转录因子的共有序列中,将可能改变该转录因子与DNA结合的亲和性结合的亲和性(affinity),或引入一个新的因子与或引入一个新的因子与DNA结合,从结合,从而可能改变该基因转录过程的特异性和动力学特征。而可能改变该基因转录过程的特异性和动力学特征。发生在发生在非编码区的非编码区的SNPs的功能效应的功能效应难以直接检出,必须通过诸如转难以直接检出,必须通过诸如转录活性试验等手段录活性试验等手段间接检测。间接检测。2023-2-482转录起始位点转录起始位点 基因的启动子区域中含有许多重要的调控基因转录的基因的启动子区域中含有许多重要的调控基因转录的DNA序列(顺式元件),若要阐
48、明基因在转录水平上序列(顺式元件),若要阐明基因在转录水平上的调控机制(包括启动子区的调控机制(包括启动子区SNPs功能研究),功能研究),克隆启克隆启动子序列是必不可缺的关键一环。动子序列是必不可缺的关键一环。到目前为止,已阐明启动子序列以及它们的调控机制到目前为止,已阐明启动子序列以及它们的调控机制的基因数量非常有限。标准的真核生物有关的启动子的基因数量非常有限。标准的真核生物有关的启动子数据库数据库Eukaryotic Promoter Database中登录的基因启中登录的基因启动子也不过数百个,其中一个重要原因之一是许多基动子也不过数百个,其中一个重要原因之一是许多基因未能确切的确定
49、转录起始位点。因未能确切的确定转录起始位点。2023-2-483转录起始位点转录起始位点o 理想的克隆理想的克隆cDNA应包含模板应包含模板mRNA的的5帽的结构以及帽的结构以及3多聚多聚A尾的尾的全长序列。全长序列。o 传统的方法传统的方法克隆的克隆的cDNA,多数情况下其多数情况下其5末端为部分缺失状末端为部分缺失状态态。究其原因有二:。究其原因有二:n 一是在以一是在以mRNA模板进行逆转录过程中,模板进行逆转录过程中,逆转录酶逆转录酶在从模板在从模板mRNA中中脱落脱落,只能得到部分拷贝的,只能得到部分拷贝的cDNA产物。产物。n 二是在进行逆转录过程中,用了部分二是在进行逆转录过程中
50、,用了部分5末端被降解的末端被降解的mRNA为模板合为模板合成成cDNA。因此,因此,在构建在构建cDNA文库中得到的多数是文库中得到的多数是5末端部分缺失状态的末端部分缺失状态的cDNA。换言之,在构建。换言之,在构建cDNA文库的过程中,应用逆转录酶以及应文库的过程中,应用逆转录酶以及应用极易受降解的用极易受降解的mRNA是不可避免的,因此是不可避免的,因此5末端部分缺失就不足为末端部分缺失就不足为奇了。奇了。2023-2-484转录起始位点转录起始位点S1核酸酶作图法、引物延伸法核酸酶作图法、引物延伸法(RT)、5-RACE(rapid amplification of cDNA end