1、疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG基因多态性数据库基因多态性数据库与运用与运用建议和意见请发送到:建议和意见请发送到: 疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG一一、人类表型的多样性、人类表型的多样性疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDG
2、LDG遗传背景一致性和部分表型的差异遗传背景一致性和部分表型的差异疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG二二、导致人类表型的多样性的原因、导致人类表型的多样性的原因:1.生存环境因素的影响生存环境因素的影响 自然条件自然条件 文化背景文化背景 生活与饮食习惯生活与饮食习惯 社会体制社会体制 .2.自身遗传物质的作用自身遗传物质的作用 基因的功能和调节基因的功能和调节 非编码非编码DNA序列的影响序列的影响 表观遗传的作用表观遗传的作用 多态性位点的存在多态性位点的存在 疾病
3、基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG1.一个基因可以具有多个不同的表达模式一个基因可以具有多个不同的表达模式2.一个蛋白质可以具几种不同的结构和功能衍生物一个蛋白质可以具几种不同的结构和功能衍生物现以脂蛋白酯酶基因现以脂蛋白酯酶基因(LPL)为例进行说明为例进行说明LPL是脂质代谢的关键酶,目前发现其具有四种剪切模式是脂质代谢的关键酶,目前发现其具有四种剪切模式LPL Gene-GeneCards.htm疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命
4、科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG三三、人类遗传物质的差异、人类遗传物质的差异-基因多态性基因多态性1.人类自身遗传物质人类自身遗传物质99.8%是完全一致的是完全一致的2.人类自身遗传物质的差异大约为人类自身遗传物质的差异大约为0.2%其中:其中:在核苷酸碱基水平上约占在核苷酸碱基水平上约占0.08%比如:碱基的替换、点突变、碱基的插入或缺失、比如:碱基的替换、点突变、碱基的插入或缺失、SNPs等等 在基因组结构水平上在基因组结构水平上约占约占0.12%(包括片段的插入、缺失、倒置、移位、互换等包括片段的插入、缺失、倒置、移位、互换等)比
5、如:比如:2-1000bp片段:微卫星、小卫星等片段:微卫星、小卫星等 1kbp-亚显微结构:拷贝数量多态性等亚显微结构:拷贝数量多态性等 显微显微-亚染色体结构:片段的非整倍体等亚染色体结构:片段的非整倍体等 整条染色体整条染色体-全基因组:染色体互换或非整倍性等全基因组:染色体互换或非整倍性等 3.30亿个碱基对中亿个碱基对中95%为为非编码序列非编码序列,5%为为蛋白编码序列蛋白编码序列疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGNat Genet.2007,39(7 Su
6、ppl):S7-S15疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGSingle Nucleotide Polymorphisms(SNPs)疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG微卫星微卫星(Microsatellite Markers)Variable numbers of tandem repeats(2,3,4)bases Unique primers
7、for 400 markers Stutter due to slippage of polymerase Marker-dependent,variable stutter morphology疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGFour Color Detection with Filter Set II疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGMeg
8、aBACE Genotype疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGFatherMotherChildtgtcatgctagattCACACAggttcgtagtcagtgtcatgctagattCACACACACACACAggttcgtagtcag疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGCopy Number Variants(CNVs)疾病基因研究室疾病
9、基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG野生型野生型DNADNA片段片段DNADNA片段的缺失片段的缺失 DNADNA片段的插入片段的插入ABCABCABNACBDNADNA片段的倒置片段的倒置BACGHIGHICDNADNA片段的移位片段的移位GABHCIDNADNA片段的互换片段的互换DNA片段多态性片段多态性疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG四四、SNPsSNPs
10、概论概论1.定义定义:单核苷酸多态性单核苷酸多态性(single nucleotide polymorphism,SNP,发音发音为为“snip”)snip”)是指在基因组水平上由单个核苷酸的变异所引起的是指在基因组水平上由单个核苷酸的变异所引起的DNA DNA 序列多态性。序列多态性。2.特征特征:是最常见的一种变异,约占所有已知多态性的是最常见的一种变异,约占所有已知多态性的40%;分布广,分布广,1个个/5001000个碱基对个碱基对,总数可能总数可能1470 万万;由单个碱基的转换由单个碱基的转换(transition)或颠换或颠换(transversion)所导致;所导致;转换的发生
11、率较高,转换的发生率较高,SNP中转换型变异者约占中转换型变异者约占2/3;(可能是因为 CpG 二 核苷酸上的胞嘧啶残基最易发生突变,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺 嘧啶)SNP SNP基本上表现为二等位多态性;基本上表现为二等位多态性;根据根据SNPSNP在基因中的位置,可分为基因编码区在基因中的位置,可分为基因编码区SNPs(CodingSNPs(Coding-region-region SNPs,cSNPs SNPs,cSNPs)、基因周边、基因周边SNPs(Perigenic SNPs,pSNPsSNPs(Perigenic SNPs,pSNPs)以及基因间以及基因
12、间 SNPs(Intergenic SNPs,iSNPsSNPs(Intergenic SNPs,iSNPs)等三类;等三类;疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG 位于编码区内的位于编码区内的SNP(coding SNP,cSNPSNP(coding SNP,cSNP)比较少,又可分为比较少,又可分为2 2种:种:同义同义(synonymous)cSNP(synonymous)cSNP和和非同义非同义(non-synonymous(non-synonymous)cSNPc
13、SNP,参与蛋白,参与蛋白 质编码;质编码;位于非编码区内的位于非编码区内的SNPSNP比较多,其变异率是比较多,其变异率是cSNPcSNP的的5 5倍,参与基因表倍,参与基因表 达的调控;达的调控;先形成的先形成的SNPSNP在人群中常有较高的频率,而后形成的在人群中常有较高的频率,而后形成的SNPSNP频率较低;频率较低;3.3.现有现有SNPSNP在白色、黑色和黄色人种中的分布在白色、黑色和黄色人种中的分布 频率频率20%20%,占,占7%7%;实验无法证实者,占实验无法证实者,占17%17%;在一个人种中频率在一个人种中频率20%20%,占,占76%76%;在二个人种中频率在二个人种中
14、频率20%20%,占,占53%53%;在三个人种中频率在三个人种中频率20%20%,占,占27%27%;疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGOccurrence of SNPs in the Human Population and Their Representation in the Current CollectionAdapted from Nature Genetics 2001,27:234-236 疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研
15、究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG4.4.SNPsSNPs网上资源主要有网上资源主要有:NIHNIH的的dbSNPdbSNP多态性数据库多态性数据库:www.ncbi.nlm.nih.gov:www.ncbi.nlm.nih.gov/SNP/SNP 德国的德国的HGBASHGBAS网站的人类网站的人类SNPSNP数据库数据库:hgbas.cgr.ki.sei:hgbas.cgr.ki.sei 日本建立的日本建立的JSTSNPJSTSNP数据库数据库:snp.ims.utolkyo.ac.jp:snp.ims.utolkyo.ac
16、.jp NIHNIH的与癌症和肿瘤相关的候选的与癌症和肿瘤相关的候选SNPSNP数据库数据库:cgap.nci.nih.gov:cgap.nci.nih.gov/GAI/GAIFastSNP Search:fastsnp.ibms.sinica.edu.twFastSNP Search:fastsnp.ibms.sinica.edu.twPerlegen Browser:Perlegen Browser: UCSC Genome Bioinformatics Site:genome.ucsc.eduUCSC Genome Bioinformatics Site:genome.ucsc.edu
17、美国美国UtahUtah大学大学SNPSNP数据库:数据库:www.genome.utah.eduwww.genome.utah.edu美国波士顿儿童医院美国波士顿儿童医院SNPSNP数据库:数据库:snpper.chip.orgsnpper.chip.orgSNPSNP联盟数据库:联盟数据库:www.cshl.orgwww.cshl.org英国英国SangerSanger研究所:研究所:www.sanger.ac.ukwww.sanger.ac.ukHapMap Homepage:www.hapmap.orgHapMap Homepage:www.hapmap.orgEnsemblEnsem
18、bl Genome databases and tools:www.ensembl.org Genome databases and tools:www.ensembl.org疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG5.5.NIHNIH的的dbSNPdbSNP多态性数据库多态性数据库:www.ncbi.nlm.nih.gov:www.ncbi.nlm.nih.gov/SNP/SNP dbSNP dbSNP的挑选方式和不足:的挑选方式和不足:60%60%的的“候选候选”SNPs
19、SNPs是通过统计学方法预测出来的即通过比较重叠是通过统计学方法预测出来的即通过比较重叠 克隆中的克隆中的DNADNA序列痕迹来确定序列痕迹来确定“候选候选”SNPsSNPs。因此,大多数的。因此,大多数的dbSNPdbSNP 是频率未知的是频率未知的“候选候选”SNPsSNPs。总数量约为总数量约为14701470万个万个SNPsSNPs;三大来源三大来源:SNPSNP联盟数据库:联盟数据库:www.cshl.orgwww.cshl.org 英国英国SangerSanger研究所:研究所:www.sanger.ac.ukwww.sanger.ac.uk 美国美国Washington Univ
20、ersity,St.LouisWashington University,St.Louis 设立的参照设立的参照SNP(Reference_SNPSNP(Reference_SNP)270270万万个个,采用采用rsrs+数字编号数字编号来表示;来表示;疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG可从多个路径查找可从多个路径查找SNPsSNPs:Human genome resources:Human genome resources,map view,map view,Gene
21、bankGenebank等等;等等;dbSNPdbSNP的质量的质量:已经证实的已经证实的Ref_SNPsRef_SNPs,大约有大约有240240万个万个 非人类的非人类的SNPsSNPs,大约有大约有216216万个万个 无法证实的无法证实的SNPsSNPs,大约有大约有184184万个万个 在某一群体中不是多态性的在某一群体中不是多态性的,大约有大约有152152万个万个 在某一群体中频率在某一群体中频率20%20%的的,大约有大约有126126万个万个 被证实的其频率被证实的其频率20%20%的的SNPsSNPs,大约有大约有6363万个万个疾病基因研究室疾病基因研究室/药物基因组研究
22、中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG五五、SNPsSNPs生物信息学生物信息学1.1.生物信息数据库的构建与获取生物信息数据库的构建与获取图图 1 数据库的建立:数据库的建立:采用数据库转换技术将不同格式、来源的数据转化为同一格式,从而建立单采用数据库转换技术将不同格式、来源的数据转化为同一格式,从而建立单一的大数据库。一的大数据库。Nat Rev Genet.20034(5)337-345疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学
23、药学院 秧茂盛秧茂盛 LDGLDG图图 2 连点和节点。连点和节点。运用连点和节点方法将各自独立的资源整合起来,对于一些重要的关联信息比如同运用连点和节点方法将各自独立的资源整合起来,对于一些重要的关联信息比如同源基因,则采取特定数据库的方式储存起来。源基因,则采取特定数据库的方式储存起来。Nat Rev Genet.20034(5)337-345疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG图图 3 生物数据库的结构和获取生物数据库的结构和获取 绝大多数生物数据库采用三层结构模绝
24、大多数生物数据库采用三层结构模式:式:第一层的数据管理系统第一层的数据管理系统(底层底层)第二层的中间设备,包括获取数据的第二层的中间设备,包括获取数据的软件和网络服务器软件和网络服务器(中层中层)第三层的网络浏览器第三层的网络浏览器(高层高层),即用户。,即用户。Nat Rev Genet.20034(5)337-345疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG2.2.SNPSNP生物信息分析生物信息分析2.1 2.1 分析的参数或指标分析的参数或指标 挑选拟进行分析的基因及
25、其挑选拟进行分析的基因及其DNADNA序列的长度,比如序列的长度,比如55端上游端上游5000bp 5000bp+整个基因序列整个基因序列 +3+3端下游端下游5000bp,5000bp,要求包含两端的非转录区要求包含两端的非转录区(UTR)(UTR)。在上述碱基范围内,寻找获取下列的信息:在上述碱基范围内,寻找获取下列的信息:所有所有SNPSNP的信息的信息:位置、群体中的频率位置、群体中的频率 标记标记SNP(Tag_SNPSNP(Tag_SNP)的情况的情况:位置、群体中的频率位置、群体中的频率 基因外显子的信息基因外显子的信息:位置、方向、大小位置、方向、大小 转录因子结合位点信息转录
26、因子结合位点信息:名称、位置、数目名称、位置、数目 甲基化位点甲基化位点CpGCpG的信息的信息:位置、数目位置、数目 进化保守区的信息进化保守区的信息:名称、位置、数目、大小名称、位置、数目、大小 单倍型信息单倍型信息:位置、数目、大小位置、数目、大小 参与调节基因转录的序列簇信息参与调节基因转录的序列簇信息:名称、位置、数目、大小名称、位置、数目、大小 (比如增强子、沉默子和比如增强子、沉默子和microRNAsmicroRNAs结合域等结合域等)疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂
27、盛 LDGLDG2.2 涉及的数据库或网络资源涉及的数据库或网络资源在在http:/genome.ucsc.edu/获得获得SNPSNP、CpGCpG、转录因子结合位点信息、转录因子结合位点信息在在http:/ecrbrowser.dcode.org/获得获得进化保守区的信息进化保守区的信息在在http:/www.ensembl.org/index.html获得获得基因外显子的信息基因外显子的信息在在http:/www.hapmap.org/获得获得标记标记SNP(Tag_SNPSNP(Tag_SNP)、单倍型的信息、单倍型的信息在在http:/ 秧茂盛秧茂盛 LDGLDG2.3 SNP信息分
28、析方法和结果的评判信息分析方法和结果的评判分析方法分析方法:Cygwin analysis program。该程序通过对基因序列的生物信。该程序通过对基因序列的生物信息进行综合分析,寻找可能具有各种功能的多态性位点,为遗传学、分息进行综合分析,寻找可能具有各种功能的多态性位点,为遗传学、分子生物学、进化和系统发育学的研究提供参考数据或功能信息,对复杂子生物学、进化和系统发育学的研究提供参考数据或功能信息,对复杂性疾病易感基因的研究工作很有帮助。性疾病易感基因的研究工作很有帮助。运行的前提条件运行的前提条件:1.在在Perl语言环境中进行分析。语言环境中进行分析。Perl 是是 Practica
29、l Extraction and Report Language(实用摘录和报告语言实用摘录和报告语言)的简称,是一种最广泛应用于语法分析的简称,是一种最广泛应用于语法分析和和 World Wide Web 的编程语言。的编程语言。2.拟分析的参数或指标,必须进行格式调整,满足拟分析的参数或指标,必须进行格式调整,满足Cygwin analysis program的要求。的要求。3.需要事先编写好需要事先编写好2个参数分析和整合程序。个参数分析和整合程序。3.1 运行运行cross_ref_SCORED.pl可以得到重叠区域生物信息学文件可以得到重叠区域生物信息学文件3.2 运行运行merge
30、_per_hap.pl可以得到整合了单倍型信息后的文件可以得到整合了单倍型信息后的文件4.将基因外显子信息加入其中,进行重新排列后,获得最终的生物学信将基因外显子信息加入其中,进行重新排列后,获得最终的生物学信息分析结果。息分析结果。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG生物信息学分析结果例证生物信息学分析结果例证 中国汉族群体中国汉族群体LPL基因基因SNP生物学信息生物学信息ECR:Evolutionary Conserved Regions;Tag:标记标记;转录因子
31、转录因子:MYCMAX,NMY;Cluster:调节基因转录的序列簇调节基因转录的序列簇;CpG:甲基化甲基化位点位点3 splice junction:外显子外显子3端剪切位点端剪切位点;MAF:弱势等位基因频率弱势等位基因频率疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG六六、SNPSNP的实验扩增和分析技术的实验扩增和分析技术1.1.基于基于PCRPCR技术与其它方法相结合的检测方法技术与其它方法相结合的检测方法(获得较普遍的应用获得较普遍的应用)1.1 1.1 通量相对较小
32、者通量相对较小者:测序、限制性片段长度多态性测序、限制性片段长度多态性(restriction fragment length(restriction fragment length polymorphism,RFLP)polymorphism,RFLP)、单链构象多态性、单链构象多态性(single-strand(single-strand conformation polymorphism,SSCP)conformation polymorphism,SSCP)、DGGE(DGGE(变性梯度凝胶电泳变性梯度凝胶电泳)、温度梯度凝胶电泳、温度梯度凝胶电泳(TGGE)(TGGE)、变性梯度凝胶
33、电泳、变性梯度凝胶电泳(DGGE)(DGGE)、随机扩、随机扩增多态性增多态性DNA(RAPD)DNA(RAPD)、连接酶检测反应法、连接酶检测反应法(ligase(ligase detection detection reaction,LDR)reaction,LDR)。1.2 1.2 通量相对较大者通量相对较大者:变性变性-高效液相色谱高效液相色谱(DHPLC)(DHPLC)、PyrosequencingPyrosequencing、EcotillingEcotilling、基、基 因芯片因芯片/阵列分析技术阵列分析技术(gene chips)(gene chips)、微球法、微球法(Il
34、lumina(Illumina)、质谱分、质谱分析、高分辨溶解曲线分析析、高分辨溶解曲线分析(High Resolution Melting,HRM)(High Resolution Melting,HRM)。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG2.2.以分子杂交技术为基础的检测方法以分子杂交技术为基础的检测方法(没有获得较普遍的应用没有获得较普遍的应用)寡核苷酸连接分析寡核苷酸连接分析(OLA)(OLA)、动态等位基因特异性杂交、动态等位基因特异性杂交(DASH)(DA
35、SH)、等、等 位基因特异寡核苷酸片段分析位基因特异寡核苷酸片段分析(ASO)(ASO)和突变错配扩增检验和突变错配扩增检验(MAMA)(MAMA)。3.3.以荧光定量以荧光定量PCRPCR为基础检测方法为基础检测方法(获得较普遍的应用获得较普遍的应用)TaqManTaqMan探针法、探针法、SNPlexSNPlex基因分型法、分子信标基因分型法、分子信标(Molecular beacon)(Molecular beacon)和和FRET(HybProbeFRET(HybProbe)。4.SNPs4.SNPs的功能性研究手段的功能性研究手段 比较成熟的对启动子区域内比较成熟的对启动子区域内SN
36、PsSNPs功能性研究的技术包括:功能性研究的技术包括:报告基因转染技术报告基因转染技术。主要用于研究启动子主要用于研究启动子SNPsSNPs对于对于mRNAmRNA转录效率的转录效率的 影响,通过观察转录结局来判断影响,通过观察转录结局来判断SNPsSNPs是否具有功能。报告基因是一是否具有功能。报告基因是一 种编码可被检测的蛋白质或酶的基因,是一个其表达产物非常容易种编码可被检测的蛋白质或酶的基因,是一个其表达产物非常容易 被鉴定的基因。通过把它的编码序列和基因表达调节序列相融合形被鉴定的基因。通过把它的编码序列和基因表达调节序列相融合形疾病基因研究室疾病基因研究室/药物基因组研究中心药物
37、基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG 成嵌合基因或与其它目的基因相融合,在调控序列控制下进行目的基因成嵌合基因或与其它目的基因相融合,在调控序列控制下进行目的基因 表达。表达。作为报告基因,必须具有如下几个特征:作为报告基因,必须具有如下几个特征:(1)(1)全序列已被测定;全序列已被测定;(2)(2)表达表达 产物在受体细胞中不存在、且在受体细胞中无相似的内源性表达产物即产物在受体细胞中不存在、且在受体细胞中无相似的内源性表达产物即 无背景;无背景;(3)(3)可以对其表达产物进行定量测定。可以对其表达产物进行定量测定。
38、凝胶迁移滞后实验凝胶迁移滞后实验(electrophoretic(electrophoretic mobility shift assays,mobility shift assays,EMSA)EMSA)。基本原理是蛋白质可以与末端标记的核酸探针结合,电泳。基本原理是蛋白质可以与末端标记的核酸探针结合,电泳 时这种复合物比无蛋白结合的探针在凝胶中泳动的速度慢,即表现时这种复合物比无蛋白结合的探针在凝胶中泳动的速度慢,即表现 为相对滞后。该方法可用于检测为相对滞后。该方法可用于检测DNADNA结合蛋白、结合蛋白、RNARNA结合蛋白,并可结合蛋白,并可 通过加入特异性的抗体(通过加入特异性的抗
39、体(supershiftsupershift)来检测特定的蛋白质,并可)来检测特定的蛋白质,并可 进行未知蛋白的鉴定。但是由于许多转录调控蛋白有相似或相同的进行未知蛋白的鉴定。但是由于许多转录调控蛋白有相似或相同的 DNADNA结合位点,这种体外分析获取的结果不一定能真实地反映体内转结合位点,这种体外分析获取的结果不一定能真实地反映体内转 录调控蛋白和录调控蛋白和DNADNA结合的状况。结合的状况。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG凝胶迁移滞后实验的凝胶迁移滞后实验的原
40、理示意图原理示意图放射性标记的放射性标记的DNA因因与蛋白质与蛋白质B结合,顾结合,顾而在凝胶电泳中移动而在凝胶电泳中移动速度变慢,在放射自速度变慢,在放射自显影中呈现滞后的条显影中呈现滞后的条带。带。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG 染色质免疫沉淀分析染色质免疫沉淀分析(chromatin immunoprecipitation(chromatin immunoprecipitation assay,assay,ChiP ChiP)。基本原理是在活细胞状态下固定蛋白
41、质。基本原理是在活细胞状态下固定蛋白质DNADNA复合物,并将复合物,并将 其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方 法沉淀此复合体,特异性地富集目的蛋白结合的法沉淀此复合体,特异性地富集目的蛋白结合的DNADNA片段,通过对目片段,通过对目 的片断的纯化与检测,从而获得蛋白质与的片断的纯化与检测,从而获得蛋白质与DNADNA相互作用的信息。它能相互作用的信息。它能 真实、完整地反映结合在真实、完整地反映结合在DNADNA序列上的调控蛋白,是目前确定与特定序列上的调控蛋白,是目前确定与特定 蛋白结合的基因组区域或确定与
42、特定基因组区域结合的蛋白质的一蛋白结合的基因组区域或确定与特定基因组区域结合的蛋白质的一 种很好的方法。种很好的方法。然而,对于功能性研究结果的评价还需要综合然而,对于功能性研究结果的评价还需要综合SNPsSNPs所在序列信息、所在序列信息、进化保守性、群体遗传学、实验功能性研究、暴露评价进化保守性、群体遗传学、实验功能性研究、暴露评价(如基因如基因-环环 境交互作用研究境交互作用研究)和流行病学证据,最后依据可以获得的各种证据来和流行病学证据,最后依据可以获得的各种证据来 作出科学的评判。作出科学的评判。一般情况下,可将一般情况下,可将SNPsSNPs是否具有功能效应分为三类:功能性、潜在是
43、否具有功能效应分为三类:功能性、潜在 功能性和非功能性。功能性和非功能性。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG5.5.几种常用的几种常用的SNPsSNPs扩增分析技术及其特点扩增分析技术及其特点5.1 5.1 限制性片段长度多态性限制性片段长度多态性(RFLP)(RFLP)技术原理是检测技术原理是检测DNADNA在限制性内切酶酶切后形成的特定在限制性内切酶酶切后形成的特定DNADNA片段的片段的大小。因此凡是可以引起酶切位点变异的突变如点突变大小。因此凡是可以引起酶切位点
44、变异的突变如点突变(新产生和去除新产生和去除酶切位点酶切位点)和一段和一段DNADNA的重新组织的重新组织(如插入和缺失造成酶切位点间的长度如插入和缺失造成酶切位点间的长度发生变化发生变化)等均可导致等均可导致RFLPRFLP的产生。的产生。酶切反应后凝胶电泳分析结果示意图酶切反应后凝胶电泳分析结果示意图Marker 1 2 3 2000bp1000bp750bp500bp250bp100bpAAAGGGRestriction siteGG:完全酶切完全酶切AG:部分酶切部分酶切AA:不能酶切不能酶切疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究
45、院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG优点:方法简单、容易操作、经费要求不高。优点:方法简单、容易操作、经费要求不高。缺点:样品纯度要求较高和用量大、过分依赖于限制性内切酶的种类缺点:样品纯度要求较高和用量大、过分依赖于限制性内切酶的种类 和数量、分析步骤繁琐、工作量大、分型容易出错、通量较小。和数量、分析步骤繁琐、工作量大、分型容易出错、通量较小。5.2 TaqMan探针探针荧光定量荧光定量PCR 技术原理:探针只与模板特异性地结合,其结合位点在两条引物之间。技术原理:探针只与模板特异性地结合,其结合位点在两条引物之间。探针的探针的5端标记有报告基团端标记有报告基
46、团(Reporter,R)如如FAM、VIC等,等,3端标记有荧光端标记有荧光淬灭基团淬灭基团(Quencher,Q)如如TAMRA等。当探针完整的时候,报告基团所发射等。当探针完整的时候,报告基团所发射的荧光能量被淬灭基团吸收,仪器检测不到信号。随着的荧光能量被淬灭基团吸收,仪器检测不到信号。随着PCR的进行,的进行,Taq酶酶在链延伸过程中遇到与模板结合的探针,其在链延伸过程中遇到与模板结合的探针,其53外切核酸酶活性就会将探外切核酸酶活性就会将探针切断,报告基团远离淬灭基团,其能量不能被吸收,即产生荧光信号。针切断,报告基团远离淬灭基团,其能量不能被吸收,即产生荧光信号。在探针的在探针的
47、5端使用不同的端使用不同的Report荧光基团,单一荧光基团,单一PCR中可以检测到多个探中可以检测到多个探针的杂交与相应荧光。只有与模板完全匹配的针的杂交与相应荧光。只有与模板完全匹配的TaqMan探针在与等位基因发探针在与等位基因发生特异性杂交后,利用生特异性杂交后,利用Taq酶的酶的5外切酶活性作用使得探针的外切酶活性作用使得探针的5Report荧光荧光能够被检测。能够被检测。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGTaqMan探针法探针法原理示意图原理示意图疾病基因研
48、究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG结果报告示意图结果报告示意图疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG优点:方法简单、容易操作、灵敏,特异性高、可在同一管内检测多重优点:方法简单、容易操作、灵敏,特异性高、可在同一管内检测多重 PCR、避免了荧光染料对、避免了荧光染料对PCR反应的影响、效率和准确性高、通量反应的影响、效率和准确性高、通量 大、分析和大、分析和P
49、CR扩增同时进行。扩增同时进行。缺点:探针设计有一定难度,需要验证效果,探针的合成和双荧光标记成缺点:探针设计有一定难度,需要验证效果,探针的合成和双荧光标记成 本高。本高。5.3 变性变性-高效液相色谱高效液相色谱(DHPLC)原理是利用离子对反向高效液相色谱原理,通过一个原理是利用离子对反向高效液相色谱原理,通过一个DNA分离柱,进行分离柱,进行核苷酸片段的分离和分析。将核苷酸片段的分离和分析。将DNA样品注入到样品注入到DNA分离柱上,在缓冲液中分离柱上,在缓冲液中的桥分子三乙基胺的桥分子三乙基胺(triethylammonium acetate,TEAA)的的辅助下而被吸附到辅助下而被
50、吸附到固相柱基质上;固相柱基质上;乙腈乙腈(acetonitrile)则可以破坏三乙基胺这一作用。随着缓冲则可以破坏三乙基胺这一作用。随着缓冲液中乙腈浓度逐渐升高液中乙腈浓度逐渐升高,DNA依次从柱上洗脱下来。在合适的变性温度下依次从柱上洗脱下来。在合适的变性温度下,有突变有突变的异源双链要比相应的同源双链柱保留时间短而被先的异源双链要比相应的同源双链柱保留时间短而被先洗脱下来洗脱下来;不同;不同序列的序列的DNA同源双链的柱保留时间也有差异。因此,带有突变序列的样品同源双链的柱保留时间也有差异。因此,带有突变序列的样品呈现出异源和同源双链混合物的峰型特点,而不含突变序列的样品则只有同呈现出异