1、疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG基因多态性数据库基因多态性数据库与运用与运用建议和意见请发送到:建议和意见请发送到: 疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG一一、人类表型的多样性、人类表型的多样性疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病
2、基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG遗传背景一致性和部分表型的差异遗传背景一致性和部分表型的差异疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG二二、导致人类表型的多样性的原因、导致人类表型的多样性的原因1.生存环境因素的影响生存环境因素的影响 自然条件自然条件 文化背景文化背景 生活与饮食习惯生活与饮食习惯 社会体制社会体制 2.自身遗传物质的作用自身遗传物质的作用 基因的功能和调节基因的功能和调节 非编码非编码DNADNA序列的影响序列的影响 表观遗传的作用表观遗传的作用 上位抑制的影响上位
3、抑制的影响 多态性位点的存在多态性位点的存在 疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG血血缘缘关关系系与与患患病病风风险险示示意意图图疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG两个重要的容易混淆的概念两个重要的容
4、易混淆的概念1.1.易感性易感性(Susceptibility)(Susceptibility)一个个体仅在遗传因素的作用下罹患某种疾病的风险。一个个体仅在遗传因素的作用下罹患某种疾病的风险。2.2.易患性易患性(Liability)(Liability)一个个体在遗传因素和环境因素的共同作用下罹患某种一个个体在遗传因素和环境因素的共同作用下罹患某种 疾病的风险。疾病的风险。疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG常用的遗传学研究资源和数据库常用的遗传学研究资源和数据库1 Genetic Association Database:An ar
5、chive of human genetic association studies of complex diseases.http:/geneticassociationdb.nih.gov/2 Schizophrenia Gene Database:An archive of genetic association studies performed on schizophrenia phenotypes.http:/www.schizophreniaforum.org/res/sczgene/default.asp 3 Online Mendelian Inheritance in M
6、an:A catalogue of human genes disorders.http:/www.ncbi.nlm.nih.gov/sites/entrez?db=OMIM&4 Human Gene Mutation Database.A catalogue of published gene responsible for human inherited disease.http:/www.hgmd.cf.ac.疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG5 Human Genome Variation Database:A catalog
7、ue of normal human genome variation.http:/www.hgvbase.org/6 dbSNP:A catalogue of human single nucleotide polymorphisms.http:/www.ncbi.nlm.nih.gov/projects/SNP/7 GeneSNPs:A database of polymorphisms in human genes that are a role in susceptibility to environmental exposure.http:/www.genome.utah.edu/g
8、enesnps/8 PharmGKB:A database of pharmacogenomics research.http:/www.pharmgkb.org/index.jsp 9 GeneCards:A database of human genes that includes genomic,proteomic transcriptomic information,as well as orthologies,disease relationships,gene expression and gene function.http:/www.genecards.org/疾病基因研究室疾
9、病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG常用的候选基因分析软件和工具常用的候选基因分析软件和工具GeneSeeker http:/www.cmbi.ru.nl/GeneSeeker/GFSST http:/gfsst.nci.nih.govEndeavour http:/www.esat.kuleuven.be/endeavour POCUS http:/www.hgu.mrc.ac.uk/Users/Colin.Semple/G2D http:/www.ogic.ca/projects/g2d_2/SUSPECTS http:/www.genetics.
10、med.ed.ac.uk/suspects/TOM http:/www-micrel.deis.unibo.it/tom/BioMercator http:/moulon.inra.fr/bioinfo/BioMercator GFINDer http:/www.bioinformatics.polimi.it/GFINDer/PROSPECTR http:/www.genetics.med.ed.ac.uk/prospectr/QTL Mixer http:/qtl.pzr.uni-rostock.de/qtlmix.php CoGenT+http:/cgg.ebi.ac.uk/cogent
11、pp.html SNPs3D http:/www.SNPs3D.org PhD-SNP http:/gpcr.biocomp.unibo.it/cgi/predictors/PhD-SNP/疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG1.一个基因可以具有多个不同的表达模式一个基因可以具有多个不同的表达模式2.一个蛋白质可以具几种不同的结构和功能衍生物一个蛋白质可以具几种不同的结构和功能衍生物现以脂蛋白酯酶基因现以脂蛋白酯酶基因(LPL)为例进行说明为例进行说明LPL是脂质代谢的关键酶,目前发现其具有四种剪切模式是脂质代谢的关键酶,目前发现其具有
12、四种剪切模式4 Alternative Splicing Database(ASD)splice patterns(SP)for LPL.doc疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGGenetic Control of GeneExpressionin Various Tissues.N Engl J Med2009;360:1759-68.疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG三三、人类遗传物质的差异、人类遗传物质的差异-基因多态性基因多态性1.人类自身遗传物质人类自身遗传物质99
13、.8%是完全一致的是完全一致的2.人类自身遗传物质的差异大约为人类自身遗传物质的差异大约为0.2%其中:其中:在核苷酸碱基水平上约占在核苷酸碱基水平上约占0.80%比如:碱基的替换、点突变、碱基的插入或缺失、比如:碱基的替换、点突变、碱基的插入或缺失、SNPs等等 在基因组结构水平上在基因组结构水平上约占约占0.20%(包括片段的插入、缺失、倒置、移位、互换等包括片段的插入、缺失、倒置、移位、互换等)比如:比如:2-1000bp片段:微卫星、小卫星等片段:微卫星、小卫星等 1kbp-亚显微结构:拷贝数量多态性等亚显微结构:拷贝数量多态性等 显微显微-亚染色体结构:片段的非整倍体等亚染色体结构:
14、片段的非整倍体等 整条染色体整条染色体-全基因组:染色体互换或非整倍性等全基因组:染色体互换或非整倍性等 3.30亿个碱基对中亿个碱基对中95%为为非编码序列非编码序列,5%为为蛋白编码序列蛋白编码序列疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGNat Genet.2007,39(7 Suppl):S7-S15疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGSingle Nucleotide Polymorphisms(SNPs)疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧
15、茂盛秧茂盛 LDGLDG微卫星微卫星(Microsatellite Markers)Variable numbers of tandem repeats(2,3,4)bases Unique primers for 400 markers Stutter due to slippage of polymerase Marker-dependent,variable stutter morphologyAlso Called-Short Tandem Repeat(STR)疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGFour Color Dete
16、ction with Filter Set II疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGMegaBACE Genotype疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGFatherMotherChildtgtcatgctagattCACACAggttcgtagtcagtgtcatgctagattCACACACACACACAggttcgtagtcag疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG微卫星运用例证微卫星运用例证 1:原发性习惯性流产遗传
17、位点的研究原发性习惯性流产遗传位点的研究疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGReproductive Sciences Vol.17 No.6 June 2010 578-584疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛
18、LDGLDG微卫星运用例证微卫星运用例证 2:亲子鉴定亲子鉴定母母子子父父疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGCopy Number Variants(CNVs)疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG野生型野生型DNADNA片段片段DNADNA片段的缺失片段的缺失 DNADNA片段的插入片段的插入ABCABCABNACBDNADNA片段的倒置片段的倒置BACGHIGHICDNADNA片段的
19、移位片段的移位GABHCIDNADNA片段的互换片段的互换DNA片段多态性片段多态性疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGMany variants with small effects,a smaller number with intermediate effects and relatively few with large effects.Nat Rew Genet,2005,6(2)109-118An L-shaped or exponential distribution of variantseffect sizes has
20、 wide support.疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG88%of trait-associated SNPs(TASs)were intronic(45%)or intergenic(43%),12%located in,or occur in tight linkage disequilibrium with,protein-coding regions of genes.N Engl J Med 2010;363:166-76.PNAS,2009106(23)9362-9367疾病基因研究室疾病基因研究室 重庆医科大学药学
21、院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG四四、SNPsSNPs概论概论1.定义:定义:单核苷酸多态性单核苷酸多态性(single nucleotide polymorphism,SNP,发音发音为为“snip”)snip”)是指在基因组水平上由单个核苷酸的变异所引起的是指在基因组水平上由单个核苷酸的变异所引起的DNA DNA 序列多态性。序列多态性。2.特征:特征:是最常见的一种变异,约占所有已知多态性的是最常见的一种变异,约占所有已知多态性的40%;分布广,分布广,1个个/3001000个碱基对个碱基对,总数可能总数可能2470 万万;由单个碱基的转换由单个碱基的转换(transit
22、ion)或颠换或颠换(transversion)所导致;所导致;转换的发生率较高,转换的发生率较高,SNP中转换型变异者约占中转换型变异者约占2/3;(可能是因为 CpG 二 核苷酸上的胞嘧啶残基最易发生突变,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺 嘧啶)SNP SNP基本上表现为二等位多态性;基本上表现为二等位多态性;根据根据SNPSNP在基因中的位置,可分为基因编码区在基因中的位置,可分为基因编码区SNPs(CodingSNPs(Coding-region-region SNPs,cSNPs SNPs,cSNPs)、基因周边、基因周边SNPs(Perigenic SNPs,pSN
23、PsSNPs(Perigenic SNPs,pSNPs)以及基因间以及基因间 SNPs(Intergenic SNPs,iSNPsSNPs(Intergenic SNPs,iSNPs)等三类;等三类;疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG 位于编码区内的位于编码区内的SNP(coding SNP,cSNPSNP(coding SNP,cSNP)比较少,又可分为比较少,又可分为2 2种:种:同义同义(synonymous)cSNP(synonymous)cSNP和和非同义非同义(non-synonymous(non-synonymous)c
24、SNPcSNP,参与蛋白,参与蛋白 质编码;质编码;位于非编码区内的位于非编码区内的SNPSNP比较多,其变异率是比较多,其变异率是cSNPcSNP的的5 5倍,参与基因表倍,参与基因表 达的调控;达的调控;先形成的先形成的SNPSNP在人群中常有较高的频率,而后形成的在人群中常有较高的频率,而后形成的SNPSNP频率较低;频率较低;3.3.现有现有SNPSNP在白色、黑色和黄色人种中的分布在白色、黑色和黄色人种中的分布 频率频率20%20%,占,占7%7%;实验无法证实者,占实验无法证实者,占17%17%;在一个人种中频率在一个人种中频率20%20%,占,占76%76%;在二个人种中频率在二
25、个人种中频率20%20%,占,占53%53%;在三个人种中频率在三个人种中频率20%20%,占,占27%27%;疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGOccurrence of SNPs in the Human Population and Their Representation in the Current CollectionNature Genetics 2001,27:234-236 疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室 重庆医科大学药学院重
26、庆医科大学药学院 秧茂盛秧茂盛 LDGLDG4.SNPs4.SNPs网上资源主要有网上资源主要有:NIHNIH的的dbSNPdbSNP多态性数据库多态性数据库:www.ncbi.nlm.nih.gov:www.ncbi.nlm.nih.gov/SNP/SNP 德国的德国的HGBASHGBAS网站的人类网站的人类SNPSNP数据库数据库:hgbas.cgr.ki.sei:hgbas.cgr.ki.sei 日本建立的日本建立的JSTSNPJSTSNP数据库数据库:snp.ims.utolkyo.ac.jp:snp.ims.utolkyo.ac.jp NIHNIH的与癌症和肿瘤相关的候选的与癌症和肿
27、瘤相关的候选SNPSNP数据库数据库:cgap.nci.nih.gov:cgap.nci.nih.gov/GAI/GAIFastSNP Search:fastsnp.ibms.sinica.edu.twFastSNP Search:fastsnp.ibms.sinica.edu.twPerlegen Browser:Perlegen Browser: UCSC Genome Bioinformatics Site:genome.ucsc.eduUCSC Genome Bioinformatics Site:genome.ucsc.edu 美国美国UtahUtah大学大学SNPSNP数据库:数据
28、库:www.genome.utah.eduwww.genome.utah.edu美国波士顿儿童医院美国波士顿儿童医院SNPSNP数据库:数据库:snpper.chip.orgsnpper.chip.orgSNPSNP联盟数据库:联盟数据库:www.cshl.orgwww.cshl.org英国英国SangerSanger研究所:研究所:www.sanger.ac.ukwww.sanger.ac.ukHapMap Homepage:www.hapmap.orgHapMap Homepage:www.hapmap.orgEnsemblEnsembl Genome databases and tool
29、s:www.ensembl.org Genome databases and tools:www.ensembl.org疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG5.NIH5.NIH的的dbSNPdbSNP多态性数据库多态性数据库:www.ncbi.nlm.nih.gov:www.ncbi.nlm.nih.gov/SNP/SNP dbSNP dbSNP的挑选方式和不足:的挑选方式和不足:60%60%的的“候选候选”SNPsSNPs是通过统计学方法预测出来的即通过比较重叠是通过统计学方法预测出来的即通过比较重叠 克隆中的克隆中的DNADNA序列
30、痕迹来确定序列痕迹来确定“候选候选”SNPsSNPs。因此,大多数的。因此,大多数的dbSNPdbSNP 是频率未知的是频率未知的“候选候选”SNPsSNPs。总数量约为总数量约为24702470万个万个SNPsSNPs;三大来源三大来源:SNPSNP联盟数据库:联盟数据库:www.cshl.orgwww.cshl.org 英国英国SangerSanger研究所:研究所:www.sanger.ac.ukwww.sanger.ac.uk 美国美国Washington University,St.LouisWashington University,St.Louis 设立的参照设立的参照SNP(R
31、eference_SNPSNP(Reference_SNP)400400万万个个,采用采用rsrs+数字编号数字编号来表示;来表示;疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG可从多个路径查找可从多个路径查找SNPsSNPs:Human genome resources:Human genome resources,map view,map view,GenebankGenebank等等;等等;dbSNPdbSNP的质量的质量:已经证实的已经证实的Ref_SNPsRef_SNPs,大约有大约有400400万个万个 非人类的非人类的SNPsSNP
32、s,大约有大约有216216万个万个 无法证实的无法证实的SNPsSNPs,大约有大约有184184万个万个 在某一群体中不是多态性的在某一群体中不是多态性的,大约有大约有152152万个万个 在某一群体中频率在某一群体中频率20%20%的的,大约有大约有126126万个万个 被证实的其频率被证实的其频率20%20%的的SNPsSNPs,大约有大约有6363万个万个疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG五五、SNPsSNPs数据库构建数据库构建1.1.生物信息数据库的构建与获取生物信息数据库的构建与获取图图 1 数据库的建立:数据库的建立
33、:采用数据库转换技术将不同格式、来源的数据转化为同一格式,从而建立单采用数据库转换技术将不同格式、来源的数据转化为同一格式,从而建立单一的大数据库。一的大数据库。Nat Rev Genet.20034(5)337-345疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG图图 2 连点和节点。连点和节点。运用连点和节点方法将各自独立的资源整合起来,对于一些重要的关联信息比如同运用连点和节点方法将各自独立的资源整合起来,对于一些重要的关联信息比如同源基因,则采取特定数据库的方式储存起来。源基因,则采取特定数据库的方式储存起来。Nat Rev Genet.
34、20034(5)337-345疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG图图 3 生物数据库的结构和获取生物数据库的结构和获取 绝大多数生物数据库采用三层结构模绝大多数生物数据库采用三层结构模式:式:第一层的数据管理系统第一层的数据管理系统(底层底层)第二层的中间设备,包括获取数据的第二层的中间设备,包括获取数据的软件和网络服务器软件和网络服务器(中层中层)第三层的网络浏览器第三层的网络浏览器(高层高层),即用户。,即用户。Nat Rev Genet.20034(5)337-345疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药
35、学院 秧茂盛秧茂盛 LDGLDG2.SNP2.SNP生物信息分析生物信息分析2.1 2.1 分析的参数或指标分析的参数或指标 挑选拟进行分析的基因及其挑选拟进行分析的基因及其DNADNA序列的长度,比如序列的长度,比如55端上游端上游5000bp 5000bp+整个基因序列整个基因序列 +3+3端下游端下游5000bp,5000bp,要求包含两端的非转录区要求包含两端的非转录区(UTR)(UTR)。在上述碱基范围内,寻找获取下列的信息:在上述碱基范围内,寻找获取下列的信息:所有所有SNPSNP的信息的信息:位置、群体中的频率位置、群体中的频率 标记标记SNP(Tag_SNPSNP(Tag_SN
36、P)的情况的情况:位置、群体中的频率位置、群体中的频率 基因外显子的信息基因外显子的信息:位置、方向、大小位置、方向、大小 转录因子结合位点信息转录因子结合位点信息:名称、位置、数目名称、位置、数目 甲基化位点甲基化位点CpGCpG的信息的信息:位置、数目位置、数目 进化保守区的信息进化保守区的信息:名称、位置、数目、大小名称、位置、数目、大小 单倍型信息单倍型信息:位置、数目、大小位置、数目、大小 参与调节基因转录的序列簇信息参与调节基因转录的序列簇信息:名称、位置、数目、大小名称、位置、数目、大小 (比如增强子、沉默子和比如增强子、沉默子和microRNAsmicroRNAs结合域等结合域
37、等)疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG2.2 涉及的数据库或网络资源涉及的数据库或网络资源在在http:/genome.ucsc.edu/获得获得SNPSNP、CpGCpG、转录因子结合位点信息、转录因子结合位点信息在在http:/ecrbrowser.dcode.org/获得获得进化保守区的信息进化保守区的信息在在http:/www.ensembl.org/index.html获得获得基因外显子的信息基因外显子的信息在在http:/www.hapmap.org/获得获得标记标记SNP(Tag_SNPSNP(Tag_SNP)、单倍型的
38、信息、单倍型的信息在在http:/ 疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG2.3 SNP信息分析方法和结果的评判信息分析方法和结果的评判分析方法分析方法:Cygwin analysis program。该程序通过对基因序列的生物信。该程序通过对基因序列的生物信息进行综合分析,寻找可能具有各种功能的多态性位点,为遗传学、分息进行综合分析,寻找可能具有各种功能的多态性位点,为遗传学、分子生物学、进化和系统发育学的研究提供参考数据或功能信息,对复杂子生物学、进化和系统发育学的研究提供参考数据或功能信息,对复杂性疾病易感基因的研究工作很有帮助。性
39、疾病易感基因的研究工作很有帮助。运行的前提条件运行的前提条件:1.在在Perl语言环境中进行分析。语言环境中进行分析。Perl 是是 Practical Extraction and Report Language(实用摘录和报告语言实用摘录和报告语言)的简称,是一种最广泛应用于语法分析的简称,是一种最广泛应用于语法分析和和 World Wide Web 的编程语言。的编程语言。2.拟分析的参数或指标,必须进行格式调整,满足拟分析的参数或指标,必须进行格式调整,满足Cygwin analysis program的要求。的要求。3.需要事先编写好需要事先编写好2个参数分析和整合程序。个参数分析和
40、整合程序。3.1 运行运行cross_ref_SCORED.pl可以得到重叠区域生物信息学文件可以得到重叠区域生物信息学文件3.2 运行运行merge_per_hap.pl可以得到整合了单倍型信息后的文件可以得到整合了单倍型信息后的文件4.将基因外显子信息加入其中,进行重新排列后,获得最终的生物学信将基因外显子信息加入其中,进行重新排列后,获得最终的生物学信息分析结果。息分析结果。疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG生物信息学分析结果例证生物信息学分析结果例证 中国汉族群体中国汉族群体LPL基因基因SNP生物学信息生物学信息ECR:Ev
41、olutionary Conserved Regions;Tag:标记标记;转录因子转录因子:MYCMAX,NMY;Cluster:调节基因转录的序列簇调节基因转录的序列簇;CpG:甲基化甲基化位点位点3 splice junction:外显子外显子3端剪切位点端剪切位点;MAF:弱势等位基因频率弱势等位基因频率疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG六六、SNPSNP实验分析技术实验分析技术1.1.基于基于PCRPCR技术与其它方法相结合的检测方法技术与其它方法相结合的检测方法(获得较普遍的应用获得较普遍的应用)1.1 1.1 通量相对较
42、小者通量相对较小者:测序、限制性片段长度多态性测序、限制性片段长度多态性(restriction fragment length(restriction fragment length polymorphism,RFLP)polymorphism,RFLP)、单链构象多态性、单链构象多态性(single-strand(single-strand conformation polymorphism,SSCP)conformation polymorphism,SSCP)、温度梯度凝胶电泳、温度梯度凝胶电泳(TGGE)(TGGE)、变性梯度凝胶电泳、变性梯度凝胶电泳(DGGE)(DGGE)、随机扩
43、增多态性、随机扩增多态性DNA(RAPD)DNA(RAPD)、连接酶、连接酶检测反应法检测反应法(ligase(ligase detection reaction,LDR)detection reaction,LDR)。1.2 1.2 通量相对较大者通量相对较大者:变性变性-高效液相色谱高效液相色谱(DHPLC)(DHPLC)、PyrosequencingPyrosequencing、EcotillingEcotilling、基、基 因芯片因芯片/阵列分析技术阵列分析技术(gene chips)(gene chips)、微球法、微球法(Illumina(Illumina)、质谱分、质谱分析、高
44、分辨溶解曲线分析析、高分辨溶解曲线分析(High Resolution Melting,HRM)(High Resolution Melting,HRM)。疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG2.2.以分子杂交技术为基础的检测方法以分子杂交技术为基础的检测方法(没有获得较普遍的应用没有获得较普遍的应用)寡核苷酸连接分析寡核苷酸连接分析(OLA)(OLA)、动态等位基因特异性杂交、动态等位基因特异性杂交(DASH)(DASH)、等、等 位基因特异寡核苷酸片段分析位基因特异寡核苷酸片段分析(ASO)(ASO)和突变错配扩增检验和突变错配扩增
45、检验(MAMA)(MAMA)。3.3.以荧光定量以荧光定量PCRPCR为基础检测方法为基础检测方法(获得较普遍的应用获得较普遍的应用)TaqManTaqMan探针法、探针法、SNPlexSNPlex基因分型法、分子信标基因分型法、分子信标(Molecular beacon)(Molecular beacon)和和FRET(HybProbeFRET(HybProbe)。4.SNPs4.SNPs的功能性研究手段的功能性研究手段 比较成熟的对启动子区域内比较成熟的对启动子区域内SNPsSNPs功能性研究的技术包括:功能性研究的技术包括:报告基因转染技术报告基因转染技术。主要用于研究启动子主要用于研究
46、启动子SNPsSNPs对于对于mRNAmRNA转录效率的转录效率的 影响,通过观察转录结局来判断影响,通过观察转录结局来判断SNPsSNPs是否具有功能。报告基因是一是否具有功能。报告基因是一 种编码可被检测的蛋白质或酶的基因,是一个其表达产物非常容易种编码可被检测的蛋白质或酶的基因,是一个其表达产物非常容易 被鉴定的基因。通过把它的编码序列和基因表达调节序列相融合形被鉴定的基因。通过把它的编码序列和基因表达调节序列相融合形疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG 成嵌合基因或与其它目的基因相融合,在调控序列控制下进行目的基因成嵌合基因或与
47、其它目的基因相融合,在调控序列控制下进行目的基因 表达。表达。作为报告基因,必须具有如下几个特征:作为报告基因,必须具有如下几个特征:(1)(1)全序列已被测定;全序列已被测定;(2)(2)表达表达 产物在受体细胞中不存在、且在受体细胞中无相似的内源性表达产物即产物在受体细胞中不存在、且在受体细胞中无相似的内源性表达产物即 无背景;无背景;(3)(3)可以对其表达产物进行定量测定。可以对其表达产物进行定量测定。凝胶迁移滞后实验凝胶迁移滞后实验 (electrophoretic(electrophoretic mobility shift assays,mobility shift assays
48、,EMSA)EMSA)。基本原理是蛋白质可以与末端标记的核酸探针结合,电泳。基本原理是蛋白质可以与末端标记的核酸探针结合,电泳 时这种复合物比无蛋白结合的探针在凝胶中泳动的速度慢,即表现时这种复合物比无蛋白结合的探针在凝胶中泳动的速度慢,即表现 为相对滞后。该方法可用于检测为相对滞后。该方法可用于检测DNADNA结合蛋白、结合蛋白、RNARNA结合蛋白,并可结合蛋白,并可 通过加入特异性的抗体(通过加入特异性的抗体(supershiftsupershift)来检测特定的蛋白质,并可)来检测特定的蛋白质,并可 进行未知蛋白的鉴定。但是由于许多转录调控蛋白有相似或相同的进行未知蛋白的鉴定。但是由于
49、许多转录调控蛋白有相似或相同的 DNADNA结合位点,这种体外分析获取的结果不一定能真实地反映体内转结合位点,这种体外分析获取的结果不一定能真实地反映体内转 录调控蛋白和录调控蛋白和DNADNA结合的状况。结合的状况。疾病基因研究室疾病基因研究室 重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG凝胶迁移滞后实验的凝胶迁移滞后实验的原理示意图原理示意图放射性标记的放射性标记的DNA因因与蛋白质与蛋白质B结合,顾结合,顾而在凝胶电泳中移动而在凝胶电泳中移动速度变慢,在放射自速度变慢,在放射自显影中呈现滞后的条显影中呈现滞后的条带。带。疾病基因研究室疾病基因研究室 重庆医科大学药学院
50、重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG 染色质免疫沉淀分析染色质免疫沉淀分析(chromatin immunoprecipitation(chromatin immunoprecipitation assay,assay,ChiP ChiP)。基本原理是在活细胞状态下固定蛋白质。基本原理是在活细胞状态下固定蛋白质DNADNA复合物,并将复合物,并将 其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方其随机切断为一定长度范围内的染色质小片段,然后通过免疫学方 法沉淀此复合体,特异性地富集目的蛋白结合的法沉淀此复合体,特异性地富集目的蛋白结合的DNADNA片段,通过对目片段,通过对