1、疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG基因多态性数据库基因多态性数据库与运用与运用疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG一一、人类表型的多样性、人类表型的多样性疾病基因研究室疾病基因研究室/药物基
2、因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG遗传背景一致性和部分表型的差异遗传背景一致性和部分表型的差异疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院
3、重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG二二、导致人类表型的多样性的原因、导致人类表型的多样性的原因1.生存环境因素的影响生存环境因素的影响 自然条件自然条件 文化背景文化背景 生活与饮食习惯生活与饮食习惯 社会体制社会体制 2.自身遗传物质的作用自身遗传物质的作用 基因的功能和调节基因的功能和调节 非编码非编码DNADNA序列的影响序列的影响 表观遗传的作用表观遗传的作用 上位抑制的影响上位抑制的影响 多态性位点的存在多态性位点的存在 疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院
4、秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG血血缘缘关关系系与与患患病病风风险险示示意意图图疾病基因研究室疾病基因研究室/药物基因组研究中
5、心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG两个重要的容易混淆的概念两个重要的容易混淆的概念1.1.易感性易感性(Susceptibility)(Susceptibility)一个个体仅在遗传因素的作用下罹患某种疾病的风险。一个个体仅在遗传因素的作用下罹患某种疾病的风险。2.2.易患性易患性(Liability)(Liability)一个个体在遗传因素和环境因素的共同作用下罹患某种一个个体在遗传因素和环境因素的共同作用下罹患某种 疾病的风险。疾病的风险。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命
6、科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG常用的遗传学研究资源和数据库常用的遗传学研究资源和数据库1 Genetic Association Database:An archive of human genetic association studies of complex diseases.http:/geneticassociationdb.nih.gov/2 Schizophrenia Gene Database:An archive of genetic association studies performed on schizophr
7、enia phenotypes.http:/www.schizophreniaforum.org/res/sczgene/default.asp 3 Online Mendelian Inheritance in Man:A catalogue of human genes disorders.http:/www.ncbi.nlm.nih.gov/sites/entrez?db=OMIM&4 Human Gene Mutation Database.A catalogue of published gene responsible for human inherited disease.htt
8、p:/www.hgmd.cf.ac.疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG5 Human Genome Variation Database:A catalogue of normal human genome variation.http:/www.hgvbase.org/6 dbSNP:A catalogue of human single nucleotide polymorphisms.http:/www.ncbi.nlm.nih.gov/projects/SNP/
9、7 GeneSNPs:A database of polymorphisms in human genes that are a role in susceptibility to environmental exposure.http:/www.genome.utah.edu/genesnps/8 PharmGKB:A database of pharmacogenomics research.http:/www.pharmgkb.org/index.jsp 9 GeneCards:A database of human genes that includes genomic,proteom
10、ic transcriptomic information,as well as orthologies,disease relationships,gene expression and gene function.http:/www.genecards.org/疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG常用的候选基因分析软件和工具常用的候选基因分析软件和工具GeneSeeker http:/www.cmbi.ru.nl/GeneSeeker/GFSST http:/gfss
11、t.nci.nih.govEndeavour http:/www.esat.kuleuven.be/endeavour POCUS http:/www.hgu.mrc.ac.uk/Users/Colin.Semple/G2D http:/www.ogic.ca/projects/g2d_2/SUSPECTS http:/www.genetics.med.ed.ac.uk/suspects/TOM http:/www-micrel.deis.unibo.it/tom/BioMercator http:/moulon.inra.fr/bioinfo/BioMercator GFINDer http
12、:/www.bioinformatics.polimi.it/GFINDer/PROSPECTR http:/www.genetics.med.ed.ac.uk/prospectr/QTL Mixer http:/qtl.pzr.uni-rostock.de/qtlmix.php CoGenT+http:/cgg.ebi.ac.uk/cogentpp.html SNPs3D http:/www.SNPs3D.org PhD-SNP http:/gpcr.biocomp.unibo.it/cgi/predictors/PhD-SNP/疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究
13、中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG1.一个基因可以具有多个不同的表达模式一个基因可以具有多个不同的表达模式2.一个蛋白质可以具几种不同的结构和功能衍生物一个蛋白质可以具几种不同的结构和功能衍生物现以脂蛋白酯酶基因现以脂蛋白酯酶基因(LPL)为例进行说明为例进行说明LPL是脂质代谢的关键酶,目前发现其具有四种剪切模式是脂质代谢的关键酶,目前发现其具有四种剪切模式4 Alternative Splicing Database(ASD)splice patterns(SP)for LPL.doc疾病基因研究室疾病基因研究室/药物基因组研
14、究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGGenetic Control of GeneExpressionin Various Tissues.N Engl J Med2009;360:1759-68.疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG三三、人类遗传物质的差异、人类遗传物质的差异-基因多态性基因多态性1.人类自身遗传物质人类自身遗传物质99.8%是完全一致的是完全一致的2.人类自身遗传物质的差
15、异大约为人类自身遗传物质的差异大约为0.2%其中:其中:在核苷酸碱基水平上约占在核苷酸碱基水平上约占0.80%比如:碱基的替换、点突变、碱基的插入或缺失、比如:碱基的替换、点突变、碱基的插入或缺失、SNPs等等 在基因组结构水平上在基因组结构水平上约占约占0.20%(包括片段的插入、缺失、倒置、移位、互换等包括片段的插入、缺失、倒置、移位、互换等)比如:比如:2-1000bp片段:微卫星、小卫星等片段:微卫星、小卫星等 1kbp-亚显微结构:拷贝数量多态性等亚显微结构:拷贝数量多态性等 显微显微-亚染色体结构:片段的非整倍体等亚染色体结构:片段的非整倍体等 整条染色体整条染色体-全基因组:染色
16、体互换或非整倍性等全基因组:染色体互换或非整倍性等 3.30亿个碱基对中亿个碱基对中95%为为非编码序列非编码序列,5%为为蛋白编码序列蛋白编码序列疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGNat Genet.2007,39(7 Suppl):S7-S15疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGSingle Nucleotide Polymorphisms(S
17、NPs)疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG微卫星微卫星(Microsatellite Markers)Variable numbers of tandem repeats(2,3,4)bases Unique primers for 400 markers Stutter due to slippage of polymerase Marker-dependent,variable stutter morphologyAlso Called-Short Tandem R
18、epeat(STR)疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGFour Color Detection with Filter Set II疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGMegaBACE Genotype疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛
19、LDGLDGFatherMotherChildtgtcatgctagattCACACAggttcgtagtcagtgtcatgctagattCACACACACACACAggttcgtagtcag疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG微卫星运用例证微卫星运用例证 1:原发性习惯性流产遗传位点的研究原发性习惯性流产遗传位点的研究疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LD
20、GLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGReproductive Sciences Vol.17 No.6 June 2010 578-584疾病基因研
21、究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG微卫星运用例证微卫星运用例证 2:亲子鉴定亲子鉴定母母子子父父疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGCopy Number Variants(CNVs)疾病基因研究室疾
22、病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG野生型野生型DNADNA片段片段DNADNA片段的缺失片段的缺失 DNADNA片段的插入片段的插入ABCABCABNACBDNADNA片段的倒置片段的倒置BACGHIGHICDNADNA片段的移位片段的移位GABHCIDNADNA片段的互换片段的互换DNA片段多态性片段多态性疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGMany varia
23、nts with small effects,a smaller number with intermediate effects and relatively few with large effects.Nat Rew Genet,2005,6(2)109-118An L-shaped or exponential distribution of variantseffect sizes has wide support.疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG88%of
24、 trait-associated SNPs(TASs)were intronic(45%)or intergenic(43%),12%located in,or occur in tight linkage disequilibrium with,protein-coding regions of genes.N Engl J Med 2010;363:166-76.PNAS,2009106(23)9362-9367疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG四四、SNPsSN
25、Ps概论概论1.定义:定义:单核苷酸多态性单核苷酸多态性(single nucleotide polymorphism,SNP,发音发音为为“snip”)snip”)是指在基因组水平上由单个核苷酸的变异所引起的是指在基因组水平上由单个核苷酸的变异所引起的DNA DNA 序列多态性。序列多态性。2.特征:特征:是最常见的一种变异,约占所有已知多态性的是最常见的一种变异,约占所有已知多态性的40%;分布广,分布广,1个个/3001000个碱基对个碱基对,总数可能总数可能2470 万万;由单个碱基的转换由单个碱基的转换(transition)或颠换或颠换(transversion)所导致;所导致;转
26、换的发生率较高,转换的发生率较高,SNP中转换型变异者约占中转换型变异者约占2/3;(可能是因为 CpG 二 核苷酸上的胞嘧啶残基最易发生突变,其中大多数是甲基化的,可自发地脱去氨基而形成胸腺 嘧啶)SNP SNP基本上表现为二等位多态性;基本上表现为二等位多态性;根据根据SNPSNP在基因中的位置,可分为基因编码区在基因中的位置,可分为基因编码区SNPs(CodingSNPs(Coding-region-region SNPs,cSNPs SNPs,cSNPs)、基因周边、基因周边SNPs(Perigenic SNPs,pSNPsSNPs(Perigenic SNPs,pSNPs)以及基因间
27、以及基因间 SNPs(Intergenic SNPs,iSNPsSNPs(Intergenic SNPs,iSNPs)等三类;等三类;疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG 位于编码区内的位于编码区内的SNP(coding SNP,cSNPSNP(coding SNP,cSNP)比较少,又可分为比较少,又可分为2 2种:种:同义同义(synonymous)cSNP(synonymous)cSNP和和非同义非同义(non-synonymous(non-synonymous)c
28、SNPcSNP,参与蛋白,参与蛋白 质编码;质编码;位于非编码区内的位于非编码区内的SNPSNP比较多,其变异率是比较多,其变异率是cSNPcSNP的的5 5倍,参与基因表倍,参与基因表 达的调控;达的调控;先形成的先形成的SNPSNP在人群中常有较高的频率,而后形成的在人群中常有较高的频率,而后形成的SNPSNP频率较低;频率较低;3.3.现有现有SNPSNP在白色、黑色和黄色人种中的分布在白色、黑色和黄色人种中的分布 频率频率20%20%,占,占7%7%;实验无法证实者,占实验无法证实者,占17%17%;在一个人种中频率在一个人种中频率20%20%,占,占76%76%;在二个人种中频率在二
29、个人种中频率20%20%,占,占53%53%;在三个人种中频率在三个人种中频率20%20%,占,占27%27%;疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDGOccurrence of SNPs in the Human Population and Their Representation in the Current CollectionNature Genetics 2001,27:234-236 疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研
30、究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG4.SNPs4.SNPs网上资源主要有网上资源主要有:NIHNIH的的dbSNPdbSNP多态性数据库多态性数据库:www.ncbi.nlm.nih.gov:www.ncbi.nlm.nih.gov/SNP/SNP 德国的德国的HGBASHGBAS网站的人类网站的人类SNPSNP数据库数据库:hgbas.cgr.ki.sei:hgbas.cgr.ki.se
31、i 日本建立的日本建立的JSTSNPJSTSNP数据库数据库:snp.ims.utolkyo.ac.jp:snp.ims.utolkyo.ac.jp NIHNIH的与癌症和肿瘤相关的候选的与癌症和肿瘤相关的候选SNPSNP数据库数据库:cgap.nci.nih.gov:cgap.nci.nih.gov/GAI/GAIFastSNP Search:fastsnp.ibms.sinica.edu.twFastSNP Search:fastsnp.ibms.sinica.edu.twPerlegen Browser:Perlegen Browser: UCSC Genome Bioinformati
32、cs Site:genome.ucsc.eduUCSC Genome Bioinformatics Site:genome.ucsc.edu 美国美国UtahUtah大学大学SNPSNP数据库:数据库:www.genome.utah.eduwww.genome.utah.edu美国波士顿儿童医院美国波士顿儿童医院SNPSNP数据库:数据库:snpper.chip.orgsnpper.chip.orgSNPSNP联盟数据库:联盟数据库:www.cshl.orgwww.cshl.org英国英国SangerSanger研究所:研究所:www.sanger.ac.ukwww.sanger.ac.ukH
33、apMap Homepage:www.hapmap.orgHapMap Homepage:www.hapmap.orgEnsemblEnsembl Genome databases and tools:www.ensembl.org Genome databases and tools:www.ensembl.org疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG5.NIH5.NIH的的dbSNPdbSNP多态性数据库多态性数据库:www.ncbi.nlm.nih.gov:www.n
34、cbi.nlm.nih.gov/SNP/SNP dbSNP dbSNP的挑选方式和不足:的挑选方式和不足:60%60%的的“候选候选”SNPsSNPs是通过统计学方法预测出来的即通过比较重叠是通过统计学方法预测出来的即通过比较重叠 克隆中的克隆中的DNADNA序列痕迹来确定序列痕迹来确定“候选候选”SNPsSNPs。因此,大多数的。因此,大多数的dbSNPdbSNP 是频率未知的是频率未知的“候选候选”SNPsSNPs。总数量约为总数量约为24702470万个万个SNPsSNPs;三大来源三大来源:SNPSNP联盟数据库:联盟数据库:www.cshl.orgwww.cshl.org 英国英国S
35、angerSanger研究所:研究所:www.sanger.ac.ukwww.sanger.ac.uk 美国美国Washington University,St.LouisWashington University,St.Louis 设立的参照设立的参照SNP(Reference_SNPSNP(Reference_SNP)400400万万个个,采用采用rsrs+数字编号数字编号来表示;来表示;疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG可从多个路径查找可从多个路径查找SNPsSN
36、Ps:Human genome resources:Human genome resources,map view,map view,GenebankGenebank等等;等等;dbSNPdbSNP的质量的质量:已经证实的已经证实的Ref_SNPsRef_SNPs,大约有大约有400400万个万个 非人类的非人类的SNPsSNPs,大约有大约有216216万个万个 无法证实的无法证实的SNPsSNPs,大约有大约有184184万个万个 在某一群体中不是多态性的在某一群体中不是多态性的,大约有大约有152152万个万个 在某一群体中频率在某一群体中频率20%20%的的,大约有大约有126126万
37、个万个 被证实的其频率被证实的其频率20%20%的的SNPsSNPs,大约有大约有6363万个万个疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG五五、SNPsSNPs数据库构建数据库构建1.1.生物信息数据库的构建与获取生物信息数据库的构建与获取图图 1 数据库的建立:数据库的建立:采用数据库转换技术将不同格式、来源的数据转化为同一格式,从而建立单采用数据库转换技术将不同格式、来源的数据转化为同一格式,从而建立单一的大数据库。一的大数据库。Nat Rev Genet.20034(5
38、)337-345疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG图图 2 连点和节点。连点和节点。运用连点和节点方法将各自独立的资源整合起来,对于一些重要的关联信息比如同运用连点和节点方法将各自独立的资源整合起来,对于一些重要的关联信息比如同源基因,则采取特定数据库的方式储存起来。源基因,则采取特定数据库的方式储存起来。Nat Rev Genet.20034(5)337-345疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学
39、药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG图图 3 生物数据库的结构和获取生物数据库的结构和获取 绝大多数生物数据库采用三层结构模绝大多数生物数据库采用三层结构模式:式:第一层的数据管理系统第一层的数据管理系统(底层底层)第二层的中间设备,包括获取数据的第二层的中间设备,包括获取数据的软件和网络服务器软件和网络服务器(中层中层)第三层的网络浏览器第三层的网络浏览器(高层高层),即用户。,即用户。Nat Rev Genet.20034(5)337-345疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院
40、秧茂盛秧茂盛 LDGLDG2.SNP2.SNP生物信息分析生物信息分析2.1 2.1 分析的参数或指标分析的参数或指标 挑选拟进行分析的基因及其挑选拟进行分析的基因及其DNADNA序列的长度,比如序列的长度,比如55端上游端上游5000bp 5000bp+整个基因序列整个基因序列 +3+3端下游端下游5000bp,5000bp,要求包含两端的非转录区要求包含两端的非转录区(UTR)(UTR)。在上述碱基范围内,寻找获取下列的信息:在上述碱基范围内,寻找获取下列的信息:所有所有SNPSNP的信息的信息:位置、群体中的频率位置、群体中的频率 标记标记SNP(Tag_SNPSNP(Tag_SNP)的
41、情况的情况:位置、群体中的频率位置、群体中的频率 基因外显子的信息基因外显子的信息:位置、方向、大小位置、方向、大小 转录因子结合位点信息转录因子结合位点信息:名称、位置、数目名称、位置、数目 甲基化位点甲基化位点CpGCpG的信息的信息:位置、数目位置、数目 进化保守区的信息进化保守区的信息:名称、位置、数目、大小名称、位置、数目、大小 单倍型信息单倍型信息:位置、数目、大小位置、数目、大小 参与调节基因转录的序列簇信息参与调节基因转录的序列簇信息:名称、位置、数目、大小名称、位置、数目、大小 (比如增强子、沉默子和比如增强子、沉默子和microRNAsmicroRNAs结合域等结合域等)疾
42、病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG2.2 涉及的数据库或网络资源涉及的数据库或网络资源在在http:/genome.ucsc.edu/获得获得SNPSNP、CpGCpG、转录因子结合位点信息、转录因子结合位点信息在在http:/ecrbrowser.dcode.org/获得获得进化保守区的信息进化保守区的信息在在http:/www.ensembl.org/index.html获得获得基因外显子的信息基因外显子的信息在在http:/www.hapmap.org/获得获得标记
43、标记SNP(Tag_SNPSNP(Tag_SNP)、单倍型的信息、单倍型的信息在在http:/ 疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG2.3 SNP信息分析方法和结果的评判信息分析方法和结果的评判分析方法分析方法:Cygwin analysis program。该程序通过对基因序列的生物信。该程序通过对基因序列的生物信息进行综合分析,寻找可能具有各种功能的多态性位点,为遗传学、分息进行综合分析,寻找可能具有各种功能的多态性位点,为遗传学、分子生物学、进化和系统发育学的研究提
44、供参考数据或功能信息,对复杂子生物学、进化和系统发育学的研究提供参考数据或功能信息,对复杂性疾病易感基因的研究工作很有帮助。性疾病易感基因的研究工作很有帮助。运行的前提条件运行的前提条件:1.在在Perl语言环境中进行分析。语言环境中进行分析。Perl 是是 Practical Extraction and Report Language(实用摘录和报告语言实用摘录和报告语言)的简称,是一种最广泛应用于语法分析的简称,是一种最广泛应用于语法分析和和 World Wide Web 的编程语言。的编程语言。2.拟分析的参数或指标,必须进行格式调整,满足拟分析的参数或指标,必须进行格式调整,满足Cy
45、gwin analysis program的要求。的要求。3.需要事先编写好需要事先编写好2个参数分析和整合程序。个参数分析和整合程序。3.1 运行运行cross_ref_SCORED.pl可以得到重叠区域生物信息学文件可以得到重叠区域生物信息学文件3.2 运行运行merge_per_hap.pl可以得到整合了单倍型信息后的文件可以得到整合了单倍型信息后的文件4.将基因外显子信息加入其中,进行重新排列后,获得最终的生物学信将基因外显子信息加入其中,进行重新排列后,获得最终的生物学信息分析结果。息分析结果。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学
46、研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG生物信息学分析结果例证生物信息学分析结果例证 中国汉族群体中国汉族群体LPL基因基因SNP生物学信息生物学信息ECR:Evolutionary Conserved Regions;Tag:标记标记;转录因子转录因子:MYCMAX,NMY;Cluster:调节基因转录的序列簇调节基因转录的序列簇;CpG:甲基化甲基化位点位点3 splice junction:外显子外显子3端剪切位点端剪切位点;MAF:弱势等位基因频率弱势等位基因频率疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究
47、院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG六六、SNPSNP实验分析技术实验分析技术1.1.基于基于PCRPCR技术与其它方法相结合的检测方法技术与其它方法相结合的检测方法(获得较普遍的应用获得较普遍的应用)1.1 1.1 通量相对较小者通量相对较小者:测序、限制性片段长度多态性测序、限制性片段长度多态性(restriction fragment length(restriction fragment length polymorphism,RFLP)polymorphism,RFLP)、单链构象多态性、单链构象多态性(single-strand(single-stra
48、nd conformation polymorphism,SSCP)conformation polymorphism,SSCP)、温度梯度凝胶电泳、温度梯度凝胶电泳(TGGE)(TGGE)、变性梯度凝胶电泳、变性梯度凝胶电泳(DGGE)(DGGE)、随机扩增多态性、随机扩增多态性DNA(RAPD)DNA(RAPD)、连接酶、连接酶检测反应法检测反应法(ligase(ligase detection reaction,LDR)detection reaction,LDR)。1.2 1.2 通量相对较大者通量相对较大者:变性变性-高效液相色谱高效液相色谱(DHPLC)(DHPLC)、Pyrose
49、quencingPyrosequencing、EcotillingEcotilling、基、基 因芯片因芯片/阵列分析技术阵列分析技术(gene chips)(gene chips)、微球法、微球法(Illumina(Illumina)、质谱分、质谱分析、高分辨溶解曲线分析析、高分辨溶解曲线分析(High Resolution Melting,HRM)(High Resolution Melting,HRM)。疾病基因研究室疾病基因研究室/药物基因组研究中心药物基因组研究中心/生命科学研究院生命科学研究院重庆医科大学药学院重庆医科大学药学院 秧茂盛秧茂盛 LDGLDG2.2.以分子杂交技术为基
50、础的检测方法以分子杂交技术为基础的检测方法(没有获得较普遍的应用没有获得较普遍的应用)寡核苷酸连接分析寡核苷酸连接分析(OLA)(OLA)、动态等位基因特异性杂交、动态等位基因特异性杂交(DASH)(DASH)、等、等 位基因特异寡核苷酸片段分析位基因特异寡核苷酸片段分析(ASO)(ASO)和突变错配扩增检验和突变错配扩增检验(MAMA)(MAMA)。3.3.以荧光定量以荧光定量PCRPCR为基础检测方法为基础检测方法(获得较普遍的应用获得较普遍的应用)TaqManTaqMan探针法、探针法、SNPlexSNPlex基因分型法、分子信标基因分型法、分子信标(Molecular beacon)(