1、1 第二章第二章基因与基因组基因与基因组Gene and Genome .2第一节第一节 基因的概念与结构基因的概念与结构一、一、基因的概念基因的概念 (一)基因概念的发展(一)基因概念的发展.3(二)基因的概念(二)基因的概念 侧翼序列:侧翼序列:含有调控序列含有调控序列 是编码是编码RNARNA或一条多肽或一条多肽链的链的DNADNA片段,包括:片段,包括:编码序列:编码序列:外显子外显子(exon)插入序列:插入序列:内含子内含子(intron).41.原核生物的结构基因是原核生物的结构基因是 连续的连续的(一)(一)结构基因结构基因 基因中编码基因中编码RNARNA或蛋白质或蛋白质的的
2、DNA序列。序列。二、二、基因的结构基因的结构.5 真核生物结构基因真核生物结构基因DNAmRNA前体前体编码序列不连续编码序列不连续,称为称为断裂基因断裂基因(interrupted gene)RNA剪接剪接2.2.由由外显子外显子(编码序列(编码序列)和和内含内含子子(非编码序列(非编码序列)两部分组成,两部分组成,intron exon 成熟成熟mRNA.6 5 5 33exon3exon1exon2GT AG GT AG真核基因中真核基因中RNA剪接的识别信号剪接的识别信号内含子的内含子的 5端以端以GTGT开始,开始,3端以端以AGAG结束。结束。GT-AGGT-AG法则法则intr
3、on2intron13.3.7 5 3exon3exon2exon1 intron1intron2(二二)转录调控序列转录调控序列 前导序列前导序列尾部序列尾部序列编码区编码区侧翼序列侧翼序列侧翼序列侧翼序列 结构基因编码区两侧的一段不被翻译结构基因编码区两侧的一段不被翻译的的DNADNA片段片段(侧翼序列侧翼序列),参与转录调控。参与转录调控。.8tayz opstructural gene1.1.原核生物基因的调控序列原核生物基因的调控序列promoter启动子启动子 promoterterminator终止子终止子 terminatoroperator操纵元件操纵元件 operator.
4、92.2.真核生物基因的调控序列真核生物基因的调控序列反式作用因子反式作用因子trans-acting factor能识别和结合特定的顺能识别和结合特定的顺式作用元件式作用元件,并影响基因并影响基因转录的一类转录的一类蛋白质蛋白质或或RNARNA顺式作用元件顺式作用元件cis-acting element能能影响基因表达,影响基因表达,但不编码但不编码RNARNA和蛋和蛋白质的白质的DNADNA序列序列TATAAAATATTT 533 5 顺式作用元件顺式作用元件.10 TATA盒盒(TATA Box):位于位于-25-25-30-30bpbp,TATAAAA/TATATAT 与与TFII结合
5、,启动基因转录。结合,启动基因转录。(1)(1)启动子和上游启动子元件启动子和上游启动子元件-25-25+1+1-30-30(II类类).11-30-30-25-25+1+1-80-80-70-70 CAAT盒(盒(CAAT BoxCAAT Box)位于位于-70-80bp,GG C/T CAATCT,与与CTF结合,决定启动子转录效率。结合,决定启动子转录效率。.12 GC GC盒(盒(GC BoxGC Box)位于位于-35bp,GGCGG,与转录因,与转录因子子SP1SP1结合,促进转录的过程。结合,促进转录的过程。35-35-35+1+1 .13(2).(2).增强子(增强子(enha
6、ncerenhancer)CAAT box 与转录因子特异性结合,增强与转录因子特异性结合,增强转录活性,在基因任意位置都有效、转录活性,在基因任意位置都有效、无方向性。无方向性。TATA box enhancer promoter 5 3 exon intron .145-AATAAA-GT-3 DNA mRNA 前体前体5-AAUAAA-GU-35-AAUAAA-AAAAAAAA 3多聚腺苷酸化多聚腺苷酸化mRNA(3).Poly(A)加尾信号加尾信号Poly(A)聚合酶聚合酶5-AAUAAA-GU-3特异因子特异因子 含有含有IIII类启动子的基因,基因末端保类启动子的基因,基因末端保守
7、的守的AATAAA顺序及下游顺序及下游GT或或T富含区富含区,被多聚腺苷酸化特异因子识别,在被多聚腺苷酸化特异因子识别,在mRNA 3端加约端加约200200个个A。.15 CAAT boxTATA box Enhancer promoter 调控序列调控序列调控序列调控序列真核生物基因的结构真核生物基因的结构exonexon非翻译区非翻译区:untranslated regions,UTR UTRUTRPoly(A)加尾信号加尾信号5 +1Stop 3 结构基因结构基因intronintronexonTGA ATG开放阅读框开放阅读框:open reading frame,ORFrespon
8、se element.16三、中心法则三、中心法则 central dogmaReplicationReplicationReverseTranscriptionTranscriptionTranslationDNARNAProtein .17(一一)原核生物的原核生物的mRNAmRNA是多顺反子是多顺反子mRNAmRNAPromoterGene 1Gene 2Gene 3TerminatorDNATranscriptionmRNA31235TranslationProteins123 多顺反子多顺反子mRNAmRNA (polycistronic mRNA):):原核生物的一个原核生物的一个
9、mRNAmRNA分子带有几个分子带有几个 结构基因的遗传信息,利用共同的启动结构基因的遗传信息,利用共同的启动 子及终止信号,组成操纵子的基因表达子及终止信号,组成操纵子的基因表达 调控单元。调控单元。.18TranslationTranscriptionmRNADNAProteinPromoterGene35(二二)单顺反子单顺反子mRNAmRNA(monocistronic mRNA):):真核生物的一个编码基因转录真核生物的一个编码基因转录生成一个生成一个mRNAmRNA。.19基因组基因组:一个细胞或病毒的全部:一个细胞或病毒的全部 遗传信息;遗传信息;第二节第二节 基因组基因组 一套
10、完整的单倍体的遗传一套完整的单倍体的遗传物质的总合;物质的总合;含有一种生物的一整套遗含有一种生物的一整套遗 传信息的遗传物质;传信息的遗传物质;.20C值值(C-value):):单倍体基因组中的全部单倍体基因组中的全部DNADNA量量(bpbp)10 106 6 10107 7 10108 8 10109 9 101010 10 10101111显花植物骨鱼类哺乳类甲壳类爬行类鸟类藻类真菌革兰氏阳性菌革兰氏阴性菌枝原体霉菌蠕虫类软体动物棘皮类昆虫类软骨鱼类两栖类.21一、病毒基因组一、病毒基因组 DNA病毒病毒 RNA病毒病毒 (一)基本结构(一)基本结构多数为双链多数为双链(ds)、环状
11、或线性环状或线性多数为单链多数为单链(ss)、线性线性.22(二)(二)RNARNA病毒基因组病毒基因组 类型类型 特点特点 代表种类代表种类.231.1.单股正链单股正链RNARNA病毒病毒SARSSARS冠状病毒冠状病毒 SARS SARS coronaviruscoronavirus 包膜蛋白包膜蛋白膜蛋白膜蛋白核衣壳核衣壳蛋白蛋白刺突刺突蛋白蛋白 病毒病毒RNARNA聚合酶聚合酶.24 单股正链单股正链RNARNA、不分节段,不分节段,5 5端有甲基化帽,端有甲基化帽,3 3端有端有poly(A)poly(A)结构。结构。脊髓灰质炎病毒、鼻病毒、脊髓灰质炎病毒、鼻病毒、多数多数RNAR
12、NA噬菌体、噬菌体、冠状病毒冠状病毒 .25.禽流感病毒禽流感病毒(H5N1)avian influenza A virus2.2.单股负链单股负链RNARNA病毒病毒8 8节段节段-ssRNA-ssRNA血凝素(血凝素(HAHA)神经氨酸酶(神经氨酸酶(N)N).26 单股负链单股负链RNARNA、8 8节段,均编码蛋白质,节段,均编码蛋白质,5 5端由相同的端由相同的1313个核苷酸组成,个核苷酸组成,3 3端有端有1212个保守的核苷酸序列。个保守的核苷酸序列。流感病毒流感病毒、滤泡性口腔炎病毒、滤泡性口腔炎病毒、狂犬病毒狂犬病毒.27呼肠孤病毒呼肠孤病毒 reovirusreoviru
13、s3.3.双链双链RNARNA病毒病毒1111节段节段dsRNAdsRNA内衣内衣壳蛋壳蛋白白外衣壳外衣壳蛋白蛋白.28 正负双链正负双链RNARNA,10101212节段、节段、每段编码一个蛋白质每段编码一个蛋白质 呼肠孤病毒、轮状病毒、呼肠孤病毒、轮状病毒、噬菌体噬菌体6 6.294.4.逆转录病毒逆转录病毒(retrovirusretrovirus)核心蛋白核心蛋白 逆转录酶逆转录酶 膜蛋白膜蛋白poly(A)poly(A)CapCap人类免疫缺陷病毒(人类免疫缺陷病毒(HIVHIV).30 单股正链单股正链RNARNA,有三个基本的结构有三个基本的结构 基因:基因:gaggag、pol
14、pol(逆转录酶逆转录酶)、)、envenv,白血病病毒、肉瘤病毒、白血病病毒、肉瘤病毒、人类免疫缺陷病毒人类免疫缺陷病毒 5 5端有甲基化帽,端有甲基化帽,33端有端有poly(A)poly(A),另有多个基因表达调控位点。另有多个基因表达调控位点。.31(三)(三)DNADNA病毒基因组病毒基因组 类型类型 特点特点 代表种类代表种类.321.1.线性双链线性双链DNADNA病毒病毒 早期蛋白(早期蛋白(E E)晚期蛋白(晚期蛋白(L L)腺病毒腺病毒 adenovirusadenovirusE1A E1BE3E4E2BE2A0 10 20 30 40 50 60 70 80 90 100
15、%L2L3L4L5L1ITRITRITRITR ITR:ITR:反向末端重复序列反向末端重复序列.33 反向末端重复序列反向末端重复序列 (inverted terminal repeatinverted terminal repeat,ITRITR)ATAT丰富区保守序列:丰富区保守序列:ATAATATACCATAATATACCGCGC丰富区保守序列:丰富区保守序列:GGGCGG,TGACGTGGGCGG,TGACGT在病毒复制过程有重要作用在病毒复制过程有重要作用 基因组:线性双链基因组:线性双链DNADNA,编码两大类编码两大类蛋白蛋白 早期蛋白(早期蛋白(E E)、)、晚期蛋白(晚期蛋
16、白(L L).34乳头瘤病毒乳头瘤病毒 papillomaviruspapillomavirus URR2.2.双链环状双链环状DNADNA病毒病毒衣壳衣壳蛋白蛋白DNA复制复制膜信号蛋白膜信号蛋白组装与释放组装与释放 中断细胞生长周期中断细胞生长周期上游调节区上游调节区转录转录 与复制与复制.35基因组:双链环状基因组:双链环状DNADNA,可分为早期区(可分为早期区(E E)、)、晚期区(晚期区(L L)、)、上游调节区(上游调节区(upstream regulatory upstream regulatory region,URR region,URR)调节转录与复制调节转录与复制.36
17、3.3.单链环状单链环状DNADNA病毒病毒5387nt噬菌体噬菌体phiX174phiX174基因重叠基因重叠5387 5387 ntnt 编码编码2500 AA2500 AA1977,Sanger.37乙型肝炎病毒(乙型肝炎病毒(HBVHBV)4.4.开环部分双链开环部分双链DNADNA病毒病毒 聚合酶聚合酶HBsAgHBcAg.38乙型肝炎病毒(乙型肝炎病毒(HBVHBV)逆转录酶逆转录酶HBsAgHBcAgHBeAg开环部分双链开环部分双链DNA病毒病毒.39二、原核生物基因组二、原核生物基因组细菌染色体细菌染色体DNADNA质粒质粒DNADNA以大肠杆菌以大肠杆菌(Escherich
18、ia coli)为例为例.40类核(类核(nucleoid):):细菌染色体在细菌染色体在 细胞内形成的一个致密区域细胞内形成的一个致密区域大肠杆菌细胞结构大肠杆菌细胞结构nucleoidnucleoid质粒质粒plasmid.41大肠杆菌染色体结构大肠杆菌染色体结构 蛋白质蛋白质核心核心超螺旋超螺旋DNADNA环环.42(一)由一条环状双链(一)由一条环状双链DNADNA分子组成,分子组成,通常只有一个通常只有一个DNADNA复制起点。复制起点。C-Value:4.6106bp大肠杆菌染色体大肠杆菌染色体DNA DNA 大肠杆菌大肠杆菌40004000K K30003000K K200020
19、00K K10001000K K0 0OriCOriCTerCTerC.43(二二)结构基因大多组成操纵子结构基因大多组成操纵子乳糖操纵子乳糖操纵子 lac operontayz opstructural genepromoterterminatoroperator-galactosidase半乳糖苷酶半乳糖苷酶 z-galactoside permease透酶透酶 y -galactoside transacetylase半乳糖苷乙酰转移酶半乳糖苷乙酰转移酶 a .44 多个功能相关的结构基因多个功能相关的结构基因成簇串联排列,与上游共同的成簇串联排列,与上游共同的调控区和下游转录终止信号组
20、调控区和下游转录终止信号组成的基因表达单位。成的基因表达单位。操纵子操纵子operon:operon:.45(三)其它结构特点(三)其它结构特点 C 值:值:4,639,221 4,639,221 bpbp基因数:基因数:42884288基因大小:基因大小:950950bp/genebp/gene基因间隔:基因间隔:118118bp/bp/genegene1.1.基因密度非常高,编码区在基因密度非常高,编码区在 基因组中所占比例大;基因组中所占比例大;2.2.结构基因没有内含子,多为结构基因没有内含子,多为 单拷贝,单拷贝,rRNArRNA基因为多拷贝;基因为多拷贝;3.3.重复序列很少,重复
21、片段为重复序列很少,重复片段为 转座子;转座子;50kb.464.4.有编码同工酶的同基因(有编码同工酶的同基因(isogene)分支酸别构酶分支酸别构酶 ilvBN acetolactate synthase I ilvIH acetolactate synthase III 乙酰乳酸合酶乙酰乳酸合酶 entC isochorismate synthase entB isochorismatase.475.5.不同的原核生物基因组的不同的原核生物基因组的GCGC含量含量 (GC contentGC content)变化很大变化很大(25%-75%)(25%-75%)Escherichia c
22、oliMicrococcus luteus藤黄微球菌藤黄微球菌Bacillus subtilisSerratia marcescens枯草杆菌枯草杆菌粘质沙雷菌 大肠杆菌大肠杆菌%GC 51 51 52 55 58 52 37 66 61 43 45 33 39 25 75 73 69Shigella flexnerl志贺氏杆菌(痢疾)志贺氏杆菌(痢疾)Salmonella typhimurium鼠伤寒沙门菌 Klebsiella pneumoniae肺炎克雷伯士氏杆菌肺炎克雷伯士氏杆菌 Mycopiasma capricolum支原体支原体.48(四)非编码区主要是调控序列:(四)非编码区主
23、要是调控序列:复制起始区(复制起始区(OriCOriC)复制终止区(复制终止区(TerCTerC)转录起动区转录起动区转录终止区转录终止区.49复制起始区(复制起始区(OriCOriC).50大肠杆菌强启动子大肠杆菌强启动子TTGAC TATAATTTGAC TATAAT 转录起始转录起始.51GACCGCCGCUGGCGGC A U U U U-OH 35U U C G G 5GCCGCCAGUUCGGCUGGCGGCAUUUU3RNA5GCCGCCAGTTCGGCTGGCGGCATTTT 3DNA终止子:终止子:强终止子:有反向重复顺强终止子:有反向重复顺序,可形成茎环结构,其序,可形成茎
24、环结构,其后面为后面为poly(T)poly(T)结构,转结构,转录终止无需录终止无需因子。因子。GCGC丰富区、丰富区、ATAT丰富区丰富区.52(五)具有转座现象(五)具有转座现象 Barbara McClintock 1902-1992 转座转座,或称移位,或称移位(transposition):转座因子在基因组转座因子在基因组 不同位置间的移动。不同位置间的移动。.53 1.1.转座因子的类别转座因子的类别 Is3 转座酶转座酶(1)(1)插入序列插入序列(insertion sequence,Is)小于小于20002000bpbp,只有转座相关基因只有转座相关基因2kb.54Tn3转
25、座酶转座酶 Tn10 转座酶转座酶(2)(2)转座子转座子(transposon,Tn)2-20kb2-20kb,常带有抗性基因等其它基因常带有抗性基因等其它基因氨苄青霉素抗性氨苄青霉素抗性 四环素抗性四环素抗性2kb.55(3)Mu(3)Mu噬菌体(噬菌体(MuMu)转座酶转座酶头尾部蛋白头尾部蛋白转座酶转座酶结合位点结合位点 转座酶转座酶结合位点结合位点宿主宿主DNADNA宿主宿主DNADNA37 37 kbkbA B.56切离是转座因子从原切离是转座因子从原来位置上切除并转移来位置上切除并转移到基因组新的位置到基因组新的位置 转座是转座因子复转座是转座因子复制出一个新拷贝转移制出一个新拷
26、贝转移到基因组新的位置到基因组新的位置2.2.转座因子的遗传效应转座因子的遗传效应供体供体DNADNA转座子转座子受体受体DNADNA复制和转座复制和转座新的新的DNADNA切除和连接切除和连接.57 transposonHost DNATarget siteT A C A T G C A C A GA T G T A C G T G T C transposonTAC ATGCAATG CAGTACGTGTC 转座的结果使靶点序列倍增转座的结果使靶点序列倍增 transposonDirect RepeatsTAC ATGCAATG TACGTATGCA CAGTACGT GTC 促使染色体畸
27、变促使染色体畸变 .58 共合体共合体 重组重组 解离解离复制子复制子1 1复制子复制子2 2转座子可以使供体转座子可以使供体和受体复制子融合,和受体复制子融合,形成共合体,形成共合体,解离后释放出两个解离后释放出两个复制子,每一个都复制子,每一个都带有一个转座子。带有一个转座子。可形成共合体可形成共合体转座子转座子融合融合.59转座子转座子 F F E E A A B B C C D D复制复制插入插入 转座子新拷贝转座子新拷贝 F F E E A A B B C C D D引起插入突变引起插入突变 基因基因F F被隔断而失去功能被隔断而失去功能 .60携带标志基因使受体增添新基因携带标志基
28、因使受体增添新基因Tn3转座酶转座酶 Tn10 转座酶转座酶氨苄青霉素抗性氨苄青霉素抗性 四环素抗性四环素抗性.61(六)质粒(六)质粒(plasmidplasmid)质粒质粒是存在于细菌染色体外的,是存在于细菌染色体外的,具有自主复制能力的环状双链具有自主复制能力的环状双链DNADNA分分子;大小为子;大小为2-3 2-3 kbkb。.62质粒的特性质粒的特性 在宿主细胞内可自主复制;在宿主细胞内可自主复制;所携带的遗传信息能赋予宿主特所携带的遗传信息能赋予宿主特 定的遗传性状;定的遗传性状;细胞分裂时恒定地传给子代;细胞分裂时恒定地传给子代;质粒可以转移。质粒可以转移。.63三三真核生物基
29、因组真核生物基因组染色体染色体DNADNA线粒体线粒体DNADNA.64人类基因组染色体人类基因组染色体(一)染色体(一)染色体DNADNA的组成的组成核小体核小体.651.1.单一序列单一序列DNA(unique sequence DNA)单一序列在人类基因组中单一序列在人类基因组中大于大于5050。结构基因主要存。结构基因主要存在于单一序列中。在于单一序列中。单拷贝单拷贝DNA(single copy DNA).662.2.高度重复序列高度重复序列DNA(highly repetitive DNA)卫星卫星DNADNA(satellite DNAsatellite DNA)反向重复序列反向
30、重复序列 (inverted repeats)inverted repeats)重复次数重复次数106次次.67 (1)卫星卫星DNADNA 存在于非编码区的串联重复序列,存在于非编码区的串联重复序列,在基因组中约占在基因组中约占5 5。主带主带 光光密密度度 卫星卫星DNA.68a.大卫星(大卫星(macro-satellite)DNADNA:重复单位重复单位5-10 5-10 bpbp,其在人群中多其在人群中多态性不显著。态性不显著。光密度光密度260nm果蝇基因组果蝇基因组.69b.小卫星小卫星(minisatelliteminisatellite)DNADNA:重复单位重复单位9-24
31、 9-24 bpbp,呈高度多态性。呈高度多态性。可变数目串联重复序列(可变数目串联重复序列(variable variable number of tandem repeat,VNTR number of tandem repeat,VNTR)端粒端粒DNADNA:(TTAGGGTTAGGG)n n,2-20 kb2-20 kb,染色体复制,末端保护。染色体复制,末端保护。核心序列核心序列 GGGCAGGAGGGCAGGAX XG G;.70c.微卫星微卫星DNADNA(macro-satellite DNA)短串联重复短串联重复(short tandem repeat,STR)重复单位重复
32、单位2-62-6bpbp,常见为常见为(ACAC)n)n和和(TGTG)n)n,重复次数重复次数10-6010-60次,总长度小于次,总长度小于150150bpbp,高度多态性,可作遗传标记。高度多态性,可作遗传标记。.71(2).反向重复序列反向重复序列5AAACCACCGCTGGTAGCGGTGGTTT33TTTGGTGGCGACCATCGCCACCAAA55AAACCACCGCTAGCGGTGGTTT33TTTGGTGGCGATCGCCACCAAA5回文结构回文结构 两个顺序列相同的拷贝在两个顺序列相同的拷贝在DNADNA链上呈反向排列。在基因组中约占链上呈反向排列。在基因组中约占5 5
33、,常见于基因调控区。,常见于基因调控区。.723.3.中度重复序列中度重复序列:tRNAtRNA、rRNArRNA组蛋白、免疫球蛋白组蛋白、免疫球蛋白可能与基因调控相关序列可能与基因调控相关序列重复次数重复次数10-1010-105 5,约占基因组的,约占基因组的3535.73AluAlu家族:家族:有有AluAlu酶切位点(酶切位点(AG/CTAG/CT)而得名。而得名。重复单位约重复单位约300300bpbp,由两个由两个130130bpbp重复序列及重复序列及3131bpbp间隔序间隔序 列组成;重复列组成;重复30-5030-50万次,散在分布;万次,散在分布;灵长类特有。灵长类特有。
34、.74等位型等位型1 1等位型等位型2 2(二)基因组序列多态性(二)基因组序列多态性 两个同源两个同源DNADNA序列中同一碱基位置序列中同一碱基位置含有不同的核苷酸。含有不同的核苷酸。1.1.单核苷酸多态性单核苷酸多态性(single nucleotide polymorphism,SNP).752.2.限制性片段长度多态性限制性片段长度多态性 (restriction fragment length polymorphism)DNA1-1DNA1-1DNA1-2DNA1-2 用一种限制性内切酶消化不同个用一种限制性内切酶消化不同个体的同一段体的同一段DNADNA时,由于碱基组成的时,由于
35、碱基组成的变化而改变限制性内切酶识别位点,变化而改变限制性内切酶识别位点,从而会产生长度不同的从而会产生长度不同的DNADNA片段。片段。.76(三三)多基因家族多基因家族(multigene familymultigene family)1.1.基因超家族基因超家族(supergene family)由多基因家族及单基因组成,成由多基因家族及单基因组成,成员间有不同程度的同源,但它们的功员间有不同程度的同源,但它们的功能不一定相同。能不一定相同。是指一组有类似功能,核苷是指一组有类似功能,核苷酸序列又有同源性的基因。酸序列又有同源性的基因。.772.2.核酸序列相同:核酸序列相同:组蛋白基因
36、家族组蛋白基因家族多拷贝基因形成的基因簇,多拷贝基因形成的基因簇,rRNArRNA、tRNAtRNA、组蛋白基因家族组蛋白基因家族。非洲爪蟾的非洲爪蟾的5 5SRNASRNA基因结构基因结构 5 5SRNASRNA基因基因 非转录空隔区非转录空隔区.783.3.核酸序列高度同源核酸序列高度同源生长激素(生长激素(GH)与绒毛膜生长催乳激素(与绒毛膜生长催乳激素(CS)氨基酸序列比对氨基酸序列比对217.794.4.编码产物的功能或功能区相同编码产物的功能或功能区相同.80(四四)假基因假基因(pseudogene,pseudogene,)G A 21Alu10 kb珠蛋白基因簇中的假基因珠蛋白基因簇中的假基因 与有功能的基因相似,不表达与有功能的基因相似,不表达基因产物的基因。基因产物的基因。.81.82.