1、入侵物种紫茎泽兰的叶绿体全基因组分析研究背景 紫茎泽兰是危害最大的入侵物种之一,在世界范围内造成了严重的经济损失和环境破坏。然而,关于紫茎泽兰的序列资源和基因组信息却十分有限,使得其系统发育的鉴定以及进化方面的研究难以进行。这里我们报道了基于Illumina测序获得的紫茎泽兰完整叶绿体基因组。研究背景 叶绿体被认为是起源于蓝细菌的内共生作用,是植物所特有的细胞器,能进行光合作用来为植物和藻类提供必要的能量。它们有着自己的遗传复制机制,能对自己的基因组进行转录并进行母系遗传。在高等植物中,叶绿体基因组是一个大小在120到160bp的双链环状DNA分子。通常,陆生植物的叶绿体基因组在基因顺序、基因
2、内容以及基因组组织方式上都是高度保守的。叶绿体基因组高度保守的特性以及低的进化速率说明它能较为统一地进行不同物种的比较性研究,但是在捕捉进化史上的事件时又具能产生有效的分歧,这使得其成为分子系统发育学以及分子生态学研究的合适且不可多得的工具。研究背景 紫茎泽兰是一种多年生草本植物,属于菊科(泽兰族)。它原产于中美洲,在墨西哥至哥斯达黎加均有分布,在十九世纪被作为观赏植物引进至欧洲,澳大利亚以及亚洲。紫茎泽兰能抑制那些本土植物生长,还能毒害动物。它最初是于二十世纪四十年代从缅甸入侵中国云南省,随后迅速地传播至中国南部及西南各省,包括贵州、广西、四川及重庆。如今它已经成为了当地环境中的优势种,影响
3、了当地的生物多样性以及生态系统,在其入侵地区造成了严重的经济损失。研究背景 在过去的二十年间,大量基于叶绿体DNA序列数据的研究从种、属和族的水平上促进了我们对于被子植物进化上关系的理解。同时,叶绿体基因组在系统发生学、DNA条形码、光合作用研究以及最近的叶绿体转化上的重要性,使得越来越多的叶绿体基因组被测序。自从烟草的完整叶绿体基因组被首次公布以来,已有超过200个完整的叶绿体基因组被测序及分析。随着下一代测序技术的出现,由于其具有高通量、省时以及廉价等特点而被逐渐用于叶绿体基因组测序。研究背景 尽管菊科有五个成员的叶绿体基因组已被测序完成,包括小油菊、向日葵、银胶菊(均属向日葵族)、莴苣(
4、莴苣族)以及新疆千里光(千里光族),但目前并未有泽兰族物种的叶绿体基因组被测序完成。这里我们报道了使用Illumina高通量测序技术获得的紫茎泽兰完整叶绿体基因组序列。该叶绿体基因组序列将为紫茎泽兰种群的研究提供有用的遗传学工具,并帮助揭示外来物种入侵的遗传学和进化机制。材料和方法 叶绿体提取和DNA测序 从中国云南腾冲县生长的紫茎泽兰中采集新鲜的叶子样本。采用向日葵细胞器分离所用的方法进行了叶绿体的分离。经DNA酶处理之后提取出了其叶绿体基因组DNA。构建了短插入片段文库,根据中国深圳BGI提供的操作流程使用Illumina GAII进行测序。测序以51bp的单末端进行,进一步的图像分析以及
5、碱基读出是使用Illumina Pipeline软件进行的。材料和方法 基因组的装配和注释 叶绿体基因组的过程中,首先使用perl脚本剔除了Illumina测序的低质量片段。随后我们比较了两种装配短片段序列的方法:其一:直接将质量筛选后的片段使用SOAP de novo进行最小长度为100bp的重叠群的组装,随后使用BLAST软件将这些重叠群与向日葵叶绿体基因组进行比对(将其用作参考基因组),并将进行比对的重叠群按照参考基因组进行排列。材料和方法 其二:先使用BLAST从原始的质量筛选后的片段中捕捉叶绿体片段,并使用向日葵、小油菊、银胶菊、莴苣和烟草的叶绿体基因组作为参考。随后,这些捕捉的片段
6、再通过使用SOAP de novo组装成最小长度为100bp的重叠群,接着,通过与向日葵叶绿体基因组进行比对,将短的重叠群拼接成长的重叠群。最后,对照向日葵基因组使用原始片段的连贯序列来代替de novo重叠群之间的缺口,剩余的缺口通过使用PCR以及Sanger测序来进行填补。材料和方法 叶绿体基因组的注释是是基于可用的在线程序DOGMA来进行的。tRNA基因的鉴定使用的是DOGMA和默认设置下的tRNAscan-SE。内含子位置的确定使用了向日葵叶绿体基因组中的内含子作为参考。叶绿体基因的功能分类参考了叶绿体基因组数据库。环形的cp基因图谱的绘制使用了OGDRAW软件。为了证实组装和注释的正
7、确性,我们对大单拷贝区域和反向重复序列以及小单拷贝区域和反向重复序列之间的连接处进行了PCR以及测序来验证。材料和方法Table S1.Primers used for gap filling and assembly validation.Primer*Sequence(53)Amplicon size1F:AGTTACTAATTATGATCTGGCATGTR:ATAGCAATGAGATTCCCCAA5792F:TGGGGAGAAATGACAAGAR:TTTATCTTATTATTAATCACGGA10893(IR1/LSC)F:TGT TGA CCT AAA GCG TATR:TGA ACC
8、 CTG TAG ACC ATC4634(LSC/IR2)F AAG CGT TGG CTA GGT AAGR:TAG CCA AGT GGA TCA AGG8965(IR2/SSC)F CCA GGG CTA TGG AAC AAA G R:AAA CCA CAA CGA CCG AAT6526(SSC/IR1)F:CTC GCT AAC ATT GAA CTT GGR:ACC TCC CGT TCT TCA TAC TT660*PrimerPrimer pairs 1 and 2 were used to fill the gaps of the assembled genome;1 an
9、d 2 were used to fill the gaps of the assembled genome;Primer pairs 3-6 were used to verify the junctions between the IRs and Primer pairs 3-6 were used to verify the junctions between the IRs and SSCSSC/LSC regions.材料和方法 与菊科其它植物叶绿体基因组的比较以及标记的鉴定 使用mVISTA软件来将紫茎泽兰cp基因组与菊科其他物种(包括向日葵、莴苣、银胶菊、小油菊和新疆千里光)进行
10、比对。所有的在六个基因组中进行比对发现存在分歧的区域均被提取出来用于标记的鉴定。这些区域均使用手动调整过的ClustalW软件进行了比对。为获得这些区域的信息位点,使用最大简约法构建了系统发育树,所用软件为Mega4.0。简约信息位点、一致性指数(CI)以及保留指数(RI)的值也同样被计算了出来。材料和方法 重复结构以及序列分析 使用Tandem repeat Finder软件进行了串联重复的分析。使用REPuter对散在重复序列进行了鉴定和定位,包括正向重复和回文重复,设置重复的一致性要大于90%(汉明距离 3),长度要大于30bp。在软件分析过后,我们对少于15bp的串联重复序列以及REP
11、uter的冗余结果进行了手动剔除。材料和方法 系统发育分析 选取了33个代表了被子植物所有家系的物种的cp基因组。选用了35个蛋白质编码基因:atpA,atpB,matK,petA,petB,petD,petG,petN,psaA,psaB,psbA,psbB,psbC,psbD,psbE,psbF,psbH,psbI,psbJ,psbK,psbN,psbT,rpoB,rpoC1,rpoC2,rps8,rps11,rps14,ycf3,ndhA,ndhD,ndhH,ndhF,rpoA以及rbcL。这35个基因在这33个叶绿体基因组中普遍存在。材料和方法 序列通过ClustalW进行了比对。最大
12、简约(MP)分析使用了PAUP*4.10。使用PhyML v3.0进行了最大似然(ML)分析。使用了萍蓬草属和睡莲属作为外群。结果和讨论 测序及基因组装配 使用Illumina测序技术,我们获得了16,977,743个51bp长度的原始序列,包括11,117,985个唯一序列,筛选后获得了11,617,950条结果清晰的序列。随后我们比较使用了两种方法来对短片段进行装配:第一种:使用SOAP de novo法直接进行富集,获得了12,161个重叠群,大小100到14,932bp,这些重叠群以向日葵的叶绿体基因组为参照进行排列,213个重叠群与参照基因组具有同源性。将排列的重叠群按照参照基因组的
13、顺序进行了整理。使用此方法获得了一段长为145519bp的序列草图。结果和讨论 第二种方法是先从原始的质量筛选后的序列中捕捉叶绿体序列(在材料与方法中有介绍),总共获得了1,815,199条叶绿体基因组序列,总长度达90,759,950bp,为向日葵叶绿体基因组的510.66倍。随后,通过使用SOAP对获得的片段进行富集,得到了了190个重叠群,长度为100bp到8,810bp不等。这些重叠群按照向日葵叶绿体基因组进行了整理和排序。最后获得了一个长度为149,899bp的基因组草图。结果和讨论 为了确定哪一种方法更好,把以上两个基因组草图与向日葵、莴苣、小油菊的叶绿体基因组进行了比对。序列比对
14、发现两种方法富集得到的序列之间有95%的序列具有一致性,且第二种方法富集得到的基因组草图包含了一些第一种方法中缺失的区域。结果和讨论 与向日葵叶绿体基因组相比,本研究中的基因组草图仍含有两处缺口。使用PCR以及Sanger测序对缺口进行了补全,由此得到了一个完整的150,698bp的紫茎泽兰叶绿体基因组。为了对富集结果进行验证,使用PCR对反向重复序列之间以及大/小单拷贝区域间的连接区域进行了扩增并进行了Sanger测序。我们将测序的结果与富集得到的基因组进行了直接比对,没有发现错配或者插入缺失,这就证实了富集结果的正确性。结果和讨论 基因组内容及组织方式 紫茎泽兰叶绿体基因组大小与其它被子植
15、物相当。其叶绿体基因组GC含量为37.5%,这一点与已报道的其它菊科物种的叶绿体基因组相一致。大小单拷贝区域的GC含量分别为35.8%和30.1%,在反向重复序列中该值为43.0%。结果和讨论结果和讨论 紫茎泽兰叶绿体基因组包含有80个蛋白质编码基因,其中七个(rps19,rps7,rpl23,rpl2,ycf2,ndhB 和ycf15)在反向重复序列中存在重复。此外,基因组中分布着有编码全部20种氨基酸的28个tRNA基因(1个发现于SSC,20个发现于LSC,7个发现于IR中)。在该基因组中还鉴定出了4个rRNA基因,位于反向重复序列中。结果和讨论总的来说,紫茎泽兰叶绿体基因组中存在130
16、个基因,其中14个基因(8个蛋白质编码基因以及6个tRNA基因)含有一个内含子,3个基因(rpoC1,ycf3,clpP)含有两个内含子。结果和讨论 在这17个含有内含子的基因中,有12个位于LSC之中(包括8个蛋白质编码基因和4个tRNA编码基因,其中9个含有一个内含子,3个含有两个内含子),4个位于IR中(两个蛋白质编码基因和两个tRNA编码基因,均只含一个内含子),1个位于SSC中(单内含子)。rps12是一个反式拼接基因,其5端的外显子位于大单拷贝区域而其重复的3端外显子位于反向重复序列中。trnK-UUU有着最大的内含子(1,559bp),其中含有另一个基因matK。结果和讨论结果和
17、讨论编码内容编码内容蛋白质蛋白质tRNArRNA比例49.56%2.32%5.94%除此之外,剩下的42.18%为非编码区域,其中包含了内含子、基因间隔区以及假基因。结果和讨论结果和讨论 与菊科其它植物叶绿体基因组的比较这种序列长度上的变异可能主要是由大单拷贝区域和反向重复序列间的长度差异导致的。另外,研究也发现紫茎泽兰的叶绿体基因组有着六个物种之中最长的LSC以及最短的IR。新疆千里光(150,689bp)莴苣(+2.07kp)小油菊(+0.77kp)向日葵(+0.4kb)紫茎泽兰(150,698bp)银胶菊(+2.1kp)结果和讨论 菊科多个植物叶绿体基因组的获得提供了一个从基因组水平来比
18、较菊科物种序列变异的机会,使用VISTA软件以注释后的紫茎泽兰叶绿体基因组为参考计算了前述六个菊科物种叶绿体基因组的序列同源性。尽管在这些基因组之间发现了一些分歧区域,整个序列的排列显示菊科植物叶绿体基因组具有相当的保守性。与其他被子植物相比,编码区要比非编码区域更加保守。在所有的基因中,rpoC1基因是分化程度最高的。结果和讨论结果和讨论 紫茎泽兰rpoC1基因含有两个内含子,只有一个内含子在菊科另外五个物种的叶绿体基因组中有发现。除了rpoC1之外,ycf1基因也显示出了高度的分化。ycf1基因在紫茎泽兰和银胶菊中是一个假基因,由于各种插入和缺失而具有高度的分化。叶绿体非编码区域被证明适用
19、于被子植物系统发育研究。六个物种的叶绿体基因组中的非编码区域显示出比编码区域更高的序列分歧。在比对的序列之中,一些区域显示出了高度的分歧,包括ndhD-ccsA,psbI-trnS,trnH-psbA,ndhF-ycf1以及ndhI-ndhG。结果和讨论 分子标记的鉴定 在叶绿体基因组比较分析中鉴定出一些包含序列分歧的区域,适合用于系统学研究。为检测哪些区域能用于紫茎泽兰系统发育分析,那些在六个基因组之间进行比对发现存在分歧的序列,以及那些在系统发育鉴定中常用的区域,均被从六个菊科植物的叶绿体基因组中提取出来使用最大简约法进行分析。结果和讨论结果和讨论 在此前的研究中,ndhC-trnV,ps
20、bM-trnD以及clpP区域已被鉴定为分歧区域,这些区域作为菊科系统发育学标记含有大量的系统发育信息。其他的几个区域是我们在当前研究中新发现的,此外,这些区域中很多还未被用到现有的分子系统发育研究中,它们在进一步的研究中可能会有价值。结果和讨论 一般来说,通过分子标记获得的系统树应该与该物种的进化相一致,因为序列进化的速率与物种的进化和生活史是相关的。但是当基因和物种的进化并未一致进行的时候,基因的系统树可能出现与物种不一致的情况。为研究我们新鉴定的DNA区域中是否有与物种进化一致的系统树,我们对所有存在分歧的比对区域进行了最大简约系统发育树的构建。结果和讨论结果和讨论 在本研究中,一些新的
21、DNA区域被鉴定出含有大量的系统发育信息,它们可能成为系统发育分析的潜在分子标记。这些区域将会在通用性引物的开发及其在菊科物种分子系统学研究的应用中起到很大帮助。结果和讨论 反向重复区域的收缩和扩张 一般来说,IR的末端在各个不同的植物物种间存在差异。IR的收缩和扩张常导致叶绿体基因组长度的变异。在六个菊科物种基因组中对IR-SSC和IR-LSC的边缘序列以及邻近的基因进行了比较。总的来说,虽然菊科物种在反向重复序列的收缩和扩张上存在少许变异,反向重复序列长度与叶绿体基因组的总大小并不存在相关性。结果和讨论结果和讨论 重复结构和序列分析 重复区域被认为在基因组重组以及重排中起着重要作用。在目前
22、的研究中,我们把重复序列划分为两类:串联重复和散在重复。在对紫茎泽兰叶绿体基因组中的这些重复进行分析(见材料和方法部分)之后,使用Tandem repeat finder软件鉴定出了31个不小于15bp的串联重复,其中18个为15-20bp大小,11个为21-30bp大小,1个为32bp大小,1个为85bp。同时,28个散在重复也被鉴定出来,其中15个为正向重复,13个为反向重复(回文结构),在28个散在重复中,8个为31-40bp,9个为41-60bp,5个为51-60bp,2个为61-70bp,其余的均为100bp以上。总的来说,从紫茎泽兰叶绿体基因组中鉴定出了59个重复序列,大多数(64
23、.4%)的重复都分布于基因间隔区域,还有16.9%和18.7%分别位于内含子和编码区之中(图5C),这些重复单元将会为种群和系统发育研究中标记的开发提供非常有用资源。结果和讨论结果和讨论 系统发育分析 菊科植物是被子植物最大的类群之一,该科大概包含1500个属和23000个种。叶绿体序列资源对于研究菊科植物在被子植物中的分类地位以及该科物种间亲缘关系分析中具有重要意义。为研究菊科植物的系统发育联系已进行了大量的研究,如Denda等人利用matK基因分析了菊科植物的分子系统发育,而Panero和Funk结合了来自108个分类群的10个叶绿体位点研究了菊科植物物种间的主要亲缘关系,但关于菊科植物在
24、分子水平上的系统发育上仍存在诸多不确定,且缺乏强有力的证据支持。结果和讨论 为了了解菊科植物的系统发育地位,我们将来自各种植物叶绿体基因组的蛋白质编码基因进行了序列比对。我们的系统发育数据包含了来自于33个植物物种的35个基因序列,包括了菊科这六个物种。在连接比对之后,比对的序列长度达到35,114bp。MP分析构建了一个长度为41,667的进化树。Bootstrap分析显示30个节点中有25个的bootstrap值大于95%,22个达到了100%。最大似然(ML)分析获得了一个bootstrap值很高的进化树,所有的30个节点均获得100%的bootstrap支持。MP和ML进化树有着相同的结构。结果和讨论结论 使用Illumina高通量测序技术,我们获得了紫茎泽兰叶绿体基因组的完整序列。这是首个测序完成的的泽兰族植物叶绿体基因组,也是菊科中的第六个。与其它菊科植物叶绿体基因组相比,该基因组相对较小,但其基因的组织方式和内容却高度相似。从中鉴定出了五个含有2%以上简约信息位点的区域以及59个重复结构,它们可能适用于本物种以至菊科的分子系统发育以及分子生态学研究。