1、表达谱流程简介科学特种兵团RNA线韩祖晶hanzujinggenomics.org数字基因表达谱(Digital Gene Expression Profile,DGEP)DGEDGEII实验流程和实验流程和原理原理信息分析流信息分析流程程 DGE 1、DGE实验流程和实验原理:如右图,展示的是DGE 的实验流程。从总的RNA 样品到mRNA的提取再到 cDNA的合成再到Tag的 制备最后到上机测序和数据产出。DGE如右图,展示的是DGE的实验原理。利用OligodT的beads富集总RNA中mRNA,并逆转录为双链cDNA,采用4碱基识别酶NlaIII酶切双链cDNA,链接Illumina
2、adapter1,利用MmeI酶切3端CATG下游17bp碱基,并在3端链接Illumina adapter2。再加入Primer GX1和Primer GX2进行PCR扩增。扩增后样本通过6%TBE PAGE胶回收85碱基条带,纯化后通过Illumina基因表达测序。DGE2、DGE信息分析流程:DGE2.1、去除杂质数据 原始序列带有一段3adaptor序列,并且含有少量低质量序列以及各种杂质成分。经过一系列数据处理,得到Clean Tag。数据处理的步骤:去除3adaptor序列:原始read带有一段3adaptor序列,首先要去除每个read的3adaptor序列;去除空载reads(
3、只含3adaptor而不含Tag序列的reads);去除低质量Tag(含有未知碱基N的tag);去除长度过小过大的Tag,保留长度为21nt的Tag;获得Clean Tag。2.2、Clean Tag 拷贝数分布统计不均一性是细胞mRNA表达的显著特征,少量种类mRNA表达丰度极高,而大部分种类mRNA表达水平很低甚至极低。Clean Tags数据中,Tags的拷贝数反映了相应基因的表达量,其分布统计可以从整体上评估数据是否正常。DGE DGE2.3、测序饱和度分析饱和度分析检验随着测序量(标签数量,Total Tag Number)的增加,检测到的基因是否随之上升。2.4、实验重复性分析 对
4、两次平行实验的结果相关性分析可获得对实验结果可靠性和操作稳定性的评估。DGE DGE2.5、基因表达注释 首先,我们根据合作伙伴提供的参考基因数据库(注:对于没有参考基因数据库的物种,可以在同属种中进行同源比对,但结果仅供参考。),利用软件检索mRNA上所有的 CATG位点,生成CATG17nt碱基的参考标签数据库。然后将全部Clean Tag与参考标签数据库比对,允许最多一个碱基错配,对其中唯一比对到一个基因的标签(Unambiguous Tags)进行基因注释,统计每个基因对应的原始Clean Tag数,然后对原始Clean Tag数做标准化处理,获得标准化的基因表达量,从而更准确、科学地
5、衡量基因的表达水平。标准化方法为:每个基因包含的原始Clean Tags数/该样本中总clean Tags数*1,000,000(t Hoen,Ariyurek et al.2019;Morrissy,Morin et al.2009)。DGE Clean Tag 和参考基因、线粒体、叶绿体和参考基因组的比对结果统计 DGE 2.6、反义转录分析 Sense-antisense是基因表达调控的一种重要方式。如果测序标签能比对到基因的反义链,则暗示该基因的反义链也包含转录本(t Hoen,Ariyurek et al.2019),该基因可能存在sense-antisense调控方式。2.7、新转
6、录本预测 与芯片相比,应用Solexa表达谱检测基因表达毋须事先设计探针,因此能帮助用户检测出新转录本。我们将不能比对到参考基因和叶绿体、线粒体基因组的clean tag比对到核基因组,给出clean tag能唯一比对上的核基因组区域,研究人员结合自己研究领域的背景知识,可判断相关区域是否存在之前未发现的新转录本(t Hoen,Ariyurek et al.2019)。DGE 2.6、差异表达基因筛选 2.7、表达模式聚类分析 2.8、GO功能显著性分析 2.9、Pathway显著性分析以上分析同DGEII,将在后面讲到。1、DGEII实验流程和实验原理:样品提取总RNA后,对于真核生物,用带
7、有Oligo(dT)的磁珠富集mRNA,对于原核生物,用试剂盒去除rRNA,向得到的mRNA中加入fragmentation buffer使其片断化成为短片段,再以片断后的mRNA为模板,用六碱基随机引物(random hexamers)合成cDNA一链,并加入缓冲液、dNTPs、RNase H和DNA polymerase I合成cDNA二链,经过QiaQuick PCR试剂盒纯化并加EB缓冲液洗脱经末端修复、加polyA,加测序接头,再经琼脂糖凝胶电泳回收目的大小片段,并进行PCR扩增,从而完成整个文库制备工作,构建好的文库用Illumina HiSeqTM 2000进行测序。DGEII
8、DGEII2、信息分析流程:DGEII2.1、去除杂质数据2.2、Clean Tag 拷贝数分布统计2.3、测序饱和度分析2.4、实验重复性分析基本原理同DGE,这里不再重复。DGEII2.5、reads与参考序列的比对 我们采用短reads比对软件SOAPaligner/soap21将clean reads分别比对到参考基因组和参考基因序列(允许两个碱基错配)。比对是后面分析的基础。2.6、Reads在参考基因上的分布统计 在RNA-Seq实验过程中,首先要通过化学方法将mRNA打断成短片段,然后上机测序。如果打断的随机性差,测序得到的reads在基因中的分布将是不均匀的,这样的reads做
9、后续分析将对结果有很大的影响。我们利用reads在参考基因上的分布情况来评价打断随机性。由于不同参考基因有不同的长度,我们把reads在参考基因上的位置标准化到相对位置(reads在基因上的位置与基因长度的比值),然后统计基因的不同位置比对上的reads数。2.7、Reads在参考基因组上的分布分析 该部分分析是以图示的方式给出 reads在基因组上的分布情况,以及reads所在位置上基因的分布情况。DGEII每个点(共500个点,500 windows)表示317642nt的区域,Gene Number指每个窗口中gene的个数。Coverage指每个窗口中被reads覆盖的区域与窗口长度之
10、比。log2ReadsNumber指每个窗口的平均测序深度 DGEII2.8、基因表达量统计 利用唯一比对上基因的reads数目和比对上参考序列的总reads数来计算基因表达量。基因表达量的计算使用RPKM法(Reads Per Kb per Million reads)3,其计算公式为:设RPKM(A)为基因A的表达量,则C为唯一比对到基因A的reads数,N为唯一比对到参考基因的总reads数,L为基因A编码区的碱基数。RPKM法能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。如果一个基因存在多个转录本,则用该基因的最长转录本计算
11、其表达量。DGEII2.9、差异表达基因筛选 通过比较不同样本间的数据从而筛选出差异表达基因,后续分析中的差异基因表达模式聚类分析,Gene Ontology功能显著性富集分析,Pathway显著性富集分析,蛋白互作网络分析均是基于差异表达基因。参照Audic S等人发表在Genome Research上的数字化基因表达谱差异基因检测方法(Audic and Claverie 2019)(该文献已被引用超过五百次),我们开发了严格的算法筛选两样本间的差异表达基因。假设观测到基因A对应的clean tag数为x,已知在一个大文库中,每个基因的表达量只占所有基因表达量的一小部分,在这种情况下,p(
12、x)的分布服从泊松分布:DGEII 已知,样本一总clean tag数为N1,样本二总clean tag数为N2,基因A在样本一中对应的clean数为x,在样本二中对应的clean数为y,则基因A在两样本中表达量相等的概率可由以下公式计算:DGEII 然后,我们对差异检验的p value作多重假设检验校正,通过控制FDR(False Discovery Rate)来决定P Value的域值。假设挑选了R个差异表达基因,其中S个是真正有差异表达的基因,另外V个是其实没有差异表达的基因,为假阳性结果。希望错误比例QV/R平均而言不能超过某个可以容忍的值(比如1),则在统计时预先设定FDR不能超过0
13、.01(Benjamini and Yekutieli 2019)。在我们的分析中,差异表达基因定义为FDR=0.01且倍数差异在2倍和2倍以上的基因。DGEII2.10、差异基因表达模式聚类分析 主要原理:表达模式相似的基因通常具有相似的功能。我们利用cluster软件(Eisen,Spellman,et al.2019),以欧氏距离为距离计算方法,对差异表达基因和实验条件同时进行等级聚类分析。聚类模式图见有图,红色表示上调,绿色表示下调,颜色越深表示差异倍数越大。图中每列表示一个独立的实验条件,每行表示同一个基因在不同实验条件下的上下调情况。DGEII2.11、GO功能显著性分析 Gene
14、 Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology,分别描述基因的分子功能(molecular function)、所处的细胞位置(cellular component)、参与的生物过程(biological process)。该分析首先把所有差异表达基因向Gene Ontology数据库(geneontology.org/)的各个term映射,计算每个term的基因数目,然后应用超几何检验,找出与整个基因组背景相比,在差异表达基因中
15、显著富集的GO条目,其计算公式为:DGEIIGO功能显著性分析结果文件:DGEII2.12、Pathway显著性富集分析 主要原理:在生物体内,不同基因相互协调行使其生物学,基于pathway的分析有助于更进一步了解基因的生物学功能。KEGG是有关pathway的主要公共数据库(Kanehisa,Araki,et al.2019)。Pathway显著性富集分析以KEGG Pathway为单位(对于非模式物种,可以同blast比对来获得背景序列的KO号),应用超几何检验,找出与整个基因组背景相比,在差异表达基因中显著性富集的pathway(一般地,Qvalue0.05)。通过pathway显著性
16、富集能确定差异表达基因参与的代谢途径。DGEIIPathway显著性富集分析结果:各列的意义:DGEII DGEII2.13、蛋白质相互作用网络分析 相互作用网络分析整合了BIND,BioGrid,HPRD等相互作用网络数据库的信息,结果文件中的网络由差异表达基因以及跟差异表达基因有直接相互作用的基因组成。结果文件可用Medusa软件显示。作业1、原核生物能做DGE分析吗?2、根据DGE的实验原理和分析流程说明参考基因对DGE分析结果的影响?3、根据DGE的实验原理叙述DGE分析目前实际存在的问题,有何改进的方法?4、比较DGE和DGEII的实验原理说明其中的关键区别以及由此造成的信息分析方法上的改变?5、依照DGE的实验原理图和DGEII的实验原理自己设计一个DGEII的实验原理图。6、DGE和DGEII分别用到了哪些标准化的方法?它们有什么不同?查找现在生物信息分析中常用的标准化方法有哪些?各自的原理是什么?7、列出DGE和DGEII涉及到的一些统计知识并给出他们的计算公式和基本原理。8、列出DGE和DGEII涉及到的一些生物信息分析软件和工具并对他们有所掌握。谢谢!希望华大能带给大家一个充实而愉快的暑假!