1、DNADNA芯片与基因表达芯片与基因表达全册配套完整教学课件全册配套完整教学课件DNA芯片与基因表达芯片与基因表达1.绪论绪论2.技术路线技术路线3.数据可靠性分析数据可靠性分析4.基因基因差异表达分析差异表达分析5.芯片数据芯片数据层级层级聚类和可视化聚类和可视化6.基因注释与功能分析基因注释与功能分析7.基因基因芯片的应用芯片的应用n 绪论绪论l 基因:基因:指携带遗传信息的DNA序列,是控制性状的基本遗传单位亦即一段具有功能性的DNA序列。基因通过指导蛋白质的合成来表达自己所携带的遗传信息,从而控制生物个体的性状表现。l 基因表达:基因表达:基因中的DNA序列生产出蛋白质的过程。步骤大致
2、从DNA转录成mRNA开始,一直到对于蛋白质进行后翻译修饰为止。l 基因组:基因组:在生物学中,一个生物体的基因组是指包含在该生物的DNA(部分病毒是RNA)中的全部遗传信息。基因组包括基因和非编码DNA。更精确地讲,一个生物体的基因组是指一套染色体中的完整的DNA序列。n 绪论绪论l 基因组学:基因组学:研究生物基因组和如何利用基因的一门学问。该学科提供基因组信息以及相关数据系统利用,试图解决生物,医学和工业领域的重大问题。l 功能基因组学:功能基因组学:运用遗传技术,以功能不明的基因作为起点,通过识别这个基因在一个或多个生物模型中的作用来认识新发现基因的功能。l 转录组学:转录组学:转录组
3、学是分子生物学的分支,负责研究在单个细胞或一个细胞群的特定细胞类型内所生产的mRNA分子。转录组学的研究,也被称为“表达谱”,探讨在一个特定的细胞群内的基因表达水平。通常采用基于DNA芯片技术的高通量技术。透过使用新一代测序技术来研究在核苷酸水平的转录物组,被称为“RNA-Seq”。n 绪论绪论l 生物芯片(生物芯片(bio-chip):主要指微阵列芯片(microarray),包括基因芯片、蛋白芯片、细胞芯片和组织芯片等微型生化反应检测和分析系统,其本质是利用生物分子相互间(如DNA分子之间、蛋白分子之间以及DNA与蛋白分子之间等)的特异识别作用,对生物信号进行平行处理和分析。l 基因芯片技
4、术:基因芯片技术:基因芯片技术实际上是一种大规模集成的固相杂交技术,即在固相支持物上原位合成寡核苷酸或直接将多种预先制备的探针以显微的方式有序地固定于支持物表面,然后与标记的样本杂交,通过对杂交信号的检测分析,得出样品的遗传信息(基因序列及表达信息)。芯片上固定的探针除了DNA,也可以是cDNA、寡核苷酸或来自基因组的基因片段,且这些探针固定于芯片上形成基因探针阵列。n 绪论绪论l 杂交(杂交(hybridization):):把目的基因或基因组/PCR片段的酶切产物转移到固相支持物上,用标记的探针与之结合l 印迹法(印迹法(blotting):一种用于从凝胶中转移DNA、RNA、蛋白质到硝化
5、纤维、尼龙膜等支持物上但是保持原有的物理分离状态的技术l 固相杂交技术:固相杂交技术:Southern、Northern、Westernl 样本样本(sample):): 实验中用于研究的对象l 探针(探针(probe):):带有可检测标记(同位素,生物素或荧光染料等)的一小段已知序列的寡核苷酸,用于探测样本和样本核酸信息的互补序列(这里主要指Southern blot和Northern blot中的探针)n 绪论绪论Northern blotting过程和原理n 绪论绪论Southern过程和原理n 绪论绪论为什么为什么Northern和和Southern blotting中要转膜?中要转膜
6、?l 会扩散;l 胶容易碎,膜比较坚韧且对核酸的结合更加有效;l 探针获得难度大,在胶上需要用的探针量大基因组基因组的生物信息学分析的生物信息学分析 探针的设计与合成探针的设计与合成芯片的设计芯片的设计芯片的打印芯片的打印打印后处理打印后处理芯片成品芯片成品细胞样品的处理细胞样品的处理RNA的提取的提取反转录及反转录及cDNA的标记的标记标记样品的纯化标记样品的纯化杂交杂交扫描扫描数据处理数据处理综合信息分析综合信息分析n 技术路线技术路线信号读取信号读取n 技术路线技术路线 - 基因组的生物信息学分析基因组的生物信息学分析l 基因组的生物信息学分析:基因组的生物信息学分析:病毒基因组酶切图谱
7、,基因组的物理图谱,map unitDNA芯片探针:芯片探针: 用于探测样本DNA信息的互补序列。在传统杂交技术中通常标记探针,而在基因芯片中是指固定于基因芯片基质表面、能与样本DNA互补的核酸分子,不进行荧光标记。类型:类型:l cDNA探针(用于基因表达谱研究)l 寡核苷酸探针(可以用于所有研究领域,目前广泛应用于基因表达谱、基因分型和SNP研究)l 基因组DNA探针(比较基因组学研究)n 技术路线技术路线 - 探针的设计与合成探针的设计与合成n 技术路线技术路线 - 探针的设计与合成探针的设计与合成l cDNA探针的探针的制备:制备:cDNA文库 PCR扩增 电泳 PCR产物浓缩 浓度均
8、一化 打印探针l 基因组基因组DNA探针的探针的制备:制备:基因组DNA经限制性内切酶片段化 分别构建文库 打印探针l 寡核苷酸寡核苷酸探针的探针的制备:制备:直接合成DNA探针 打印探针探针设计的探针设计的原则原则:l 长度为50-70 mer(此长度考虑了灵敏度和特异性之间的平衡);l 在基因组中和目标区域外的序列相似性不超过15ntl 和其他物种同源性在源ORF内为相对最低的之一,具体的表现为,BLAST分值(bits)在40以内(即一般不超过20个核苷酸的与其他已知序列或位点同源);l G+C含量为40%-60%;l 连续相同的核苷酸不超过6个;l 二级结构:使oligo形成二聚体或者
9、发夹结构的连续核苷酸数不超过6个;l 离poly(A)的距离相对近n 技术路线技术路线 - 探针的设计与合成探针的设计与合成寡核苷酸探针(寡核苷酸探针( 60mer oligo )相对于)相对于cDNA 探针的优点:探针的优点:l 每一条序列都经过了优化,减少非特异性的杂交,能够有效地区分同源序列的基因;l 杂交温度均一,杂交效率高;l 减少二级结构;l 合成的产物浓度均一,避免因为样品浓度的差异而造成点样差异;l 无需扩增,防止因为扩增失败而影响实验 n 技术路线技术路线 - 探针的设计与合成探针的设计与合成空白对照:控制芯片制备过程的污染情况空白对照:控制芯片制备过程的污染情况;阳性内参:
10、对实验阳性结果的说明;阳性内参:对实验阳性结果的说明;阴性阴性内参:对实验阴性结果的说明;内参:对实验阴性结果的说明;n 技术路线技术路线 - 芯片的设计芯片的设计n 技术路线技术路线 - 芯片的打印芯片的打印 指放置探针到阵列表面的过程。一般都是通过针式点样仪或者是喷墨点样仪进行的。n 技术路线技术路线 - 芯片的打印芯片的打印l 基片(基片(substrate):):二维阵列中用于固定探针的固相支持物(基质)。经过特殊处理l 打印:打印:放置探针到阵列表面的过程,一般是通过针式点样仪或喷墨式点样仪打印l 原位合成原位合成法(法(in situ synthesised)( Affymetri
11、x )是原来用于电子芯片制作的光刻法(Photolithography),转为核酸序列的合成技术。利用光罩控制反应位置,将核苷酸分子依序列一个一个接上去;可大量生产超高密度的芯片。由于制程与光罩成本等因素,这种方法做出的探针长度约在25-mer以下;因此同一个基因需要多个探针对应,以避免误判。l Stanford型:型:由美国斯坦福大学开发的cDNA array的制作方法,将预先合成好的核酸探针布放于玻片载体上。 优点:设计较长的探针长度可增加专一性。 缺点:芯片密度较光罩法低,并须有良好的保存设计。n 技术路线技术路线 - RNA的提取的提取l Total RNA 制备制备:TRIZOL法l
12、 RNA样本的质量:样本的质量:16S和18S RNA(80%)很多,中间有smear带l RIN检测法(检测法(RNA Integrity Number):主要通过毛细管电泳进行检测 表达谱芯片中最广泛应用的标记方法是荧光标记法,其基本原理是利用标记分子在特定的波长范围内被激发光源激发产生荧光的特点,从而能够对含有标记分子的样本进行检测灵敏度高,定量检测灵敏度高,定量检测常用荧光标记物是花青素常用荧光标记物是花青素(cyanine)cyanine激发波长激发波长(nm)发射波长发射波长(nm)Cy3550570Cy5649670n 技术路线技术路线 反转录及反转录及cDNA的标记的标记n 技
13、术路线技术路线 反转录及反转录及cDNA的标记的标记 靶靶DNA(target DNA): 通常称待检测的核酸为靶DNA,又称靶序列,在基因芯片中标记的是靶DNA。反向杂交反向杂交ProbesmRNASample正向杂交正向杂交ProbemRNAsamplesn 技术路线技术路线 反转录及反转录及cDNA的标记的标记 为什么为什么基因芯片中基因芯片中只采用反向杂交,而只采用反向杂交,而不用正向不用正向杂交杂交?DNA microarrayProbesmRNASampleabcn 技术路线技术路线 反转录及反转录及cDNA的标记的标记 当探针量的浓度一定(且过量)时,荧光信号强度在一定范围内与靶
14、DNA量呈线性关系; 对于表达谱芯片,两种不同标记的靶cDNA混合后对同一张芯片进行杂交,杂交后两种荧光信号的比值就代表了该基因在两种组织中的表达差异n 技术路线技术路线 杂交杂交n 技术路线技术路线 清洗清洗清洗:清洗:杂交后必需步骤(可以用摇床) 当荧光标记的样品同探针结合后,就被固定在芯片的特定位置上。 当用激发光激发荧光素发射荧光后,就可用激光扫描荧光显微镜、激光共聚焦扫描显微镜、电荷偶联摄影像机(CCD)相机改进型荧光显微镜以及光纤传感器微阵列等仪器检测芯片上荧光的位置和强弱。 再经计算机记录和相关软件分析处理,就将荧光信号转换成数据。n 技术路线技术路线 扫描扫描 当探针量的浓度一
15、定(且过量时),当探针量的浓度一定(且过量时),荧荧光信号强度在一定范围内与靶光信号强度在一定范围内与靶DNA量量呈线性关系呈线性关系n 技术路线技术路线 扫描扫描l 芯片上一个荧光点面积约为0.005cm2,每个位点有106-107探针l 细胞中rRNA(80%)和tRNA(15%)转录本的拷贝数最多,mRNA(5%),最多的mRNA数量也不超过107个,所以芯片中的探针数量是冗余的Cy3灰度图灰度图Cy5灰度图灰度图Cy3伪彩图伪彩图Cy5伪彩图伪彩图Cy3和和Cy5叠加图叠加图n 技术路线技术路线 扫描扫描图像处理:图像处理: 这个过程开始于通过荧光扫描仪等信号检测设备产生的包含微阵列中
16、每个探针的信号强度信息的灰度图象,然后通过专业的软件对获得的灰度图像进行信号提取,这样就可以得到微阵列中每个探针的绝对信号值(其中包括背景信号值、总体信号值等),再获得这些数据之后还可以进行下面一些数据分析:按照不同算法计算每个探针的真实信号值、不同通道之间的归一化稀疏、探针的倍性变化、散点图等。n 技术路线技术路线 数据处理数据处理划格:划格: 将事先根据芯片型号定义好行列数的格子覆盖到芯片上,以确定样点的位置.n 技术路线技术路线 数据处理数据处理分割:分割:将杂交的荧光信号像素与背景像素分开n 技术路线技术路线 数据处理数据处理信息提取信息提取(intensity extraction)
17、: 包括计算荧光信号强度和背景强度,扣除背景,用一定的统计量衡量样点的质量以及对结果进行校正3. 数据可靠性分析数据可靠性分析4. 基因差异表达分析基因差异表达分析5. 芯片数据层级聚类和可视化芯片数据层级聚类和可视化6. 基因注释与功能分析基因注释与功能分析7. 基因芯片的应用基因芯片的应用n 数据可靠性分析数据可靠性分析误差误差:l 来自实验对象的误差:生物学误差生物学误差(biological variation)生物学重复(biological replication)l 来自实验者的误差:技术误差技术误差(technical variation)技术重复(technical repl
18、ication)l 来自实验技术本身的误差:系统误差系统误差(platform variation)有效的对照试验(control)基因芯片数据系统误差来源:基因芯片数据系统误差来源: 探针,点样,杂交,清洗,反转录成cDNA时荧光标记的效率,测量Cy3和Cy5的荧光强度自身比较实验(自身比较实验(self-comparison experiment,SCE):实验组和对照组的RNA来自同一份样本,在双色荧光标记系统中,两种荧光标记同一RNA,从理论上讲,所有基因的信号比值应该为1,在散点图上形成一条斜率为1的直线。n 数据可靠性分析数据可靠性分析归一化归一化 (normalization):
19、): 是指在微阵列数据分析过程中,通过某种算法校正微阵列数据使不同样本之间具有可比性的过程。1. 片片内内归一化归一化(内参:actin、hsp等):指对每张芯片进行独立的归一化,包括位置和离散度的归一化。n 数据可靠性分析数据可靠性分析2. 片间归一化:片间归一化:对多张芯片的数据进行归一化,使得不同实验之间可以进行比较。1. 1. 片片内内归一化归一化(内参:actin、hsp等):指对每张芯片进行独立的归一化,包括位置和离散度的归一化。106 cells+VirusReferencesampleExperimentalsampleTotal RNA extraction RNAsampl
20、eRNAsampleFlorescence labelingCy5-labeledcDNACy3-labeledcDNAHybridization,scanMergen 数据可靠性分析数据可靠性分析106 cells+Virus12 hpi24 hpi48 hpi72 hpiTotal RNA extraction RNAsampleRNAsampleRNAsampleRNAsampleFlorescence labelingLabeledcDNALabeledcDNALabeledcDNALabeledcDNAHybridization片片间间归一化归一化加等量的加等量的Spike-in R
21、NAn 数据可靠性分析数据可靠性分析n 数据可靠性分析数据可靠性分析RNA spike-in: An RNA spike-in is an RNA transcript used to calibrate measurements in a DNA microarray experiment. Each spike-in is designed to hybridize with a specific control probe on the target array. Manufacturers of commercially available microarrays typically
22、offer companion RNA spike-in kits. Known amounts of RNA spike-ins are mixed with the experiment sample during preparation. Subsequently the measured degree of hybridization between the spike-ins and the control probes is used to normalize the hybridization measurements of the sample RNA. 以以DNA为模板,通过
23、体外转录合成的带有为模板,通过体外转录合成的带有PolyA Tail的约的约1 kb的的RNA片段,具有片段,具有同芯片系列上点样的同芯片系列上点样的DNA片段(片段(DNA-A)互补的碱基序列)互补的碱基序列 荧光标记反应时,将适当量的本制品加入到RNA样品中进行标记杂交,可以观察标记、杂交的效果。 如果将等量的本制品分别加入到对照RNA样品和检测RNA样品中,可以对杂交反应后的信号强度进行校正。 polyA+ RNA-A:n 数据可靠性分析数据可靠性分析 实验实验中要用多个外参基因,且各外参基因的浓度不一样。一次芯片实验至少做中要用多个外参基因,且各外参基因的浓度不一样。一次芯片实验至少做
24、3块平衡的芯片(技术重复)(生物学重复是指做几次重复实验,以块平衡的芯片(技术重复)(生物学重复是指做几次重复实验,以解决解决实验对实验对象产生象产生误差误差)基因芯片检测结果的验证基因芯片检测结果的验证 l Northern blotl RT-PCRl qRT-PCRn 数据可靠性分析数据可靠性分析差异表达基因的确定差异表达基因的确定 阳性阳性基因:基因:差异表达的基因,包括上调表达基因和下调表达基因 通常采用基因在实验组和对照组中信号的比值衡量基因在两种状态下基因表达的差异 在双色荧光系统中,若Cy5标记试验组样本, Cy3标记对照组样本,则用Cy5/ Cy3的值来衡量基因的表达差异n 基
25、因差异表达分析基因差异表达分析log2R 与与 log2G散点图:散点图: 对于表达谱芯片,两种不同标记的靶cDNA混合后对同一张芯片进行杂交,杂交后两种荧光信号就代表了该基因在两种组织中的表达差异(纵坐标和横坐标分别是对照和实验组各基因的表达量) 用来表示在cDNA芯片中两个组织中基因表达量的比例信息,图中的x轴和y轴分别为Cy3和Cy5的荧光信号强度值或其log值。M-A散点图散点图: 将散点图坐标轴旋转45度,横轴为 A=1/2 log2RG,纵轴为M=log2R log2G,该图反映了差异表达随强度的分布,并且更易观察到两种荧光强度之间的一些非线性特征n 基因差异表达分析基因差异表达分
26、析倍数法倍数法 比值大于2或者小于0.5即认为表达有差异。大于2的是上调表达的基因,小于0.5的是下调表达的基因(事实上,判定差异表达基因的标准是人为确(事实上,判定差异表达基因的标准是人为确定,可以根据自己的研究设定适合的阈值)定,可以根据自己的研究设定适合的阈值)Scatter plot mapM-A plot mapA=1/2 log2RGn 基因差异表达分析基因差异表达分析真阳性真阳性(true positive)假阳性假阳性(false positive)真阴性真阴性(true negative)假阴性假阴性(false negative)真实改变并检测到没有改变但检测结果认为改变了
27、真实改变但没有检测到没有改变且检测结果一致的为什么芯片中信号亮度有差异?为什么芯片中信号亮度有差异?统计方法的灵敏度(公式):真阳性/(真阳性+假阴性)n 基因差异表达分析基因差异表达分析106 cellssamesamplesamesampleTotal RNA extraction RNAsampleRNAsampleFlorescence labelingCy5-labeledcDNACy3-labeledcDNAHybridization,scanMerge噪声噪声:芯片本身芯片本身生物学本身生物学本身n 基因差异表达分析基因差异表达分析n 芯片数据聚类分析和可视化芯片数据聚类分析和可
28、视化为什么要对表达模式类似的基因进行聚类为什么要对表达模式类似的基因进行聚类? 基因芯片数据分析的核心问题就是要鉴别出具有共同表达模式的基因,因为表达模式相近的基因往往具有相近或相似的特征(如共同的调节元件,共有的生物功能,或者共同的细胞起源),按表达模式把基因分成不同的种类可以探索一些基因的功能(如基因调控途径和网络),并得到对其生物机能及关联性的深入了解。另外,在医学研究中,通过对表达谱相近的样品进行聚类也有助于对病例进行分析。是不是所有生物学通路的变化都可以通过基因芯片检测得到?是不是所有生物学通路的变化都可以通过基因芯片检测得到?聚类分析聚类分析: 聚类分析是将一批样品或变量,按照他们
29、的性质上的亲疏程度进行分类,把相似的个体划分到相同的组别,把不相似的个体划分到不同组别。在没有关于数据的先验知识的情况下,可以对不同的样本或实验间的相似性进行研究。对于基因表达数据阵列来说,聚类的对象包括基因、样本和阵列n 芯片数据聚类分析和可视化芯片数据聚类分析和可视化层级聚类层级聚类 (hierarchical cluster)(hierarchical cluster) 先将n个样本看成n 类,计算类间的距离,在将相似性最高的两类合并为一个新类,得n 1类,再重新计算关系矩阵,不断重复这个过程,直至所有的基因融合成为一个大类。这种聚类方法得到类似于进化分析的系统树图,具有相似表达谱的基因
30、彼此临近,它们可能具有相似的功能。评判评判聚类聚类方法方法好坏好坏的标准的标准: 适用于大数据量;能应付不同的数据类型;能够发现了不同类型的聚类;使用专业知识要求到最低;能应付脏数据;Profiles of individual clustersProfiles of individual clustersAcMNPV-infected Sf9 cells or BmN cellsn 芯片数据聚类分析和可视化芯片数据聚类分析和可视化K-MEANSK-MEANS聚类聚类 (K-MEANS cluster)(K-MEANS cluster) 接受输入量 k ;然后将n个数据对象划分为 k个聚类以便
31、使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”(引力中心)来进行计算的。n 芯片数据聚类分析和可视化芯片数据聚类分析和可视化层级聚类和层级聚类和K-MEAN的区别的区别:层级聚类不需要先验知识,可以细分出更多小类;K-MEANS需要先验知识n 芯片芯片数据聚类分析和可视化数据聚类分析和可视化n 基因注释与功能分析基因注释与功能分析根据提供信息的类型一般注释基因芯片公司特有的注释资源Ensembl数据库LocusLink 数据库RefSeq数据库关于疾病的信息孟德尔遗传信息数据库蛋白质家族的信息InterP
32、ro数据库1.2. Transfac数据库数据库是一个真核生物转录因子数据库;目前最大的转录因子数据库;3. 转录因子研究中的统计学检验方法转录因子研究中的统计学检验方法Fisher精确概率检验精确概率检验用来决定两个绝对变量之间是否存在非随机相关性的一种统计学检验方法;判断基因芯片的实验数据与转录因子之间是否存在相关性。Kolmogorov-Smirov检验检验用来确定两组数量级数之间是否有相同的数值分布状态的一种很好的统计学方法;判断整个芯片上基因的分布状态是否与被检测的转录因子所调控的基因分布状态相同。4. Gene Ontology 数据库数据库(GO)是一是一个较大的公开的生物分类学
33、网络资源的一部分;个较大的公开的生物分类学网络资源的一部分;主要目的:主要目的:提供和维护基因本体论的类别;把基因与本体论联系起来,从而进行有效的的基因注释和信息提取;提供工具以便于对基因信息的利用。GO提供的三种本体论分类:提供的三种本体论分类:分子功能,生物学过程和细胞组分。5. KEGG数据库数据库是迄今为止向公众开放的最为著名的生物学通路方面的资源网站。是迄今为止向公众开放的最为著名的生物学通路方面的资源网站。KEGG数据库主要由三部分组成:数据库主要由三部分组成:KEGG基因部分,KEGG化学部分和KEGG蛋白网络MicroarrayMicroarray技术的标准技术的标准MGED:
34、Microarray gene expression data societyMIAME:Minimum information about a microarray experimentMAGE-ML:MicroArray gene expression markup languagen 基因芯片的应用基因芯片的应用基因芯片的应用基因芯片的应用 基因芯片的突出特点在于快速、高效、平行化、自动化等。现已应用于多种研究领域:基因组测序;基因表达分析;寻找新基因;突变基因检测以及基因多态性分析;基因诊断;药物筛选。 临床临床肿瘤肿瘤学学、遗传多态性遗传多态性、个性化个性化用药用药、基因拷贝数基因拷贝数变化变化、感染感染性疾病性疾病、DNA甲基化分析甲基化分析