《基因芯片技术》第8章-利用基因芯片进行差异表达基因分析课件.ppt_163文库

资源描述

1、基因芯片技术基因芯片技术Gene chip technology内容提要：内容提要：l第一节第一节差异表达基因分析差异表达基因分析l第二节第二节聚类分析聚类分析l第三节第三节主成分分析主成分分析第第8章章利用基因芯片进行差异表达基因分析利用基因芯片进行差异表达基因分析第一节第一节差异表达基因分析差异表达基因分析单张单张cDNAcDNA芯片差异表达基因芯片差异表达基因Aerobic 需氧Anaerobic不需氧差异表达基因分析差异表达基因分析l基因表达谱芯片实验的主要目的之一是发现两个样基因表达谱芯片实验的主要目的之一是发现两个样本间差异表达基因。本间差异表达基因。l通常采用基因在实

2、验组和对照组中信号的比值作为通常采用基因在实验组和对照组中信号的比值作为衡量基因在两种状态下基因的表达差异。衡量基因在两种状态下基因的表达差异。l在双色荧光系统中，用在双色荧光系统中，用Cy5/Cy3Cy5/Cy3的比值来衡量基因的的比值来衡量基因的表达差异，也称表达差异，也称表达差异值表达差异值。差异表达基因分析差异表达基因分析l在在AffymetrixAffymetrix等短的寡核苷酸芯片中，采用单色荧等短的寡核苷酸芯片中，采用单色荧光标记的方式，实验组和对照组分别用两张芯片进光标记的方式，实验组和对照组分别用两张芯片进行检测，行检测，表达差异值即为两张芯片的信号比值表达差异值即为两张芯片

3、的信号比值。l噪声和芯片本身的一些因素以及生物学本身的特点噪声和芯片本身的一些因素以及生物学本身的特点给筛选差异表达基因带来了很大的麻烦。给筛选差异表达基因带来了很大的麻烦。l必须设定一个差异表达基因的判定标准。这个筛选必须设定一个差异表达基因的判定标准。这个筛选的标准就称为差异表达基因的的标准就称为差异表达基因的阈值阈值。如何确定差异表达基因的阈值如何确定差异表达基因的阈值倍数法倍数法l优点：简单、直接。优点：简单、直接。l缺点：没有考虑差异表达的统计显著性。比如，在某个实验中，缺点：没有考虑差异表达的统计显著性。比如，在某个实验中，基因表达水平的变化不大，如果选择判别域值为基因表达水平的变

4、化不大，如果选择判别域值为2 2倍，则有可能倍，则有可能找不到几个差异表达的基因，假阴性率比较高。但如果是主观找不到几个差异表达的基因，假阴性率比较高。但如果是主观缩小判断域值，又有可能增大假阳性率。缩小判断域值，又有可能增大假阳性率。Z Z值法值法 l在一张在一张cDNAcDNA芯片上一般都点了很多基因，其实这些基芯片上一般都点了很多基因，其实这些基因中只有一小部分表达有差异，所以一般都因中只有一小部分表达有差异，所以一般都假设假设表达表达的比率值满足正态分布的比率值满足正态分布。lZ=(X-Z=(X-)/)/.|Z|=1.96.|Z|=1.96l在寡核苷酸芯片中，芯片上的基因在相应实验条件

5、下在寡核苷酸芯片中，芯片上的基因在相应实验条件下或相应组织中也只有一小部分基因有表达，可以或相应组织中也只有一小部分基因有表达，可以假定假定强度满足对数正态分布强度满足对数正态分布，同样可以对其作，同样可以对其作Z Z变换，使其变换，使其具有统计意义。具有统计意义。Z Z值法值法缺点：缺点：l如果实验体系中没有一条差异表达的基因，如果实验体系中没有一条差异表达的基因，Z Z值法还是值法还是会挑选出会挑选出5 5的差异表达基因的差异表达基因。这是因为在芯片实验中，。这是因为在芯片实验中，总有一些由于背景噪声产生的假阳性点。总有一些由于背景噪声产生的假阳性点。l如果实际上实验中有大量的基因表达发

6、生改变，如果实际上实验中有大量的基因表达发生改变，Z Z值法值法还是机械的找出还是机械的找出5 5的差异表达基因，丢失了一部分真的差异表达基因，丢失了一部分真阳性点。阳性点。排秩统计量法排秩统计量法l选择一个统计量给基因排秩（研究多，方法多）选择一个统计量给基因排秩（研究多，方法多）l为排秩统计量选择一个阈值，在阈值之上的值将为排秩统计量选择一个阈值，在阈值之上的值将被认为是表达差异显著的值被认为是表达差异显著的值重复芯片（重复芯片（replicatesreplicates）M M值法值法l根据比率平均值或根据比率平均值或M M值对基因排序。值对基因排序。M M值为信号强值为信号强度比值的度比

7、值的log2log2值，值，M M杠是任一特定基因在重复序列杠是任一特定基因在重复序列中中M M值的均值。值的均值。l缺点：这一排序法忽略了一个基因在重复实验中缺点：这一排序法忽略了一个基因在重复实验中的不同芯片上表达水平的差异程度。例如，可能的不同芯片上表达水平的差异程度。例如，可能某一个基因在某一张芯片上某一个基因在某一张芯片上M M值很大，但在其他芯值很大，但在其他芯片上片上M M值很小，其实这条基因并没有差异表达，但值很小，其实这条基因并没有差异表达，但由于个别由于个别M M值的影响，从而显示出一个差异表达的值的影响，从而显示出一个差异表达的特性，造成假阳性特性，造成假阳性。T T值排

8、序值排序l假如一个基因在几张重复芯片的假如一个基因在几张重复芯片的M M值都很小，值都很小，但是这些但是这些M M值非常接近，所以值非常接近，所以s s值也非常小，这值也非常小，这样可能会导致样可能会导致t t值很大，从而会把这个本没有值很大，从而会把这个本没有差异表达的基因误认为差异表达。差异表达的基因误认为差异表达。修正的修正的T T值法值法l修正值由样本方差的均数和标准差估计而得。修正值由样本方差的均数和标准差估计而得。结果显示：在一个模拟的数据集中，虽然带有结果显示：在一个模拟的数据集中，虽然带有一些经验性质，但用修正一些经验性质，但用修正t-t-统计量给基因排秩统计量给基因排秩比用均

9、数和一般的比用均数和一般的t-t-统计量效果要好。统计量效果要好。单通道寡核苷酸芯片差异基因（两个样本直接比较）单通道寡核苷酸芯片差异基因（两个样本直接比较）Affymetrix，illumina芯片由于有探针重复，可以利用统计方法芯片由于有探针重复，可以利用统计方法计算出一个统计性的计算出一个统计性的P值或者值或者score值，筛选差异表达基因。值，筛选差异表达基因。不同类样本差异基因识别不同类样本差异基因识别评价一组数的统计量评价一组数的统计量l平均值平均值标准差标准差232.7232.7198.2198.2137.7137.784.384.3218.6218.6181.5181.521

10、6.7216.78787比较多组数的方法比较多组数的方法lT检验：平均值检验：平均值lF检验：检验：方差方差SAM（significance analysis of microarrays）微阵列显著性分析微阵列显著性分析在单通道在单通道Oligo芯片中，尤其芯片中，尤其是是affymetrix芯芯片数据分析中片数据分析中用得较多用得较多双通道双通道cDNA芯片数据分析用得较多芯片数据分析用得较多False Discovery Rate(FDR)错误发现率错误发现率l统计学家都想用更符合统计学的手段得到差异基统计学家都想用更符合统计学的手段得到差异基因，即通过假设检验后，赋予每个基因统计显著

11、因，即通过假设检验后，赋予每个基因统计显著性或者性或者P P值，使得每个基因的判别更有统计学上值，使得每个基因的判别更有统计学上的意义。的意义。l为了达到这个目的，统计学家们常常用控制错误为了达到这个目的，统计学家们常常用控制错误发现率（发现率（False Discovery RateFalse Discovery Rate）的方法来判断）的方法来判断差异基因。错误发现率是评估检验统计显著性的差异基因。错误发现率是评估检验统计显著性的最有力工具之一。最有力工具之一。Multiple test(P-value adjustment)多重检验（多重检验（P-价值判断）价值判断）火山图（火山图（vo

12、lcano plot）lStatistical test:P-value（统计检验：P值）lFold change:Ratio（折叠变换：比率）其他方法lB-statistics(Smyth,2004)lBayes T-test(Baldi and Long,2001)lSAMROC(Broberg,2002)lZhao-Pan method(Zhao and Pan,2003)l lImproved Detection of Differentially Expressed Genesl对差异表达基因的改良性观测对差异表达基因的改良性观测 lTime series microarray da

13、taset 微阵列数据的时间序列微阵列数据的时间序列聚类：聚类：发现一些未知的细胞状态、疾病的亚型以及一些能识别这些样本状态的基因，或者说发现一类功能相似的基因或者一类有共同调控机制的基因。归类（分类）归类（分类）：基于已有知识，并有改进现有知识的潜力，通过训练分类器来辨识与已知细胞状态或疾病亚型相类似的样本，或者是与已知的共调控基因表达相似的基因。第二节第二节基因芯片聚类分析基因芯片聚类分析分类分类(classification)(classification)分类(classification)l样本分类情况已知l分类基因选取l分类准确性判断：准确率，相关性层级聚类方法：层级聚类方法

14、：得到类似于进化分析的系统树图，具有相似表达谱的基因彼此得到类似于进化分析的系统树图，具有相似表达谱的基因彼此临近，他们可能具有相似的功能。临近，他们可能具有相似的功能。其重要思想是：先将其重要思想是：先将n个样本看成个样本看成n类，计算类间的距离，再将类，计算类间的距离，再将相似性最高的两类合并成为一个新类，得到相似性最高的两类合并成为一个新类，得到n-1类，再重新计算类，再重新计算关系矩阵，不断重复这个过程直至所有的基因融合成为一个关系矩阵，不断重复这个过程直至所有的基因融合成为一个基因表达数据矩阵基因表达数据矩阵(Affymetrix GeneChip(Affymetrix GeneCh

15、ip oligonucleotide arrays)oligonucleotide arrays)Gene expression table X：log sam/ref intensitiesX0:gene is overexpressedX0:gene is underexpressed 基因表达数据矩阵基因表达数据矩阵(glass slides)Gene expression table X：log red/green intensitiesX0:gene is overexpressedX0:gene is underexpressed 数据矩阵具体形式数据矩阵具体形式数据形式数据形式对

16、任意一个基因来说，样本值是特征值，数据的维数是对任意一个基因来说，样本值是特征值，数据的维数是M对任意一个样本来说，基因值是特征值，数据的维数是对任意一个样本来说，基因值是特征值，数据的维数是N数据矩阵数据矩阵,基因数远大于样品数。基因数远大于样品数。聚类时，考查基因间的相似性，从数学上讲就是看对应的聚类时，考查基因间的相似性，从数学上讲就是看对应的M M维维数据之间的相似性。数据之间的相似性。Cluster&TreeviewCluster&Treeview软件软件Cluster&TreeviewCluster&Treeview软件软件Genesis软件软件预分析（预分析（Pre-Analys

17、is）l重复值合并（重复值合并（replicate handling）l数据转换和标准化（数据转换和标准化（data transformation and standardization）l缺失数据处理（缺失数据处理（missing value management）l基因筛选（基因筛选（pattern selection）重复值合并重复值合并在特定条件下把所有的重复值合并成一个数值可能更为方便，在特定条件下把所有的重复值合并成一个数值可能更为方便，而这一个值是给定基因而这一个值是给定基因/条件的代表。条件的代表。通常的合并：计算这些重复值的集中趋势指标，如均数、中位通常的合并：计算这些重复值

18、的集中趋势指标，如均数、中位数或众数。但是，使用一个集中趋势指标代替一组数值意味着数或众数。但是，使用一个集中趋势指标代替一组数值意味着信息的丢失，因此数据的合并应谨慎。信息的丢失，因此数据的合并应谨慎。去除奇异值：可以通过计算原始数据的均数和标准差，去除位去除奇异值：可以通过计算原始数据的均数和标准差，去除位于给定区间外的数据（如均数加减于给定区间外的数据（如均数加减3个标准差外的数据）。剩个标准差外的数据）。剩余的数据重新计算均数和标准差，并消除给定区间外的数据。余的数据重新计算均数和标准差，并消除给定区间外的数据。重复值合并：重复值合并：数据转换和标准化数据转换和标准化l数据变换的目的：

19、在尽量保证原始数据特征不数据变换的目的：在尽量保证原始数据特征不变的前提下，使变换后的数据更适于进行统计变的前提下，使变换后的数据更适于进行统计分析。分析。l对数转化（对数转化（log-transformationlog-transformation）l中心化处理（中心化处理（centercenter）l单位圆化单位圆化l正态化（均值为正态化（均值为0 0，方差为，方差为1 1）缺失数据处理缺失数据处理l芯片上的某些点可能因为芯片的缺陷、点像素强度达芯片上的某些点可能因为芯片的缺陷、点像素强度达到饱和、点像素强度非常小等因素而产生异常的数据到饱和、点像素强度非常小等因素而产生异常的数据点，在数

20、据的预处理阶段把这些数据点删除。点，在数据的预处理阶段把这些数据点删除。l未观测点未观测点l若后续的统计分析要求数据满足完整性，如特征基因若后续的统计分析要求数据满足完整性，如特征基因提取的奇异值分解、某些基因的聚类分析方法等，则提取的奇异值分解、某些基因的聚类分析方法等，则需要对含有缺失值的数据进行处理需要对含有缺失值的数据进行处理 l删除含有缺失值的整条记录，这种方法操作简单，但删除含有缺失值的整条记录，这种方法操作简单，但却因为个别值的缺失而删除整个记录，可能丢失大量却因为个别值的缺失而删除整个记录，可能丢失大量有价值的信息有价值的信息 l填充或修补缺失数据填充或修补缺失数据缺失数据的处

21、理缺失数据的处理l固定值法，比如固定值法，比如0 0或者或者1 1l行平均法行平均法l使用重复数据点对缺失数据进行填充。对于生物学重使用重复数据点对缺失数据进行填充。对于生物学重复中缺失数据的填充应慎重，应当使用尽量同质的样复中缺失数据的填充应慎重，应当使用尽量同质的样品对缺失值进行估计。品对缺失值进行估计。l使用基因间的相关性对缺失数据进行填充。使用基因间的相关性对缺失数据进行填充。奇异值分奇异值分解法，解法，KNNKNN法。法。l其他方法，最小二乘法拟合修补，方差迭代分析，最其他方法，最小二乘法拟合修补，方差迭代分析，最大可能性分析大可能性分析缺失数据的处理方法缺失数据的处理方法KNN法

22、K最近邻法（最近邻法（K-nearest neighborhood method）：）：假定某个基因在某个指标上含有缺失值，计算含缺失值假定某个基因在某个指标上含有缺失值，计算含缺失值的基因与在该指标上无缺失的基因间的相似性指标。的基因与在该指标上无缺失的基因间的相似性指标。与该基因相似性最大的与该基因相似性最大的K个基因称为该基因的个基因称为该基因的K个最近个最近邻，这邻，这K个基因在该指标上的数据就是估计该基因缺失个基因在该指标上的数据就是估计该基因缺失数据的基础，估计值可以是这数据的基础，估计值可以是这K个基因在该指标上的均个基因在该指标上的均数，也可以是这数，也可以是这K个基因的加权均

23、数。个基因的加权均数。在加权均数中，权重为上面计算的基因间的相似性。在加权均数中，权重为上面计算的基因间的相似性。K值的确定具有一定的经验性，但不宜太大和太小。值的确定具有一定的经验性，但不宜太大和太小。基因筛选（基因筛选（gene selection）l在进行分析之前，要在进行分析之前，要先选择用来分析的基因先选择用来分析的基因。芯片中的基。芯片中的基因有上万条，相应的数据矩阵也有上万行时，要预先进行因有上万条，相应的数据矩阵也有上万行时，要预先进行基因的滤取，否则既会增加运算的难度，又会引入了不必基因的滤取，否则既会增加运算的难度，又会引入了不必要的基因，更增加了解释结果的难度。要的基因，

24、更增加了解释结果的难度。l去掉无效基因去掉无效基因，当某条基因在表达谱数据中的无效数据个，当某条基因在表达谱数据中的无效数据个数超过一定范围时，该基因就被认为是一条无效基因，在数超过一定范围时，该基因就被认为是一条无效基因，在聚类分析中不考虑该基因。一条基因表达谱数据的波动很聚类分析中不考虑该基因。一条基因表达谱数据的波动很小，即数据的方差小于一定范围，意味着这条基因与所要小，即数据的方差小于一定范围，意味着这条基因与所要研究的生物过程或对象关联很小，也可滤掉。研究的生物过程或对象关联很小，也可滤掉。基因筛选基因筛选针对特别目的针对特别目的的基因筛选，的基因筛选，如筛选不同类如筛选不同类之间差

25、异表达之间差异表达基因，常用假基因，常用假设检验的方法，设检验的方法，比如比如t检验、检验、F检验等。检验等。发展新算法新算法新角度新角度合并多种方法合并多种方法第三节第三节主成分分析主成分分析（Principle Component Analysis，PCA）不改变整体数据矩阵的数据结构，去除数据的冗不改变整体数据矩阵的数据结构，去除数据的冗余性，常用主成分分析法。余性，常用主成分分析法。降维概述降维概述降维：指将样降维：指将样本从输入空间本从输入空间通过线性或非通过线性或非线性映射到一线性映射到一个低维空间。个低维空间。降维：将高维数据转换为易于处理的低维数据，减少了无用信降维：将高维数

26、据转换为易于处理的低维数据，减少了无用信息和冗余信息，减少了后续的计算量。当降至三维以下时，可息和冗余信息，减少了后续的计算量。当降至三维以下时，可以使用可视化技术，从而发挥人在低维空间感知上的优点，发以使用可视化技术，从而发挥人在低维空间感知上的优点，发现数据集的空间分布、聚类性质等结构特征现数据集的空间分布、聚类性质等结构特征。主成分分析（PCA，principal component analysis）l对于一组原始随机变量为对于一组原始随机变量为X X1 1,X,Xp p，寻找一个新的变量，寻找一个新的变量Z Z1 1，这，这个新的变量是原始变量的线性组合，个新的变量是原始变量的线性组

27、合，Z Z1 1=a=a1111X X1 1+a+a2121X X2 2+a+ap1p1X Xp p，并使得并使得Z Z1 1的变异最大化的变异最大化lZ1Z1即为原始变量的最大主成分，它使用一个变量试图最大化即为原始变量的最大主成分，它使用一个变量试图最大化地包含一组变量的变异。通常一个变量还不足够，因此，需地包含一组变量的变异。通常一个变量还不足够，因此，需要寻找第二个主成分要寻找第二个主成分Z2Z2，Z2Z2与与Z1Z1不相关，且是除不相关，且是除Z1Z1外具有最外具有最大方差的原始变量的线性组合。大方差的原始变量的线性组合。主成分分析主成分分析本章小结本章小结:l确定两个基因表达是否有

28、差异，需要确定一个阈值，确定两个基因表达是否有差异，需要确定一个阈值，超过这个值，两个基因表达就有差异。阈值的确定需超过这个值，两个基因表达就有差异。阈值的确定需要依赖很多数学算法，常用的有：倍数法、要依赖很多数学算法，常用的有：倍数法、Z值法、排值法、排秩统计量法等。秩统计量法等。l对于重复芯片的差异基因表达分析，常用方法有：对于重复芯片的差异基因表达分析，常用方法有：M值值法、法、T值排序法、值排序法、P值检验等。值检验等。l聚类的目的是发现一些未知的细胞状态、疾病的亚型聚类的目的是发现一些未知的细胞状态、疾病的亚型以及一些能识别这些样本状态的基因，或者说发现一以及一些能识别这些样本状态的

29、基因，或者说发现一类功能相似的基因或者一类有共同调控机制的基因。类功能相似的基因或者一类有共同调控机制的基因。其中最常用的方法是层级聚类，其中最常用的方法是层级聚类，Cluster&Treeview是是最常用的聚类分析软件之一。最常用的聚类分析软件之一。本章小结本章小结:l在筛选差异表达基因时，先要对数据进行预分析，在筛选差异表达基因时，先要对数据进行预分析，即对重复值进行合并、对数据进行转换和标准化处即对重复值进行合并、对数据进行转换和标准化处理，对缺失数据进行处理。预分析之后，才能进行理，对缺失数据进行处理。预分析之后，才能进行基因筛选。基因筛选。l如果想不改变整体数据矩阵的数据结构，并去

30、除数如果想不改变整体数据矩阵的数据结构，并去除数据的冗余性，常用主成分分析法，其中最主要的思据的冗余性，常用主成分分析法，其中最主要的思想是对数据进行降维处理。想是对数据进行降维处理。思考题思考题：l在分析两个基因表达是否有差异是，需要确定阈在分析两个基因表达是否有差异是，需要确定阈值，常用确定阈值的方法有哪些？优缺点是什么？值，常用确定阈值的方法有哪些？优缺点是什么？l聚类和分类的区别？聚类和分类的区别？l什么是层级聚类？什么是层级聚类？l请简要介绍缺失数据的处理方法请简要介绍缺失数据的处理方法-KNN法？法？l在筛选差异表达基因时，对数据进行预分析的主在筛选差异表达基因时，对数据进行预分析的主要步骤有哪些？要步骤有哪些？l主成分分析的主要思想是什么？主成分分析的主要思想是什么？lThe End lThank you

展开阅读全文