1、基因表达数据的获得与分析基因芯片数据的基础分析思路基因芯片数据的基础分析思路l 预处理预处理l 差异表达基因筛选差异表达基因筛选l 聚类与分类聚类与分类l 功能注释和富集分析功能注释和富集分析差异表达基因筛选差异表达基因筛选l 表达谱分析的主要目的之一就是挑出差异表表达谱分析的主要目的之一就是挑出差异表达的基因。达的基因。l 何谓显著表达差异?何谓显著表达差异?它通常是指一个基因在两个条件中表达水平的检它通常是指一个基因在两个条件中表达水平的检测值在排除实验、检测等因素外,达到一定的差测值在排除实验、检测等因素外,达到一定的差异,具有统计学意义,同时也具有生物学意义。异,具有统计学意义,同时也
2、具有生物学意义。l 在两个或多个条件下比较识别有显著表达差在两个或多个条件下比较识别有显著表达差异的基因异的基因,从中识别出与条件相关的特异性,从中识别出与条件相关的特异性基因基因 例如,识别可用于肿瘤分型的特异基因等。例如,识别可用于肿瘤分型的特异基因等。筛选差异表达基因的方法筛选差异表达基因的方法l 倍数法倍数法l 假设检验法假设检验法 -t检验检验 -方差分析法方差分析法(ANOVA)-SAM(Significance Analysis of Microarrays)-信息熵信息熵倍数法(倍数法(fold change)l 最早应用于基因芯片数据分析的方法,也是常用方法最早应用于基因芯片
3、数据分析的方法,也是常用方法l 一般一般0.5-2.00.5-2.0范围内的基因不存在明显的表达差异范围内的基因不存在明显的表达差异,该范围之外则认为基因的表达出现明显改变该范围之外则认为基因的表达出现明显改变.l 优点是计算简单直观,缺点是倍数阈值的选取是任意优点是计算简单直观,缺点是倍数阈值的选取是任意的的,而且而且没有考虑到差异表达的统计显著性没有考虑到差异表达的统计显著性,忽视了,忽视了变化小的基因变化小的基因contrlcasexxcFold_实验样本中的表达值对照样本中的表达值1G1,21NSaSaSa212121212122221222211121111211MNMMMNMMNN
4、NNbbbaaabbbaaabbbaaa2,21NSaSaSa2GMGt检验检验(t-test)l 判断基因在判断基因在两种两种不同条件下的表达差不同条件下的表达差异是否具有显著性异是否具有显著性nsnsxxtcontrlcasecontrlcase/221G1,21NSaSaSa212121212122221222211121111211MNMMMNMMNNNNbbbaaabbbaaabbbaaa2,21NSaSaSa2GMG方差分析方差分析(ANOVA)l 其目的是推断两组或多组资料的总体均数是否相同其目的是推断两组或多组资料的总体均数是否相同,检验检验两类或多类样本两类或多类样本均数的差
5、异是否有统计学意义均数的差异是否有统计学意义l 它将基因在样本之间的它将基因在样本之间的总变异总变异分解为分解为组间变异组间变异和和组组内变异内变异两部分。通过方差分析的假设检验判断组间两部分。通过方差分析的假设检验判断组间变异是否存在,如果存在则表明基因在不同条件下变异是否存在,如果存在则表明基因在不同条件下的表达有差异。的表达有差异。2)(ijijxxSS总2)(xxnSSiii组间2)(ijiijxxSS组内组间组间组间vMSSS组内组内组内vMSSS组内组间MSMSF l SAM是通过是通过FDR值矫正多重假设检验中的值矫正多重假设检验中的假阳性率假阳性率l SAM 分析步骤 计算统计
6、量,是计算统计量,是t统计量的修正统计量的修正 扰动实验条件扰动实验条件,计算扰动后的基因表达,计算扰动后的基因表达的相对差异统计量的相对差异统计量 计算扰动后的平均相对差异统计量计算扰动后的平均相对差异统计量 估计估计FDR(false discovery rate)021ssxxdpdpEdPd1SAM(significance analysis of microarrays)(#)(#tddoftddofFDRpl 确定差异表达基因阈值:以最小确定差异表达基因阈值:以最小 的正值和最大的负值作为统计阈的正值和最大的负值作为统计阈 值,运用该阈值,统计在值中超值,运用该阈值,统计在值中超
7、过该阈值的假阳性基因个数,估过该阈值的假阳性基因个数,估 计假阳性发现率计假阳性发现率FDRFDR值。值。l 通过调整通过调整FDRFDR值的大小得到差异值的大小得到差异 表达基因。表达基因。SAM(significance analysis of microarrays)实现程序实现程序ldata-read.table(C:R实现实现miRNA_expression_all.txt,header=T);lrownames(data)-data,1;ldata-data,-1;l d-data,1:60;l n-data,61:75;l fold_change-apply(d,1,mean)/
8、apply(n,1,mean);#fold_change值值l ttest-matrix(0,nrow=dim(data)1,ncol=2);l for(i in 1:dim(data)1)l t-t.test(ni,di,var.equal=T);l ttesti,1-t$statistic;l ttesti,2-t$p.value;l#t检验的检验的P值和值和t统计量统计量l fdr 1.5且且fdr_BH0.1l index1-(fold_change1.5);l index2-fdr0.1;l index-index1&index2;l result-cbind(rownames(da
9、ta),fold_change,ttest,fdr);l colnames(result)-c(miRNA,Fold_change,TSores,PValues,fdr_BH);l result-resultindex,;l write.table(result,C:R实现实现up_down_gene.txt,row.names=F,quote=F,sep=t);差异表达基因结果差异表达基因结果15个表达下调个表达下调miRNA20个表达上调个表达上调miRNAl结果结果基因芯片数据的基础分析思路基因芯片数据的基础分析思路l 预处理预处理l 差异表达基因筛选差异表达基因筛选l 聚类聚类与分类与
10、分类l 功能注释和富集分析功能注释和富集分析引言引言l物以类聚,人以群分物以类聚,人以群分基于物体的相似性将物体分成不同的组基因表达谱数据的聚类基因表达谱数据的聚类l对基因进行聚类对基因进行聚类识别功能相关的基因识别功能相关的基因识别基因共表达模式识别基因共表达模式l对样本进行聚类对样本进行聚类质量控制质量控制检查样本是否按已知检查样本是否按已知 类别分组类别分组亚型识别亚型识别距离尺度函数(相似性)距离尺度函数(相似性)l几何距离几何距离欧氏距离欧氏距离,切氏距离切氏距离 马氏距离马氏距离,明氏距离明氏距离l线性相关系数线性相关系数 皮尔森相关系数皮尔森相关系数l非线性相关系数非线性相关系数
11、斯皮尔曼秩相关斯皮尔曼秩相关l其他其他kplkjlilijxxd11)|(明氏距离明氏距离ixjxijd令表示样品与的距离 npnnppxxxxxxxxx212222111211设原始数据为特别地,当k1时,即为绝对值距离绝对值距离pljlilijxxd1当k2时,即为欧氏距离欧氏距离pljlilijxxd12)(当k时,即为切比雪夫距离切比雪夫距离jlilplijxxd1max几何距离几何距离123452018104471055325.236.328.911.5171x2x3x3124224)(lllxxd222)5.113.36()510()418(欧氏距离欧氏距离切比雪夫距离切比雪夫距离
12、lllxxd423124max8.245.113.3624d计算变量间相似系数变量间相似系数yyxxxyninikikjijkiknijijjkssxxxxxxxxr2111221变量jx和kx的相关系数:皮尔森相关系数皮尔森相关系数斯皮尔曼秩相关系数斯皮尔曼秩相关系数又称等级相关系数,或顺序相关系数,是将两要素的样本值按数据的大小顺序排列位次,以各要素样本值的位次代替实际数据而求得的一种统计量。层次聚类层次聚类l层次聚类算法将研究层次聚类算法将研究对象按照它们的相似对象按照它们的相似性关系用性关系用树形图树形图进行进行呈现,进行层次聚类呈现,进行层次聚类时时不需要预先设定类不需要预先设定类别
13、个数别个数,树状的聚类,树状的聚类结构可以展示结构可以展示嵌套嵌套式式的类别关系。的类别关系。层次聚类层次聚类l在对含在对含非单独对象的类非单独对象的类进行合并或分进行合并或分裂时,常用的裂时,常用的类间度量方法类间度量方法 ijqjpipqdd,min类p与q之间的距离pq ijqjpipqdd,maxqpxxpqddpiqjijqppqdnnd221l欧氏距离欧氏距离+最小距离最小距离ADl欧氏距离欧氏距离+最小距离最小距离并并类类距距离离并并类类距距离离l欧氏距离欧氏距离+最小距离最小距离并并类类距距离离并并类类距距离离l欧氏距离欧氏距离+最小距离最小距离并并类类距距离离决定类的个数与类
14、 观察此图,我们可以把4个样品分为2类 CDA,B、聚类法的基本步骤:聚类法的基本步骤:1.计算n个样品两两间的距离 ,记作D=。2.构造n个类,每个类只包含一个样品。3.合并距离最近合并距离最近的两类为一新类。4.计算新类与各当前类的距离计算新类与各当前类的距离。5.重复步骤3、4,合并距离最近的两类为新类,直到所有的类并为一类为止。6.画聚类谱系图。7.决定类的个数和类。ijd ijd准则:同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的原理或不同层次聚类层次聚类l确定类别个数?确定类别个数?相似性阈值相似性阈值指定类别数指定类别数层次聚类层次聚类l疾病的遗传异质性疾病的遗传
15、异质性Genetic heterogeneity refers to multiple origins causing the same disorder in different individuals.层次聚类层次聚类层次聚类层次聚类层次聚类层次聚类lCoupled two-way clustering(CTWC)采用嵌套式基因和疾病采用嵌套式基因和疾病两个方向的循环搜索,两个方向的循环搜索,识别识别疾病亚类疾病亚类及导致及导致疾病亚类发生的对应疾病亚类发生的对应基因簇基因簇程序程序l index-rownames(data)%in%result,1;l#聚聚miRNal diff_expr-dataindex,;l hc-hclust(dist(diff_expr),ave);l plot(hc,hang=-1);l#聚样本聚样本l diff_expr2-t(diff_expr);hc-hclust(dist(diff_expr2),ave);plot(hc,hang=-1,cex=0.5);