1、基因芯片数据分析基因芯片数据分析r 1.基因芯片基因芯片(Microarray)简介简介r 2.图像处理与数据标准化图像处理与数据标准化r 3.基因芯片的数据分析基因芯片的数据分析1.基因芯片简介基因芯片简介r 基因芯片基因芯片(1987):固定有寡核苷酸、固定有寡核苷酸、DNA或或cDNA等等的生物芯片。利用这类芯片与标记生物样品进行杂的生物芯片。利用这类芯片与标记生物样品进行杂交,可对样品基因表达谱生物信息进行快速定性和交,可对样品基因表达谱生物信息进行快速定性和定量分析。定量分析。r 高通量、点阵以及高通量、点阵以及Northern杂交杂交|同时测定细胞内数千个基因的表达情况同时测定细胞
2、内数千个基因的表达情况|将将mRNA反转录成反转录成cDNA与芯片上的探针杂交与芯片上的探针杂交r 芯片的体积非常小:微量样品的检测芯片的体积非常小:微量样品的检测r 基因表达情况的定量分析基因表达情况的定量分析生物芯片的基本要点生物芯片的基本要点1、芯片方阵的构建:、芯片方阵的构建:芯片制备是先将玻璃片或硅片进行芯片制备是先将玻璃片或硅片进行表面处理,然后使表面处理,然后使DNA片断或蛋白质分子等生物分子按片断或蛋白质分子等生物分子按顺序排列在芯片上的过程。顺序排列在芯片上的过程。2、样品的制备:、样品的制备:生物样品往往是非常复杂的生物分子混生物样品往往是非常复杂的生物分子混合体,除少数特
3、殊样品外,一般不能直接与芯片反应。合体,除少数特殊样品外,一般不能直接与芯片反应。可将样品进行处理,获取其中的蛋白质或可将样品进行处理,获取其中的蛋白质或DNA、RNA,并且加以标记,以提高检测的灵敏度。并且加以标记,以提高检测的灵敏度。3、生物分子反应:、生物分子反应:生物分子反应为芯片上的生物分子之生物分子反应为芯片上的生物分子之间的反应,是芯片检测的关键一步。通过选择合适的反间的反应,是芯片检测的关键一步。通过选择合适的反应条件使生物分子间反应处于最佳状态中,减少生物分应条件使生物分子间反应处于最佳状态中,减少生物分子之间的错配率。子之间的错配率。4、信号检测:、信号检测:常用的芯片信号
4、检测方法是将芯片置入芯常用的芯片信号检测方法是将芯片置入芯片扫描仪中,进行信号检测,以获得有关生物学信息。片扫描仪中,进行信号检测,以获得有关生物学信息。将样品中的将样品中的DNA/RNA标上标上荧荧光光标记,则可以定量检验基标记,则可以定量检验基因的表达水平因的表达水平碱基互补碱基互补基因芯片的密度:基因芯片的密度:100-1 million DNA 探针探针/1cm2A.按技术手段、探针类型分类按技术手段、探针类型分类r 1.Short oligonucleotide arrays(Affymetrix)r 2.cDNA arrays(Brown/Botstein)r 3.Long oli
5、go arrays(Agilent)r 4.Serial analysis of gene expression(SAGE)B.按实验要求分类按实验要求分类r 1.单通道单通道(Single Channel):一次检验一种状态一次检验一种状态 r 2.双通道双通道(Dual Channel):差异表达基因的筛选差异表达基因的筛选基因芯片技术的类型基因芯片技术的类型(1).cDNA microarrays:将将5005,000bp的的cDNA固载固载到介质上到介质上(例如玻璃例如玻璃)。Stanford开发设计,通常开发设计,通常为双通道,常用于为双通道,常用于差异表达基因的筛选。差异表达基因的
6、筛选。(2).DNA chips:将寡核苷酸探针将寡核苷酸探针(2080-mer)合成到合成到芯片上。芯片上。Affymetrix开发设计,通常为单通道,开发设计,通常为单通道,一次检验一种状态一次检验一种状态。两类主流的两类主流的DNA芯片芯片载玻片载玻片cDNA clones(1)cDNA microarraysTreatment/controlNormal/tumor tissueBrain/liver荧光标记的靶基因差差异表达基因的筛选异表达基因的筛选(2)DNA chipsr 探针长度:探针长度:25 bpr 每个基因:每个基因:22-40个探针个探针r Perfect Match(
7、PM)vs.MisMatch(MM)probesDNA chips的制备:的制备:Affymetrix photolitographyA.选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等选择硅片、玻璃片、瓷片或聚丙烯膜、尼龙膜等支持物支持物B.采用光导化学合成和照相平板印刷技术在硅片等采用光导化学合成和照相平板印刷技术在硅片等表面合成寡核苷酸探表面合成寡核苷酸探针针;或者通过液相化学合成寡核苷酸链探针,或或者通过液相化学合成寡核苷酸链探针,或PCR技术扩增基因序列,技术扩增基因序列,由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定量由阵列复制器,或阵列机及电脑控制的机器人,将不同探针样品定
8、量点点样样于带正电荷的尼龙膜或硅片等相应位置上于带正电荷的尼龙膜或硅片等相应位置上C.紫外线交联固定紫外线交联固定后即得到后即得到DNA微阵列或芯片微阵列或芯片三、基因芯片数据分析三、基因芯片数据分析r 1.基因芯片基因芯片(Microarray)简介简介r 2.图像处理与数据标准化图像处理与数据标准化r 3.基因芯片的数据分析基因芯片的数据分析2.图像处理与数据标准化图像处理与数据标准化单单通道基因芯片通道基因芯片 white(very high)red(high)Yellow(a little high)green(medium)blue(low)black(no)植根区域生长法植根区域生
9、长法(SRG)Fixed Circle1.栅格化:确定点的位置栅格化:确定点的位置2.图象分割图象分割(Segmentation):将点从背景中分离出来。:将点从背景中分离出来。3.抽提亮度:各个像素亮度的平均值抽提亮度:各个像素亮度的平均值(mean)或中位数或中位数(median)4.背景校正:局部或全局背景校正:局部或全局图像处理图像处理对于每个点,可以计算对于每个点,可以计算 Red intensity =Rfg-Rbgfg=foreground,bg=background,and Green intensity=Gfg-Gbgand combine them in the log(b
10、ase 2)ratio Log2(Red intensity/Green intensity)Green intensity(medium):1基因表达量的定量基因表达量的定量r 1.图像分析图像分析r 2.扫描扫描r 3.DNA杂交过程杂交过程(温度、时间、混合均匀温度、时间、混合均匀程度等程度等)r 4.探针的标记探针的标记r 5.RNA的抽提的抽提r 6.加样加样r 7.其他其他 log signal intensity log RNA abundance系统误差系统误差随机误差随机误差Microarray:误差的来源误差的来源运用哪些基因进行标准化处理运用哪些基因进行标准化处理r 芯片
11、上大部分基因芯片上大部分基因(假设芯片上大部分基因在不同假设芯片上大部分基因在不同条件下表达量相同条件下表达量相同)r 不同条件间稳定表达的基因不同条件间稳定表达的基因(如持家基因如持家基因)r 控制序列控制序列(spiked control)(spiked control)合成合成DNADNA序列或外源的序列或外源的DNADNA序列,在不同条件下表序列,在不同条件下表达水平相同。达水平相同。beforeafter数据标准化数据标准化目的是消除系统偏差引起的高相关性,同时保留由真正生物目的是消除系统偏差引起的高相关性,同时保留由真正生物学原因引起的基因表达水平高相关性。学原因引起的基因表达水平
12、高相关性。三、基因芯片数据分析三、基因芯片数据分析r 1.基因芯片基因芯片(Microarray)简介简介r 2.图像处理与数据标准化图像处理与数据标准化r 3.基因芯片的数据分析基因芯片的数据分析3.基因芯片的数据分析基因芯片的数据分析(1)差异表达基因的分析差异表达基因的分析(2)基因共表达分析基因共表达分析(3)基因表达数据的聚类基因表达数据的聚类(4)基因表达数据的分类基因表达数据的分类(5)Map to GO(6)Gene regulatory network(1)差异表达基因的分析差异表达基因的分析r 差异表达基因的分析差异表达基因的分析:寻找处理前后表达上调或寻找处理前后表达上调
13、或者下调的基因者下调的基因r Are the treatments different?r 使用标准的统计学方法检验使用标准的统计学方法检验(t-test or f-test),发,发现统计显著性差异表达的基因,现统计显著性差异表达的基因,r 如果处理本身并不显著,则结果无意义如果处理本身并不显著,则结果无意义r Fold change,一般一般2-fold increase or decrease(平行实验的样本较少平行实验的样本较少)r p-value(平行实验的样本较多平行实验的样本较多)under-expressedover-expressed/2/2统计学分析统计学分析r T-tes
14、t:学生分布学生分布r Excel函数:函数:TTEST(array1,array2,tails,type)|Array1为第一个数据集为第一个数据集|Array2为第二个数据集为第二个数据集|Tails指示分布曲线的尾数。如果指示分布曲线的尾数。如果 tails=1,函数,函数 TTEST 使用单尾分布。如果使用单尾分布。如果 tails=2,函数,函数 TTEST 使用双尾分使用双尾分布布|Type为为 t 检验的类型检验的类型1 成对成对 2 等方差双样本检验等方差双样本检验 3 异方差双样本检验异方差双样本检验 P-value:学生分布学生分布r 一般选择双尾分布一般选择双尾分布r 异
15、方差双样本检验异方差双样本检验r Excel函数:函数:=TTEST(B2:D2,E2:G2,2,3)r C:对照组;:对照组;T:实验组:实验组C1C2C3T1T2T3TTESTGene 11.3221.6761.4573.5264.2343.8790.001988P-value:学生分布学生分布(2)基因共表达分析基因共表达分析r 在在N个不同的条件下个不同的条件下(时间序列的芯片数据时间序列的芯片数据),考察基,考察基因因X和和Y的表达是否相似。的表达是否相似。r Gene 1#是否与是否与Gene 2#、Gene 3#和和Gene 4#共表达?共表达?r 共表达:共表达:|正相关:相似
16、的表达谱,可能存在正关联正相关:相似的表达谱,可能存在正关联|负相关:相反的表达谱,可能存在负调控负相关:相反的表达谱,可能存在负调控Eisen MB,et al.,(1998)PNAS 95:14863-14868Gene NameT1T2T3T4T5T6Gene 1#123456Gene 2#100200300400550610Gene 3#660540430320210101Gene 4#150421535725451670998r r -1,1|r 1,正相关,正相关|r-1,负相关,负相关Gene 1#Gene 2#Gene 3#Gene 1#Gene 2#0.996368Gene
17、3#-0.99988-0.99611Gene 4#0.2452920.254855-0.2395r 结论:Gene 1#与Gene 2#表达正相关,与Gene 3#表达负相关,与Gene 4#无关联基因相关性分析:基因相关性分析:Pearson相关系数相关系数Excel函数:函数:=PEARSON(array1,array2)(3)基因表达数据的聚类基因表达数据的聚类r 将表达谱相似的基因聚类在一起将表达谱相似的基因聚类在一起r 发现新的模式发现新的模式r 聚类方法:聚类方法:|A.Hierarchical clustering|B.K-means clusteringr 用用树状结构树状结构
18、来表征基因表达之间的来表征基因表达之间的相似性相似性/相关性相关性Object123451223654109459853Distance matrixDistanceCluster01,2,3,4,52(1,2),3,4,53(1,2),3,(4,5)4(1,2),(3,4,5)5(1,2,3,4,5)Cluster Tree0123456DistancesOBJECT1OBJECT2OBJECT3OBJECT4OBJECT5A.Hierarchical clusteringr 对数据进行聚类对数据进行聚类r 必须给定结果分成多必须给定结果分成多少类少类r 假设该例中,指定为假设该例中,指定为
19、聚成聚成5类类B:K-means clusteringr 软件:软件:Cluster 3.0,Michael Eissen,Stanfordr 最终结果:所有基因最终结果:所有基因芯片数据被聚成芯片数据被聚成5类类B:K-means clustering(4)基因表达数据的分类基因表达数据的分类r 根据基因表达的数据将样本分成两类或多类根据基因表达的数据将样本分成两类或多类r 督导学习督导学习(supervised learning):根据发现的模式:根据发现的模式进行预测进行预测r 应用:应用:|癌症癌症 vs.正常组织正常组织|癌症的亚型、不同阶段癌症的亚型、不同阶段(良性的良性的 vs.
20、恶性的恶性的)|对药物的敏感性对药物的敏感性(tamoxifen for breast cancer)(5)Map to GOr 通过基因芯片,找到了一批通过基因芯片,找到了一批“interesting”的基的基因因r 生物学功能上是否存在关联?生物学功能上是否存在关联?r 基因本体(基因本体(Gene Ontology,GO):):GO数据库把数据库把基因基因的功能分为三类:分子功能,生物学过程和的功能分为三类:分子功能,生物学过程和细胞组分。在每一个分类中,都提供一个描述功细胞组分。在每一个分类中,都提供一个描述功能信息的分级结构。能信息的分级结构。(5)Map to GO研究者可以通过研
21、究者可以通过GOGO分类号将分类与具体基因联系起来,从而分类号将分类与具体基因联系起来,从而对基因的功能进行描述。在芯片的数据分析中,研究者对基因的功能进行描述。在芯片的数据分析中,研究者可以找出哪些变化基因属于一个共同的可以找出哪些变化基因属于一个共同的GOGO功能分支,并功能分支,并用统计学方法检用统计学方法检定结定结果是否具有统计学意义,从而得出果是否具有统计学意义,从而得出变化基因主要参与了哪些生物功能。变化基因主要参与了哪些生物功能。r 比较著名的基于比较著名的基于GOGO分类法的芯片数据分析网络平台有七分类法的芯片数据分析网络平台有七十多个十多个:Name Internet Sit
22、eOnto-Tools http:/vortex.cs.wayne.edu/projects.htmGOToolBox http:/burgundy.cmmt.ubc.ca/GOToolBox/GOstat http:/gostat.wehi.edu.au/GFINDer http:/www.medinfopoli.polimi.it/GFINDer/EASE http:/david.abcc.ncifcrf.gov/ease/ease.jsp(6)Gene regulatory networkr 早期观点:表达谱相似的基因可能存在功能上的早期观点:表达谱相似的基因可能存在功能上的关联,可能有
23、相互作用关联,可能有相互作用(直接作用直接作用)。r 当前的观点:表达谱相似的基因可能具有共同的当前的观点:表达谱相似的基因可能具有共同的调控元件调控元件(基因基因UTR区域存在共同的区域存在共同的Promotor),能够被同一个上游因子所调控。能够被同一个上游因子所调控。基因转录调控网络基因转录调控网络基因转录调控网络是以转录因子和受调控基因作为节点,基因转录调控网络是以转录因子和受调控基因作为节点,以调控关系作为边的有向网络以调控关系作为边的有向网络。基因转录调控数据库基因转录调控数据库1.TRANSFAC数据库 http:/www.gene- http:/wwwmgs.bionet.ns
24、c.ru/mgs/gnw/trrd/TRRD数据库是在不断积累的真核生物基因调控区结构功能特性信息基础上构建的。每一个TRRD的条目里包含特定基因各种结构功能特性:转录因子结合位点、启动子、增强子、静默子、以及基因表达调控模式等。3.RegulonDB数据库 http:/regulondb.ccg.unam.mx/RegulonDB数据库是一个提供转录起始和调控网络信息的数据库。蛋白质互作网络蛋白质互作网络代谢网络和信号传导网络代谢网络和信号传导网络代谢通路代谢通路 是指细胞中代谢物在酶的作用下转化为新的是指细胞中代谢物在酶的作用下转化为新的代谢物过程中所发生的一系列生物化学反应代谢物过程中所
25、发生的一系列生物化学反应。代谢网络代谢网络 是指由代谢反应以及调节这些反应的调控机是指由代谢反应以及调节这些反应的调控机制所组成的描述细胞内代谢和生理过程的网络制所组成的描述细胞内代谢和生理过程的网络。信号传导信号传导 是指细胞将一种类型的生物信号或刺激转换是指细胞将一种类型的生物信号或刺激转换为其它生物信号最终激活细胞反应的过程为其它生物信号最终激活细胞反应的过程。信号传导信号传导网络网络 是指参与信号传导通路的分子和酶以及是指参与信号传导通路的分子和酶以及其间所发生的生化反应所构成的网络。其间所发生的生化反应所构成的网络。(一一)通路数据库通路数据库 KEGG数据库 http:/www.genome.jp/kegg/KEGG数据库是关于基因、蛋白、生化反应以及通路的综合生物信息数据库。KEGG代谢通路来源:KEGG数据库BioCyc数据库 http:/www.biocyc.org/BioCye数据库是为不同物种单独构建的代谢通路数据库的合集。信号传导通路信号传导通路网络无处不在,手机、电视、火车、汽车网络无处不在,手机、电视、火车、汽车