1、第七章第七章 生物芯片生物芯片2023-5-131本章提要本章提要:生物芯片被誉为20世纪生物学最重大发明技术之一。本章首先对生物芯片作了简要介绍,然后从生物芯片的分类、基本原理、应用和数据的处理与分析几个角度学习生物芯片有关的基本知识。2023-5-13 数理与生物工程学院27.1生物芯片简介生物芯片简介 生 物 芯 片(B i o c h i p)又 称 微 阵 列(microarray)。这一名词是20世纪80年代初提出来的,美国海军实验室Carter等科学家试图把有机功能分子或生物活性分子进行组装,构建微功能单元,实现信息的获取、储存、处理和传输功能。真正的生物芯片出现于20世纪90年
2、代,DNA微阵列技术自1995年诞生之时,就被预言为具有划时代意义的技术,将从根本上改变生物科技的面貌。2023-5-13 数理与生物工程学院3 生物芯片将生命科学研究中所涉及的不连续的分析过程(如样品制备、化学反应和分析测试),利用微电子、微机械、化学、物理技术、计算机技术在固体芯片表面构建的微流体分析单元和系统,使之集成化、微型化。2023-5-13 数理与生物工程学院4生物芯片主要是指采用光导原位合成或微量点样等技术,将大量生物分子如核酸片断、多肽片断、组织切片、细胞等有序地固定于支持物(如玻片、硅片、聚丙烯酰胺、尼龙膜等)的表面,组成密集、有序的二维分子阵列,然后与已标记的待测生物样品
3、中靶分子杂交,通过特定的仪器如激光共聚焦扫描或电荷偶联摄像机(CCD)对杂交信号的强度进行快速、并行、高效的检测分析,从而判断样品中靶分子的数量。2023-5-13 数理与生物工程学院5 微阵列的主要应用在于对基因表达问题的研究,特别是在人类基因组和其它生物基因组计划完成之后,我们需要从全基因组水平定量或定性检测转录产物mRNA。基因表达数据与基因组数据相比,更为复杂,数据量更大,数据的增长更快。基因表达数据中包含着基因活动的信息,可以反映细胞当前的生理状态。2023-5-13 数理与生物工程学院6 通过对该数据矩阵的分析,可以回答一系列的生物学问题:基因的功能是什么?在不同条件或不同细胞类型
4、中,哪些基因的表达存在差异?在特定条件下,哪些基因的表达发生了显著变化,这些基因受到哪些基因的调节,或控制哪些基因的表达?2023-5-13 数理与生物工程学院7微阵列广泛应用的另一个重要原因是为了 理 解 基 因 网 络(n e t w o r k)或 通 路(pathway)。传统的分子生物学方法针对“一个基因一个实验”的设计思路,其通量极为有限,同时也无法获得基因功能的整体框架。2023-5-13 数理与生物工程学院8 例如,传统方法研究基因之间相互作用关系的方法之一是通过“基因敲除”技术来实现,只能在很小规模上观测对相同或不同组织中对其它基因表达的影响,而微阵列可以在单一芯片上同时监测
5、整个基因组的变化,因而可以同时理解成千上万个基因之间的相互作用,对整个表达谱有一全面理解。2023-5-13 数理与生物工程学院9生物芯片会对21世纪的生命科学和医学的发展产生巨大的影响,可以大大促进后基因组计划的各项研究。通过比较不同个体或物种之间以及同一个体在不同生长发育阶段,正常和疾病状态下基因转录及其表达的差异,寻找和发现新基因,研究它们在生物体发育、遗传、进化等过程中的功能。2023-5-13 数理与生物工程学院10生物芯片还将在研究人类重大疾病如癌症、心血管病等相关基因及其相互作用机理方面发挥重要作用。在预防医学方面,生物芯片可以使人们尽早认识自身潜在的疾病,并实施有效的防治。20
6、23-5-13 数理与生物工程学院117.2生物芯片的种类生物芯片的种类7.2.1 生物芯片的分类生物芯片的分类 1、根据支持介质划分 制备芯片的固相支持介质有玻片、硅片、聚丙烯酰胺、尼龙膜等。选择固相支持介质考虑的主要因素有:荧光背景的大小、化学稳定性、结构复杂性、介质对化学修饰作用的反应、介质表面积及其承载物能力及非特异性吸附程度等因素。2023-5-13 数理与生物工程学院12 2、根据制备方法划分 芯片制备的方法主要有原位合成和直接点样法。其中原位合成的代表技术是先引导聚合法,其中最具有代表性的有Affymetrix公司的多寡核苷酸微阵列,此外还有喷墨打印合成法,代表是Agilent公
7、司的微阵列。直接点样法用聚丙烯酰胺凝胶作为支持介质,将凝胶固定在玻璃上,然后将合成好的不同探针分别加到不同的胶块上,制成以胶块为阵点的芯片。2023-5-13 数理与生物工程学院13 3、根据芯片上固定的探针划分 生物芯片按其探针分为基因芯片(Gene Chip)、蛋白质芯片(Protein Chip)、细胞芯片、组织芯片等。如果芯片上固定的分子是寡核苷酸探针或DNA,就是DNA芯片。DNA芯片又细分为寡核苷酸芯片、DNA芯片和基因芯片。2023-5-13 数理与生物工程学院147.2.2 几种常见的生物芯片几种常见的生物芯片 1、基因芯片 基因芯片是目前最重要的生物芯片,又称DNA芯片(DN
8、A Chip)或DNA微阵列(DNA microarray)。2023-5-13 数理与生物工程学院15基因芯片这一技术方法是1991年首次提出的,该技术将成千上万的探针同时固定于支持物上,所以一次可以对大量的DNA分子或RNA分子进行检测分析,从而解决了传统核酸印迹杂交等技术复杂、自动化程度低、检测目的分子数量少、低通量等不足。而且,通过设计不同的探针阵列(array),还 可 以 用 于 序 列 分 析,称 为 杂 交 测 序(SBH)。2023-5-13 数理与生物工程学院16 基因芯片以其无可比拟的信息量、高通量、快速、准确的分析基因的能力,在基因功能研究、基因诊断及药物筛选等方面显示
9、了巨大的威力,被称为是基因功能研究领域的最伟大发明之一。基因芯片以其高通量、并行检测等特点适应了分析人类基因组计划对海量生物信息提取、分析的需要。2023-5-13 数理与生物工程学院17 深入研究基因突变和基因表达的有效方法的需求是基因芯片发展的动力。结构基因组学研究所有基因的结构和染色体定位,用传统的方法费时费力,基因表达谱研究基因表达产物在机体发育、分化及疾病中的作用巨大。由于基因芯片高速度、高通量、集约化和低成本的特点,诞生以后就受到科学界的广泛关注。2023-5-13 数理与生物工程学院182、蛋白质芯片蛋 白 质 芯 片,又 称 蛋 白 质 微 阵 列(protein microa
10、rray),是指固定于支持介质上的蛋白质构成的微阵列。蛋白质芯片与基因芯片类似,是在一个基因芯片大小的载体上,按使用目的的不同,点布相同或不同种类的蛋白质,然后再用标记了荧光染料的蛋白质结合,扫描仪上读出荧光强弱,计算机分析出样本结果。2023-5-13 数理与生物工程学院19从理论上讲,蛋白质芯片可以对各种蛋白质进行检测,弥补基因芯片检测的不足,不仅适合于抗原、抗体的筛选,同样也可用于受体配体的相互作用的研究,具有一次性检测样本巨大、相对低消耗、计算机自动分析结果以及快速、准确等特点。2023-5-13 数理与生物工程学院20基因芯片通过检测mRNA的丰度或者DNA的拷贝数来确定基因的表达模
11、式和表达水平,然而mRNA的表达水平(包括mRNA的种类和含量)并不能反应蛋白质的表达水平,许多功能蛋白质还有翻译后修饰和加工,如磷酸化、羰基化、乙酰化、蛋白质水解等修饰,直接进行蛋白质分析是蛋白质组研究领域的重要内容。2023-5-13 数理与生物工程学院21 目前蛋白质组学研究的主要技术是质谱(MS)和双向凝胶电泳(2DPAGE)。MS是一种十分有用的检测工具,但目前尚不能用于定量分析;2D-PAGE技术由于样本需求量大、操作复杂也不能满足医学诊断的需求。因而,蛋白质芯片刚刚兴起就成为研究热点。2023-5-13 数理与生物工程学院22 蛋白质芯片技术的优点主要体现在;能够快速并且定量分析
12、大量蛋白质;蛋白质芯片使用相对简单,结果正确率较高,只需对少量血样标本进行沉降分离和标记后,即可加于芯片上进行分析和检测;相对传统的酶标ELISA分析,蛋白质芯片采用光敏染料标记,灵敏度高准确性好。此外,蛋白芯片的所需试剂少,可直接应用血清样本,便于诊断,实用性强。2023-5-13 数理与生物工程学院23 3、组织芯片 组织芯片是将多种组织切片代替核酸或蛋白质,按照一定顺序固定在玻片上。其优点在于可以原位检测信号发生的位置,缺点是切片较大,因而不能在一张片子上大规模固定多个样品。同时,由于组织切片的样品来源很不稳定,每张玻片之间都不相同,重复性和稳定性一直是一主要问题。不过,将芯片概念引入免
13、疫组化和原位杂交中确实是一概念和技术上的突破。2023-5-13 数理与生物工程学院247.3 基因芯片的基本原理基因芯片的基本原理7.3.1 基因芯片基本原理和基本流程基因芯片基本原理和基本流程 7.3.1.1基因芯片的基本原理基因芯片的基本原理基因芯片的原型是20纪80年代中期提出的。基因芯片的基本原理是通过杂交的方法,即通过与一组已知序列的核酸探针杂交进行核酸的分析。2023-5-13 数理与生物工程学院25基因芯片有寡核苷酸芯片、cDNA芯片和Genomic芯片之分,包括两种模式:一是将靶DNA固定于支持物上,适合于同一探针对不同靶DNA的分析;二是将大量探针分子固定于支持物上,适合于
14、对同一靶DNA进行不同探针序列的分析。2023-5-13 数理与生物工程学院26根据基因芯片的应用又主要分为两大类:用于研究基因型和用于检测RNA的表达。从本质上来讲,前者实际上是利用基因芯片进行序列分析,其中包括识别DNA序列的突变和研究DNA的多态性;而后者则是利用基因芯片研究序列的功能。7.3.1.2 基因芯片的基本流程基因芯片的基本流程图8-1 cDNA微阵列工作流程图2023-5-13 数理与生物工程学院28基因芯片技术包括四个主要步骤:芯片制备、样品制备、杂交反应、信号检测和结果分析。首先提出基因芯片所要解决的问题,确定研究目标,例如,研究基因的SNP。检测或分析DNA的变异或者进
15、行基因差异表达的研究。2023-5-13 数理与生物工程学院29根据所要解决的问题,选择一组特定的基因对象。其次,根据所选择的基因序列,设计探针序列以及探针在芯片上的分布。然后根据设计结果制备基因芯片,制备方法大致分为在片合成法和点样法。接下来就是对靶基因即待测样品进行扩增和标记,然后进行杂交实验,并对基因芯片的杂交结果进行检测,最后根据获得的荧光图谱,进行数据处理分析,报告检测结果,并将相应的数据存入数据库。2023-5-13 数理与生物工程学院30 1、基因芯片的制备 基因芯片的制备主要包括两个方面:一是基因芯片的设计;二是基因芯片的制作。前者又包括基因芯片上探针的设计和探针在芯片上布局的
16、设计。2023-5-13 数理与生物工程学院31 1)基因芯片设计:目的在于提取更多的生物分子信息,并提高信息的可靠性。基因芯片设计包括寡核苷酸探针或cDNA探针设计、探针布局和芯片优化。根据参照序列设计探针,尽可能使最终芯片的荧光检测图像中完全互补杂交信号突出,提高基因芯片检测的可靠性。芯片优化是指在设计后续阶段对芯片制备过程进行优化,如减少制备芯片所需要的掩膜板,精简探针合成环节。2023-5-13 数理与生物工程学院32在芯片设计的不同阶段,都要用到信息学中的优化方法,如探针优化、布局优化及芯片优化。各种基因芯片的功能不同,相应的芯片设计要求和设计方法也有所不同,必须根据具体的芯片功能采
17、用不同的设计方法。基因芯片两大不同应用是基因组规模的DNA变异分析和基因表达比较分析,从芯片设计方面来看,这两大类应用具有许多共同的要求,但在一些重要的方面却存在着很大的差异,必须在设计方面加以考虑。2023-5-13 数理与生物工程学院33 在进行探针设计和布局时必需考虑以下几个方面:互补性:探针与待检测的目标序列片段互补;敏感性和特异性:要求探针仅仅对特定目标序列片段敏感,而对其他序列不产生杂交信号;容错性:通过探针设计,提高基因芯片检测的容错性,常用的方法是使用冗余探针;2023-5-13 数理与生物工程学院34可靠性:通过探针设计,提高基因芯片检测的可靠性;可控性:在基因芯片上设置质量
18、监控探针,以便于监控基因芯片产品的质量;可读性:通过探针布局,使得最终的杂交检测图像便于观察理解,如将检测相关基因的探针放在芯片上相邻的区域;高信号量的探针不要影响到其他探针的信号。2023-5-13 数理与生物工程学院35 在探针设计方面,最重要的是所有探针的杂交温度要尽量接近。为了提高芯片对杂交错配的辨别能力,人们提出了一种优化设计方法。该方法的基本思想是通过动态调节各个探针的长度及探针之间的覆盖长度,使所设计的各个探针的解链温度Tm最大程度地保持一致,从而有效地提高对碱基杂交错配的辨别能力,提高基因芯片检测结果的可靠性。2023-5-13 数理与生物工程学院36 采用生物信息学中常用的动
19、态规划算法进行优化,以使得各个探针具有相近解链温度作为优化目标,筛选并优化组合各候选探针。在优化组合时要求各探针的长度和相邻探针之间的交叠长度满足给定的约束条件,经过优化组合以后得到一组覆盖目标序列的探针。2023-5-13 数理与生物工程学院37 2)基因芯片的制作。要成功的制作芯片,需要准备三大材料:准备固定在芯片上的生物分子样品(即探针)、芯片片基和制作芯片的仪器。2023-5-13 数理与生物工程学院38 研究目的不同,期望制作的芯片类型不同,制备芯片方法也不尽相同,以DNA芯片为例,基本上可分为两大类:一类是原位合成(即在支持物表面原位合成寡核苷酸探针),适用于寡核苷酸;另一类是点样
20、法,预合成后直接点样多用于大片段DNA,有时也用于寡核苷酸,甚至cDNA。2023-5-13 数理与生物工程学院39 原位合成有两种途径,一是原位光刻合成(Affymetri公司专利技术),该方法的主要优点是可以用很少的步骤合成极其大量的探针阵列。采用的技术原理是在合成碱基单体的5羟基末端连上一个光敏保护基。合成的第一步是利用光照射使羟基脱离保护,然后将一个5端保护的核苷酸单体连接上去,这个过程反复进行直至合成完毕。2023-5-13 数理与生物工程学院40使用多种掩盖物能以更少的合成步骤生产出高密度的阵列,在合成循环中探针数目呈指数增长。某一个含n个核苷酸的寡聚核苷酸,通过4n个化学步骤能合
21、成出4n个可能结构。2023-5-13 数理与生物工程学院41例如,合成8核苷酸探针,要通过32个化学步骤,8个小时可合成65536个探针。用该方法合成的探针阵列密度可高达106个/cm2。另一种原位合成是压电打印法(piezoelectric printing),原理与普通的彩色喷墨打印机相似,所用技术也是常规的固相合成方法。通过4个喷印头将4种碱基按序列要求依次喷印在芯片的特定位点上,喷印头可在整个芯片上移动。支持物经过包被后,根据芯片上不同位点探针的序列需要将特定的碱基喷印在芯片上特定位置。2023-5-13 数理与生物工程学院42 该技术采用的化学原理与传统的DNA固相合成一致,因此不
22、需要特殊制备的化学试剂。每步产率可达到99以上,可以合成出长度为4050个碱基的探针。尽管如此,原位合成方法仍然比较复杂,除了在基因芯片研究方面享有盛誉的Affymetrix等公司使用该技术合成探针外,其他中小型公司大多使用合成点样法。2023-5-13 数理与生物工程学院43 点样法是将预先通过液相化学合成的探针,或PCR技术扩增cDNA,或基因组DNA经纯化、定量分析后,通过由阵列复制器(arraying and replicating device,ARD)或阵列点样机(arrayer)及电脑控制的机器人,准确、快速地将不同探针样品定量点样于带正电荷的尼龙膜或硅片等相应位置上(支持物应事
23、先进行特定处理,例如以带正电荷的多聚赖氨酸或氨基硅烷),再由紫外线交联固定后即得到DNA微阵列或芯片。2023-5-13 数理与生物工程学院44 点样的方式分两种:其一为接触式点样,即点样针直接与固相支持物表面接触,将DNA样品留在固相支持物上;其二为非接触式点样,即喷点,它是以压电原理将DNA样品通过毛细管直接喷至固相支持物表面。2023-5-13 数理与生物工程学院45 2靶基因(待测)样品的制备 生物样品往往是非常复杂的生物分子混合体,除少数特殊样品外,一般不能直接与芯片反应,必须将样品进行生物处理。根据基因芯片的检测目的不同,可以将样品制备方法分为用于表达谱测量的mRNA样品制备和用于
24、多态性(或突变)分析的基因样品的制备,由于这两种不同的基因芯片在探针设计上有较大的区别,靶基因制备的实验方法也不完全一样。2023-5-13 数理与生物工程学院46与普通分子生物学实验一样,靶基因的制备需要运用常规手段从细胞或组织中提取模板分子,从血液或活组织中获取的DNA/mRNA样品在标记成为探针以前必须进行扩增提高阅读灵敏度,但这一过程操作起来却有一定的难度。例如在一个癌细胞中有成千上万个正常基因在干扰癌基因的检测,对癌基因进行高效、特异地扩增就不是一件很容易的事。因为在一般溶液中进行PCR扩增时,由于靶片段太少,故存在其他不同的DNA片段与其竞争引物的情况。2023-5-13 数理与生
25、物工程学院47美国 Mosaic Technologies公司发展了一种固相 PCR系统,优于传统 PCR技术,此系统在靶 DNA上设计一对双向引物,将其排列在丙烯酰胺薄膜上,每套都可以从靶基因两头延伸。当引物和DNA样品及PCR试剂相混合时,如果样品包含靶序列,DNA就从引物两头开始合成,并在引物之间形成双链DNA环或“桥”。2023-5-13 数理与生物工程学院48由于上述反应在固相中产生,因而避免了引物竞争现象,并可减少残留物污染和重复引发。这种方法无交叉污染且省去液相处理的繁琐。LynxTheqeuhcs公司提出另一个革新 的 方 法,即 大 规 模 平 行 固 相 克 隆(massi
26、vely parallel solidphase cloning)可以对一个样品中数以万计的DNA片段同时进行克隆,且不必分离和单独处理每个克隆,使样品扩增更为有效快速。2023-5-13 数理与生物工程学院49 对于检测表达的芯片,样品制备通常涉及mRNA的纯化、cDNA的合成、体外转录或者PCR、标记等步骤;而对于SNP或者突变的检测,则往往涉及基因组DNA的纯化和PCR、标记等步骤。在模板扩增过程中,实现对靶基因的标记,根据样品来源、基因含量、检测方法和分析目的不同,采用的基因分离、扩增及标记方法各异。待测样品的标记方法有荧光标记法、生物素标记法、放射性核素标记法等。2023-5-13
27、数理与生物工程学院50 目前采用的最普遍的荧光标记方法是通过在扩增过程中加入含有荧光标记的dNTP(至少一种为荧光标记),在转录和复制过程中荧光标记的单核苷酸分子被引入新合成的DNA片段。2023-5-13 数理与生物工程学院51对于表达芯片分析,常用的几种方法制备和标记靶基因:将纯化的样品RNA通过特定的引物逆转录合成单链cDNA靶基因,在合成的过程中掺入标记物;或者先将待测样品的RNA转录合成cDNA,再进一步通过加入标记物进行体外转录合成cRNA单链靶基因,或者将合成的cRNA加标记物和特殊引物进行PCR扩增,制备成标记的双链靶基因。而对于SNP芯片和突变检测,则需要将纯化的基因组DNA
28、用特定的引物扩增并进行标记。2023-5-13 数理与生物工程学院523靶基因的杂交及其信号的检测和分析 基因芯片与靶基因的杂交过程与一般常规的分子杂交过程基本相同。其杂交过程一般先将制备得到的靶基因配制成适当的杂交液。2023-5-13 数理与生物工程学院53适合于在玻璃片的杂交液有多种,比较典型的配方,如杂交溶液配方A(杂交温度 42):50甲酰胺,6SCC,0.5SDS,5Denhardt试剂;配方B(杂交温度65):6SCC,0.5SDS,5Denhardt试剂;配方C(杂交温度65):10SDS,7的PEG8000。用于检测的基因芯片先进行封闭预杂交30min,然后用含有靶基因的杂交
29、液在杂交温度下孵育824h,用清洗液清洗后离心干燥。2023-5-13 数理与生物工程学院54 杂交条件的选择与研究目的有关,多态性分析或者基因测序时,每个核苷酸或突变部位都必须检测出来,通常设计出一套4种寡核苷酸,在靶序列上跨越每个位点,只在中央位点碱基有所不同,根据每套探针在某一特定位点的杂交严谨程度,即可测定出该碱基的种类。2023-5-13 数理与生物工程学院55如果芯片仅用于检测基因表达,只需设计出针对基因中的特定区域的几套寡核苷酸即可,表达检测需要长的杂交时间,较低的严谨性,更高的样品浓度和低温度,这有利于增加检测的特异性和低拷贝基因检测的灵敏度。突变检测,要鉴别出单碱基错配,需要
30、更高的杂交严谨性和更短的时间。2023-5-13 数理与生物工程学院56 此外,杂交反应还必须考虑杂交反应体系中盐浓度、探针GC含量和所带电荷、探针与芯片之间连接臂的长度及种类、检测基因的二级结构的影响。有资料显示探针和芯片之间适当长度的连接臂可以使杂交效率提高150倍。连接臂上的正或负电荷都将减少杂交效率。由于探针和检测基因均带负电荷,因此影响它们之间的杂交结合,为此有人提出用不带电荷的肽核酸(PNA)做探针。2023-5-13 数理与生物工程学院57虽然PNA的制备比较复杂,但与DNA探针比较有许多特点,如不需要盐离子,因此可防止检测基因二级结构的形成及自身复性。由于PNADNA结合更加稳
31、定和特异,因此更有利于单碱基错配基因的检测。2023-5-13 数理与生物工程学院58显色和分析测定方法主要为荧光法,其重复性较好,不足的是灵敏度仍较低。目前正在发展的方法还有质谱法、化学发光法、光导纤维法等。以荧光法为例,当前主要的检测手段是激光共聚焦显微扫描技术,以便于对高密度探针阵列每个位点的荧光强度进行定量分析。2023-5-13 数理与生物工程学院59 因为探针与样品完全正常配对时所产生的荧光信号强度是具有单个或两个错配碱基探针的535倍,所以对荧光信号强度精确测定是实现检测特异性的基础。但荧光法存在的问题是,只要标记的样品结合到探针阵列上后就会发出阳性信号,这种结合是否为正常配对,
32、或正常配对与错配兼而有之,该方法本身并不能提供足够的信息进行分辨。2023-5-13 数理与生物工程学院60 通常检测芯片上的杂交信号需要高灵敏度的检测系统阅读仪(scanner or reader)。阅读仪的成像原理分为激光共焦扫描和CCD成像两种。激光共焦扫描与CCD相比,分辨率和灵敏度较高,但是扫描速度较慢且价格昂贵。经荧光样品杂交后的芯片,荧光信号可以经过荧光显微镜、激光共聚焦显微镜或激光扫描仪进行信号的收集,收集后的信号经过计算机处理,并与探针阵列位点进行比较,可得出杂交的检测结果。2023-5-13 数理与生物工程学院61 4检测结果分析 基因芯片检测结果的分析主要包括三个方面:1
33、)荧光检测图像分析。基因芯片与荧光样品杂交后,用图像扫描仪器捕获芯片上的荧光图像。许多基因芯片研究机构已开发出一些基因芯片图像处理软件,例如 Gene Pix、ImageGene、BioDiscovery、ScanAlyze等。2023-5-13 数理与生物工程学院62 基因芯片图像处理最基本的目标是确定每个芯片单元的荧光强度或荧光强度对比值(多色荧光标记的情况下)。目标看上去虽然简单,但是目前还没有通用的处理方法。扫描和处理基因芯片图像仍需要人工干预,以对齐网格线,保证正确标定每个芯片单元的位置,同时还要能够去除图像上的污点以及其他形式的图像噪声。2023-5-13 数理与生物工程学院632
34、)检测结果分析。如果芯片检测的目的是测定序列,则要根据芯片上每个探针的杂交结果判断样本中是否含有对应的互补序列,并利用生物信息学中的片段组装算法连接各个片段,形成更长的目标序列;如果检测的目的是进行序列变异的分析,则要根据正确匹配探针以及错配探针(错配探针是指探针中有一个或几个与靶基因核苷酸序列不同的探针)在基因芯片对应位置上的荧光强度,给出序列变化的位点,并指明发生什么变化;2023-5-13 数理与生物工程学院64 如果芯片检测的目的是进行基因表达分析,则需要给出芯片上各个基因的表达谱,定量描述基因的表达水平,进一步分析还包括基因表达模式进行聚类,寻找基因之间的相关性,发现协同工作的基因。
35、2023-5-13 数理与生物工程学院65 3)检测结果可靠性分析。基因芯片是一个非常复杂的系统,包括许多环节,由于目前技术上的限制,在基因芯片制备、杂交及检测等方面都可能出现误差,芯片检测结果并非100可靠。2023-5-13 数理与生物工程学院66因此,必须对芯片检测结果作出可靠性的评价。可靠性分析主要从两个方面进行:一是根据实验统计误差(如探针合成的错误率、全匹配探针与错误探针的误识率等),计算出基因芯片最终结果的可靠性;二是对基因芯片与样品序列杂交过程进行分子动力学研究,建立芯片杂交过程的计算机仿真实验模型,以便在制作芯片之前分析所设计芯片的性能,预测芯片实验结果的可靠性。2023-5
36、-13 数理与生物工程学院677.4 生物芯片的应用生物芯片的应用生物芯片技术是20世纪90年代中期以来影响最深远的重大科技进展之一,它是集微电子学、生物学、物理学、化学、计算机科学为一体高度交叉的高薪技术,具有重大的基础研究价值,又具有明显的产业化前景。由于使用该技术可以将大量的探针同时固定于支持物上,所以可以对大量生物分子进行检测分析,从而解决了传统核酸印迹杂交技术复杂、自动化程度低、检测目的分子数量少、低通量等不足。2023-5-13 数理与生物工程学院68 使用该技术有多种不同的应用价值,如测序、基因表达谱测定、基因诊断、药物筛选等。为后基因组计划时代基因功能的研究及现代医学科学及医学
37、诊断学的发展提供了强有力的工具,将会使新基因的发现、基因诊断、药物筛选、给药个性化等方面取得重大突破,为人类社会带来巨大变革。2023-5-13 数理与生物工程学院697.4.1 测序测序 采用生物芯片测序方法有芯片毛细血管电泳测序和寡核苷酸微阵列杂交测序两种。1999年,加利福尼亚大学伯克利分校Mathies小组首先报道芯片毛细血管电泳测序结果。他们在10分钟内完成了对433个碱基对序列的测定工作。2023-5-13 数理与生物工程学院70 用芯片测序的另一种方法是寡核苷酸微 阵 列 测 序 法,又 称 杂 交 测 序 法(Sequencing by hybridization,SBH)。所
38、谓SBH,就是利用固定探针与样品进行分子杂交产生的杂交图谱从而排列出待测DNA的序列顺序。2023-5-13 数理与生物工程学院71 SBH的原理可以通过下面的例子来说明,设有DNA片段AGCCTAGCTGAA,探针为所有的8核苷酸(48=65536种)。将待测DNA和探针按一定比例在适宜温度下混合杂交,完全匹配的序列有5种,TCGGATCG,CGGATCGA,GGATCGAC,GATCGACT和ATCGACTT。这些探针只相差一个核苷酸,由它们可得到待测DNA的互补序列为TCGGATCGACTT,待测DNA序列为AGCCTAGCTGAA。2023-5-13 数理与生物工程学院72 最初SBH
39、法是在液相中进行的,因此杂交信号的读取非常困难,而且限制了序列分析的速度。采用DNA探针阵列方法有较大优越性。把一组寡核苷酸探针有序地排列在硅、玻璃等基片表面,组成一二维阵列。在这一阵列中,每一探针都有确定的坐标位置,只要确定了位置就确定了探针,探针与待测DNA杂交,冲洗去非特异性DNA,检测在哪些位点上有杂交信号。2023-5-13 数理与生物工程学院73 再通过一定的计算就可以得到待测DNA的序列。Mark Chee等用含135000个寡核苷酸探针的高密度微阵列分析了黑猩猩和人BRCA1基因序列差异,结果发现在外显子11约3.4kb长度范围内的核酸序列同源性在98.2%到83.5%之间,揭
40、示了二者有高度相似性。2023-5-13 数理与生物工程学院74目前SBH还存在若干问题,有待进一步改进。比如,由于众多寡核苷酸组成各不相同,很难找到最佳杂交条件。错配问题,特别是G-T和G-A,难于检测。SBH不适合于重复序列和简单序列单元DNA的测序等。2023-5-13 数理与生物工程学院757.4.2 基因表达分析基因表达分析由于DNA芯片技术可直接检测mRNA的种类及丰度,因而成为研究基因表达的有力工具。检测基因差异表达的操作流程见图8-1。2023-5-13 数理与生物工程学院76 cDNA微阵列是在1995年由斯坦福大学率先研制成功并应用于基因表达分析的。首先将细胞内的mRNA逆
41、转录成cDNA并分离,然后将分离得到的所有或部分cDNA(其长度通常大于200bp)作为探针,用机器手按照阵列的形式点到玻璃片上。玻璃片上的每一个点只包含一种cDNA分子,这样就制成了cDNA微阵列。2023-5-13 数理与生物工程学院77 一般,探针的序列是已知的。在使用cDNA微阵列时,首先提取组织或细胞系中的mRNA样本,逆转录成cDNA并用荧光素标记;然后把标记混合物加到cDNA微阵列上,与探针杂交,杂交过程完成后,清洗微阵列;最后用激光扫描仪扫描并获取荧光图像,对图像进行分析,得到cDNA芯片上每一个点的荧光强度值。荧光强度值定量地反映了样本中存在的与探针互补的mRNA丰度,也就是
42、反映了探针所对应基因的表达水平。2023-5-13 数理与生物工程学院787.4.3 基因诊断基因诊断基因芯片目前最主要的应用之一就是疾病诊断。从正常人的细胞中分离出mRNA后与DNA芯片杂交就可以得出标准图谱。从病人的细胞中分离出mRNA后与DNA芯片杂交就可以得出病变图谱。通过分析比较这两种图谱,就可以得出病变的mRNA表达的信息,即DNA突变发生在何部位,属于什么样的序列突变。2023-5-13 数理与生物工程学院79文献报道了DNA芯片用于检测遗传性乳腺和卵巢癌基因BRCAl第11个外显子的突变。检测了15例病人样品,发现其中14例有基因突变。在20个对照样品中没有假阳性结果出现。研究
43、者所用高密度DNA芯片包含96600种20mer寡核苷酸探针。探针以绿色荧光标记,目的基因转录产物即靶分子标记红色荧光,完全杂交的分子产生黄色荧光信号。2023-5-13 数理与生物工程学院80 结果显示携带BRCAl突变基因的杂合子来源的靶分子能与两种探针杂交,说明杂合子中包含了野生型及突变型两种基因。Affymetrix公司把P53基因全长序列和已知突变的探针集成在芯片上,制成P53基因芯片,将在癌症早期诊断中发挥作用。2023-5-13 数理与生物工程学院81 又如,Heller等构建了96个基因的cDNA微阵列,用于检测分析风湿性关节炎(RA)相关基因,以探讨DNA芯片在感染性疾病诊断
44、方面的应用。目前,多种诊断芯片包括结核杆菌耐药性检测芯片、肝炎病毒检测芯片已逐步进入市场,基因诊断是基因芯片中最具有商业化价值的应用。2023-5-13 数理与生物工程学院827.4.4 药物筛选药物筛选 如何分离和鉴定药的有效成分是目前中药产业和传统的西药开发遇到的重大问题,基因芯片是解决这一问题的有效手段,它能够大规模地筛选、通用性强,能够从基因水平解释药物的作用机理,即可以利用基因芯片分析用药前后机体的不同组织、器官基因表达的差异。如果再以cDNA表达文库得到的肽库来制作肽芯片,则可以从众多的药物成分中筛选到起作用的部分物质。2023-5-13 数理与生物工程学院83 利用RNA、单链D
45、NA有很大的柔性,能形成复杂的空间结构,更有利于与靶分子相结合的特点,可将核酸库中的RNA或单链DNA固定在芯片上,然后与靶蛋白结合,形成蛋白质-RNA或蛋白质-DNA复合物,可以筛选特异的药物蛋白或核酸,因此,芯片技术和RNA库的结合在药物筛选中有广泛应用。2023-5-13 数理与生物工程学院847.5 数据处理和分析数据处理和分析7.5.1 数据处理数据处理7.5.1.1丢失数据和极端值的处理丢失数据和极端值的处理 丢失数据(missing data)和极端值(outlier)是微阵列实验中数据质量控制(quality control)的两个基本问题。数据丢失的原因很多,包括分辨率不够、
46、图像失败或只是由于芯片上的灰尘或划痕所引起。数据丢失还可能由于自动化方法中的系统误差产生。多数情况下,丢失的数据是这些不同原因相混合,不存在哪种占主要的问题。2023-5-13 数理与生物工程学院85 cDNA微阵列中数据丢失的含义是由于空点(empty spot),其荧光强度为零,或者由于其背景强度高于样品点。Affymetrix微阵列丢失数据是指原始数据中错配值(MM)高于全配值(PM)。这些可疑资料通常是经过手工方法剔除,不用做分析。但在某些情况下,剔除丢失数据可能给数据分析带来困难,并引起重要信息的缺失。2023-5-13 数理与生物工程学院86 因此,最好将丢失数据进行替换。最简单的
47、数据替换方法是根据同一芯片上其他点的情况进行统计分析而得到一个预计值。对于双色cDNA微阵列,如果某个基因有重复点,这些点的平均值可用来代替丢失数据。如果没有重复点,可用统计方法预测丢失数据(如EM算法)。一种简易方法是计算该样品点用不同染料标记时在整个芯片强度的分布位置,并以此为参照,推算出相应位置上的丢失值而加以替换。2023-5-13 数理与生物工程学院87 极端数据是指那些偏离群体的数据。微阵列实验中,极端值的出现和消除可在不同水平。极端值可在一块芯片上出现,但重复片子上不出现;也可以是同一片子上某个基因的重复点,而不管这些重复点邻近与否;还可以是同一片子上任意点所产生的偏离。2023
48、-5-13 数理与生物工程学院88现有微阵列技术中,多种因素可导致不同芯片间的变异性。已有不同方法减少这些芯片间的变异和系统误差(如下文将要叙述的正态化)。同一类型的芯片中,那些变异性大的片子应当去除,这种片子又称极端片子(outlier slide)。片间变异可能由于点样浓度和体积、加到芯片上的标记靶分子数目、杂交条件和其他因素等所引起。最简单的去除极端片子的方法是靠视觉观察图像。一种简单而有效的消除方法是通过提高实验自动化程度而消除。2023-5-13 数理与生物工程学院89另一种去除极端片子的方法是如前面实验设计中讨论的那样,进行重复性实验,并用统计方法评估片间变异。重复片子上对应的基因
49、可得到相关系数。这种方法中,至少需要3次重复才能评估芯片质量和剔除极端片 子。所 用 的 方 法 是 计 算 两 两 配 对(pairwise)相关系数。这时,需要设置一个相关系数界值,依实验设计而定,但通常必须大于0.9。通过两两配对,分别得到各相关系数值。2023-5-13 数理与生物工程学院90 通常情况下,相关系数都比较高且差别不大。如果两个相关系数值远远低于另外一个,常表明存在极端片子。如果所有相关系数都很低,表示微阵列的质量差,这不是极端值的范畴,而需要重新设计和制作芯片。2023-5-13 数理与生物工程学院91 同一芯片上也可出现极端值。在缺乏重复点的情况下,最高和最低的数值通
50、常被当做极端值处理而加以剔除。阈值的设置可以根据百分位值(如最低数值点或最高数值点的0.5)或那些偏离整个片子的分布中一定数量的标准差范围(如3)。剩余的资料重新计算均数和标准差。2023-5-13 数理与生物工程学院92 这个过程不断重复,直到没有发现极端值为止。这种方法主要根据统计学原理,有一定的局限性。从生物学角度来看,某些基因的表达可能极高或极低,而且意义很大,特别是那些高表达的基因。在有重复点的情况下,极端值的挑选主要根据重复性的相似情况。如果某个重复点偏离该基因所有重复点平均数几个标准差范围,这个点即被当做极端值,需要去除或替换。2023-5-13 数理与生物工程学院937.5.1