1、基因芯片基因芯片Gene Chip什么是基因什么是基因芯片?芯片?基因芯片是基因芯片是干嘛的?干嘛的?基因芯片是基因芯片是啥样的啥样的?基因芯片咋基因芯片咋做的?做的?基因芯片怎基因芯片怎么分析的?么分析的?我零花钱较我零花钱较多,去哪买多,去哪买个完整基因个完整基因芯片系统耍芯片系统耍耍?耍?定义定义基因芯片概述基因芯片概述 原理原理 分类分类基因芯片的应用基因芯片的应用 载体的准备载体的准备基因芯片的设计基因芯片的设计 基因探针的准备基因探针的准备 点样及点样后处理点样及点样后处理基因芯片图片获取及图像分析基因芯片图片获取及图像分析配置基因芯片系统配置基因芯片系统1 1 基因芯片概述基因芯
2、片概述 随着人类基因组计划(随着人类基因组计划(HPGHPG)的提前完成以)的提前完成以及分子生物学相关学科的迅猛发展,越来越多的及分子生物学相关学科的迅猛发展,越来越多的动植物、微生物基因组序列得以测定,基因序列动植物、微生物基因组序列得以测定,基因序列数据正在以前所未有的速度迅速增长。然而数据正在以前所未有的速度迅速增长。然而,怎怎样去研究如此众多基因在生命过程中所担负的功样去研究如此众多基因在生命过程中所担负的功能就成了全世界生命科学工作者共同的课题。为能就成了全世界生命科学工作者共同的课题。为此,建立新型杂交和测序方法以对大量的遗传信此,建立新型杂交和测序方法以对大量的遗传信息进行高效
3、、快速的检测、分析就显得格外重要息进行高效、快速的检测、分析就显得格外重要了。了。人类基因组计划催生了基因芯片技术。人类基因组计划催生了基因芯片技术。基因基因芯片近年来又常被称为芯片近年来又常被称为DNADNA微阵列(微阵列(DNA DNA MicroarrayMicroarray)或)或DNADNA微阵列芯片。微阵列芯片。1.11.1基因芯片的定义基因芯片的定义 基因芯片又称基因芯片又称DNADNA芯片(芯片(DNA ChipDNA Chip),是指是指将大量特定的寡核苷酸探针分子有序地、高密地将大量特定的寡核苷酸探针分子有序地、高密地固定于支持物上,然后与进行了标记的样品进行固定于支持物上
4、,然后与进行了标记的样品进行杂交,通过检测杂交信号的强度及分布进而对靶杂交,通过检测杂交信号的强度及分布进而对靶分子的序列和数量进行分析。分子的序列和数量进行分析。生物芯片起源于基因芯片。所谓生物芯片指生物芯片起源于基因芯片。所谓生物芯片指高密度固定在固相支持介质上的生物信息分子高密度固定在固相支持介质上的生物信息分子(如寡核苷酸、基因片段、(如寡核苷酸、基因片段、cDNAcDNA或多肽、蛋白质)或多肽、蛋白质)的微阵列,阵列中每个分子的序列及位置都是已的微阵列,阵列中每个分子的序列及位置都是已知的,并且是预先设定好的知的,并且是预先设定好的。1.2 1.2 基因芯片的原理基因芯片的原理 基因
5、芯片的测序原理是杂交测序方法,即通基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列过与一组已知序列的核酸探针杂交进行核酸序列测定的方法。在一块基片表面固定了序列已知的测定的方法。在一块基片表面固定了序列已知的八核苷酸的探针。当溶液中带有荧光标记的核酸八核苷酸的探针。当溶液中带有荧光标记的核酸序列序列TATGCAATCTAGTATGCAATCTAG,与基因芯片上对应位置的核,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列的探针位置,获得一组序列完全互补的探针序列
6、,据此可重组出靶核酸的序列。据此可重组出靶核酸的序列。大规模基因测序或多态性分析时,每个核苷大规模基因测序或多态性分析时,每个核苷酸或突变点都必须检测出来。因此,通常设计出酸或突变点都必须检测出来。因此,通常设计出一套大量的核苷酸探针,在靶序列上跨越每个位一套大量的核苷酸探针,在靶序列上跨越每个位点,只在中央位点的碱基设计上有所不同,根据点,只在中央位点的碱基设计上有所不同,根据每套探针在每个位点的杂交严谨程度,即可测定每套探针在每个位点的杂交严谨程度,即可测定出该碱基的种类。如果基因芯片仅是用于检测基出该碱基的种类。如果基因芯片仅是用于检测基因表达的差异,只需设计出针对基因中特定区域因表达的
7、差异,只需设计出针对基因中特定区域的几套寡聚核苷酸即可。的几套寡聚核苷酸即可。1.3 1.3 基因芯片的分类基因芯片的分类 由于基因芯片的制备方法和应用范围的不同,由于基因芯片的制备方法和应用范围的不同,可以将基因芯片依据不同的标准分为不同的种类。可以将基因芯片依据不同的标准分为不同的种类。按载体材料区分:按载体材料区分:1 1)固定在聚合物膜(如)固定在聚合物膜(如尼龙膜,硝酸纤维膜等)表面上的膜芯片。这种尼龙膜,硝酸纤维膜等)表面上的膜芯片。这种方法的优点是所需检测设备与目前分子生物学所方法的优点是所需检测设备与目前分子生物学所用的放射显影技术相一致用的放射显影技术相一致,相对比较成熟。但
8、芯相对比较成熟。但芯片上探针密度不高,样品和试剂的需求量大,定片上探针密度不高,样品和试剂的需求量大,定量检测存在较多问题。量检测存在较多问题。2 2)固定在玻璃板上的玻固定在玻璃板上的玻璃芯片。璃芯片。这种方法点阵密度可有较大的提高,各这种方法点阵密度可有较大的提高,各个探针在表面上的结合量也比较一致,但在标准个探针在表面上的结合量也比较一致,但在标准化和批量化生产方面仍有不易克服的困难。化和批量化生产方面仍有不易克服的困难。3 3)固定在硅板上的硅芯片。固定在硅板上的硅芯片。4 4)固定在陶瓷表面的)固定在陶瓷表面的陶瓷芯片等。陶瓷芯片等。按制作方法区分:原位合成芯片、直接点样按制作方法区
9、分:原位合成芯片、直接点样法芯片等。法芯片等。按载体上探针的种类区分:寡聚核苷酸芯片按载体上探针的种类区分:寡聚核苷酸芯片和和cDNA芯片等。芯片等。按应用又可分为表达谱芯片和检测芯片。平按应用又可分为表达谱芯片和检测芯片。平常所说的基因表达谱芯片其实是从应用上讲,可常所说的基因表达谱芯片其实是从应用上讲,可用于对基因及其表达的量进行检测的芯片,寡聚用于对基因及其表达的量进行检测的芯片,寡聚核苷酸芯片和核苷酸芯片和cDNA芯片都可用于表达谱研究,芯片都可用于表达谱研究,一般而言,基因表达谱芯片主要用于研究基因的一般而言,基因表达谱芯片主要用于研究基因的功能,是指将待测及对照组的功能,是指将待测
10、及对照组的mRNA通过逆转录通过逆转录将荧光分别标记到两种组织的将荧光分别标记到两种组织的cDNA上,并与基上,并与基因芯片进行杂交及荧光信号扫描,通过计算机处因芯片进行杂交及荧光信号扫描,通过计算机处理就能确定芯片上的基因结合了探针的量,从而理就能确定芯片上的基因结合了探针的量,从而来判定此基因是否表达,或在两种组织中的表达来判定此基因是否表达,或在两种组织中的表达是否有变化。是否有变化。2 2 基因芯片的应用基因芯片的应用 2.1 2.1 基因表达分析基因表达分析 基因芯片具有高度的敏感性和特异性,基因芯片具有高度的敏感性和特异性,它可以监测细胞中几个至几千个它可以监测细胞中几个至几千个m
11、RNAmRNA拷贝的拷贝的转录情况。与用单探针分析转录情况。与用单探针分析mRNAmRNA的点杂交技的点杂交技术不同,基因芯片表达探针阵列应用了大约术不同,基因芯片表达探针阵列应用了大约2020对寡核苷酸探针来监测每一个对寡核苷酸探针来监测每一个mRNAmRNA的转录的转录情况。每对探针中,包含一个与所要监测的情况。每对探针中,包含一个与所要监测的mRNAmRNA完全吻合和一个不完全吻合的探针,这完全吻合和一个不完全吻合的探针,这两个探针的差别在于其中间位置的核苷酸不两个探针的差别在于其中间位置的核苷酸不同。比如通过基因芯片绘出基因表达的时空同。比如通过基因芯片绘出基因表达的时空图谱,有助于人
12、类认识生命活动过程和特征;图谱,有助于人类认识生命活动过程和特征;检测基因表达的差异;发现新基因以及进行检测基因表达的差异;发现新基因以及进行大规模基因测序等。大规模基因测序等。KanakoKanako等利用一个寡聚等利用一个寡聚DNADNA芯片成功地对普芯片成功地对普通小麦在盐害逆境中的基因转录图谱进行了分析,通小麦在盐害逆境中的基因转录图谱进行了分析,最终得到的小麦的转录信息也具有极高的可靠性。最终得到的小麦的转录信息也具有极高的可靠性。GirkeGirke等利用基因芯片研究了拟南芥种子发育过等利用基因芯片研究了拟南芥种子发育过程中的基因表达。程中的基因表达。WangWang等利用等利用5
13、7665766个个cDNAcDNA微阵列研究比较正常微阵列研究比较正常卵巢和肿瘤卵巢组织基因表达差异卵巢和肿瘤卵巢组织基因表达差异,发现了几个发现了几个和卵巢肿瘤进展相关的基因和卵巢肿瘤进展相关的基因,为卵巢癌的诊断和为卵巢癌的诊断和治疗提供了新的指导。治疗提供了新的指导。2.2 2.2 基因型、基因突变和多态性分析基因型、基因突变和多态性分析 在同一物种不同种群和个体之间,有着多种在同一物种不同种群和个体之间,有着多种不同的基因型,而这种不同,往往与个体的不同不同的基因型,而这种不同,往往与个体的不同性状和多种遗传性疾病有着密切的关系。通过对性状和多种遗传性疾病有着密切的关系。通过对大量具有
14、不同性状的个体的基因型进行比较,就大量具有不同性状的个体的基因型进行比较,就可以得出基因与性状的关系。但是,由于大多数可以得出基因与性状的关系。但是,由于大多数性状和遗传性疾病是由多个基因同时决定的,因性状和遗传性疾病是由多个基因同时决定的,因此分析起来就十分困难,然而基因芯片技术恰恰此分析起来就十分困难,然而基因芯片技术恰恰解决了这一问题,利用其可以同时反应数千甚至解决了这一问题,利用其可以同时反应数千甚至更多个基因的特性,我们就可以分析基因组中不更多个基因的特性,我们就可以分析基因组中不同基因与性状或疾病的关系。同基因与性状或疾病的关系。HalushkaHalushka等用高密度芯片检测等
15、用高密度芯片检测7575个非洲和北个非洲和北欧居民的欧居民的28mb28mb的基因序列的基因序列,结果获得了结果获得了14801480个等个等位基因位基因,对人类基因中的对人类基因中的SNPSNP性质、图像进行了性质、图像进行了系统全面的扫描系统全面的扫描,并试图寻找基因与血压异常性并试图寻找基因与血压异常性疾病的关系。疾病的关系。2.3 2.3 疾病的诊断与治疗疾病的诊断与治疗 人类的疾病与遗传基因密切相关,基因芯片人类的疾病与遗传基因密切相关,基因芯片可以对遗传信息进行快速准确的分析,因此它在可以对遗传信息进行快速准确的分析,因此它在疾病的分子诊断中的优势是不言而喻的,是一种疾病的分子诊断
16、中的优势是不言而喻的,是一种新的、强有力的分子工具。基因芯片技术已经被新的、强有力的分子工具。基因芯片技术已经被应用于感染性疾病、肿瘤、耐药菌株及耐药性的应用于感染性疾病、肿瘤、耐药菌株及耐药性的检测等方面的研究。检测等方面的研究。HaciaHacia等利用等利用9600096000种种20mer20mer的的DNADNA芯片检测遗芯片检测遗传性乳腺癌和卵巢癌基因。在传性乳腺癌和卵巢癌基因。在1515例患者样品中,例患者样品中,发现了发现了1414例存在着基因突变,检测准确率达到了例存在着基因突变,检测准确率达到了99%99%,这也说明基因芯片技术能够快速准确扫描,这也说明基因芯片技术能够快速
17、准确扫描大量基因,适用于临床试验中的大量患者标本的大量基因,适用于临床试验中的大量患者标本的检测。检测。FalusFalus等利用基因芯片技术来诊断地中海等利用基因芯片技术来诊断地中海贫血患者体内贫血患者体内-珠蛋白基因的突变,适用于大珠蛋白基因的突变,适用于大样本量患者的筛查,高自动化而且准确性极高,样本量患者的筛查,高自动化而且准确性极高,他们用红色荧光来标记探针,同时用红色荧光来他们用红色荧光来标记探针,同时用红色荧光来标记靶基因,这样完全杂交的分子会产生黄色荧标记靶基因,这样完全杂交的分子会产生黄色荧光信号,突变可通过分析两种荧光强度的对比度光信号,突变可通过分析两种荧光强度的对比度来
18、区分。来区分。2.4 2.4 药物研究中的应用药物研究中的应用 从经济效益来说,最大的应用领域可能是制从经济效益来说,最大的应用领域可能是制药厂用来开发新药。所以已经有多家制药企业介药厂用来开发新药。所以已经有多家制药企业介入芯片的开发。如:入芯片的开发。如:Incyte Pharmaaceuticals Inc.,Sequana Therapeutics,Millenium Pharmaceuticals Inc.等。对于寻找新药来说,目等。对于寻找新药来说,目标之一是应用芯片可以在基因水平上寻找药物靶标之一是应用芯片可以在基因水平上寻找药物靶标。标。Gray 等把基因芯片药物设计和组合化学
19、集成等把基因芯片药物设计和组合化学集成在一起在一起,针对鹅去氧胆酸针对鹅去氧胆酸28p28p的活性位点设计新的活性位点设计新的化学制剂的化学制剂,检测了它们在基因组水平上对生物检测了它们在基因组水平上对生物体的影响体的影响,就得到了其二类结构。就得到了其二类结构。这足以说明,这足以说明,随着基因芯片技术的不断完善,在分子水平上进随着基因芯片技术的不断完善,在分子水平上进行药物研究必将达到一个新的高度。行药物研究必将达到一个新的高度。探针设计探针设计解决杂交条件一解决杂交条件一致性问题致性问题芯片优化芯片优化提高芯片制备效提高芯片制备效率率公共公共 数据库数据库专用专用 数据库数据库确定目标确定
20、目标选择待检测的选择待检测的目标序列目标序列数据分析数据分析分析杂交检测结分析杂交检测结果及可靠性果及可靠性基因芯片基因芯片 数据库数据库图像处理图像处理数数 据据 库库 查查 询询 序序 列列 分分 析析生生 物物 信信 息息 学学 数数 据据 挖挖 掘掘 数数 据据 可可 视视 化化杂交杂交检测检测图像图像基因芯片数据流图基因芯片数据流图3 3 基因芯片的设计基因芯片的设计 载体的准备载体的准备 研究目标的确定研究目标的确定基因探针的准备基因探针的准备 探针的选择和设计探针的选择和设计 参照体系的设计参照体系的设计点样及点样后处理点样及点样后处理3.1 3.1 载体的准备载体的准备 制备基
21、因芯片,首先要选择一个合适的固相制备基因芯片,首先要选择一个合适的固相支持物支持物-载体,以供基因能在上面进行杂交反应,载体,以供基因能在上面进行杂交反应,一般的载体包括膜、玻片、塑料、陶瓷及硅等。一般的载体包括膜、玻片、塑料、陶瓷及硅等。目前,经过化学修饰的玻片越来越成为人们目前,经过化学修饰的玻片越来越成为人们青睐的对象,比如进行多聚赖氨酸修饰、青睐的对象,比如进行多聚赖氨酸修饰、APSAPS氨氨基修饰、基修饰、APS-PDCAPS-PDC(异硫氰酸)修饰、(异硫氰酸)修饰、APS-GAAPS-GA(戊二醛)修饰以及硫基修饰等,它具有其它载(戊二醛)修饰以及硫基修饰等,它具有其它载体所不能
22、比拟的诸多优点。体所不能比拟的诸多优点。很多商业公司可提供修饰好可直接用于基因很多商业公司可提供修饰好可直接用于基因芯片点样的玻片:比如芯片点样的玻片:比如TeleChemTeleChem公司、公司、SchottSchott公司和公司和FullMoonFullMoon公司等。公司等。DNADNA样品共价链接于载体上样品共价链接于载体上 可耐受高温、高离子强度可耐受高温、高离子强度 不可侵润性,提高退火质量不可侵润性,提高退火质量 荧光信号本底低,背景干扰弱荧光信号本底低,背景干扰弱 可使用双杂交系统进行样本平行处理可使用双杂交系统进行样本平行处理 点样密度非常高点样密度非常高 表面平整,易于实
23、现自动化表面平整,易于实现自动化 点样方便,成本较低点样方便,成本较低3.2 3.2 基因探针的准备基因探针的准备研究目标的确定研究目标的确定 根据不同的实验目的,要设计不同类型的基根据不同的实验目的,要设计不同类型的基因芯片,即表达谱芯片还是检测芯片。前者用于因芯片,即表达谱芯片还是检测芯片。前者用于检测基因的表达状况,而后者主要用于检测特定检测基因的表达状况,而后者主要用于检测特定基因的突变是否存在。表达谱芯片是目前最成功基因的突变是否存在。表达谱芯片是目前最成功商业化的基因芯片,和检测芯片一样,表达谱芯商业化的基因芯片,和检测芯片一样,表达谱芯片也是检测一群特定的基因,但不同的是,表达片
24、也是检测一群特定的基因,但不同的是,表达谱芯片的检测对象是谱芯片的检测对象是mRNAmRNA,即基因表达的产物。,即基因表达的产物。而且要应用双色荧光系统,表达谱芯片可以检测而且要应用双色荧光系统,表达谱芯片可以检测某个基因在两个样本中表达的差异。因此,研究某个基因在两个样本中表达的差异。因此,研究者应当从自己的具体研究出发,设计出符合实验者应当从自己的具体研究出发,设计出符合实验要求的基因芯片。要求的基因芯片。探针的选择与设计探针的选择与设计 探针的设计是芯片设计中的核心,探针的特探针的设计是芯片设计中的核心,探针的特异性决定芯片杂交结果的特异性,同时根据不同异性决定芯片杂交结果的特异性,同
25、时根据不同的研究目的,探针在选择特异性区域和保守区域的研究目的,探针在选择特异性区域和保守区域时应各有侧重点。另外,探针设计还与检测的灵时应各有侧重点。另外,探针设计还与检测的灵敏度和稳定性密切相关。就探针的来源,目前比敏度和稳定性密切相关。就探针的来源,目前比较常用的有较常用的有cDNA探针和寡核苷酸探针。探针和寡核苷酸探针。cDNA探针就是与探针就是与mRNA互补的互补的DNA,由逆,由逆转录方法获得,一般被认为是真实表达的基因。转录方法获得,一般被认为是真实表达的基因。完整完整cDNA的长度从几百个碱基对到几千个碱基的长度从几百个碱基对到几千个碱基对之间,由于对之间,由于cDNA文库构建
26、技术已经相当成熟,文库构建技术已经相当成熟,人们比较容易获得一个组织或个体大量种类的人们比较容易获得一个组织或个体大量种类的cDNA,这些从文库中扩增的得到的,这些从文库中扩增的得到的cDNA经纯化、经纯化、检测、定量分析后溶解在适当的缓冲液中,可作检测、定量分析后溶解在适当的缓冲液中,可作为探针在点样法制备基因芯片时直接使用。为探针在点样法制备基因芯片时直接使用。寡核苷酸探针是人工合成的,随意性好,设寡核苷酸探针是人工合成的,随意性好,设计创意的空间也大。设计寡核苷酸探针时,研究计创意的空间也大。设计寡核苷酸探针时,研究人员必须要对该基因有着充分的了解。是选择基人员必须要对该基因有着充分的了
27、解。是选择基因的保守区域还是特异性区域、是一段还是几段、因的保守区域还是特异性区域、是一段还是几段、是保留突变点还是另引入新的突变位点等,都要是保留突变点还是另引入新的突变位点等,都要求实验人员根据自己的实际要求来考虑。一般来求实验人员根据自己的实际要求来考虑。一般来说,寡核苷酸探针既可以用于检测芯片的制备,说,寡核苷酸探针既可以用于检测芯片的制备,也可用于表达谱芯片的制备。也可用于表达谱芯片的制备。长度一般选取在长度一般选取在151570mer70mer左右的片段,探左右的片段,探针往往在针往往在5 5端进行氨基修饰,考虑探针在杂交过端进行氨基修饰,考虑探针在杂交过程中的自由度,在探针的程中
28、的自由度,在探针的5 5端氨基后紧跟端氨基后紧跟1212个碳个碳原子。探针的杂交区域应尽量避免存在二聚体结原子。探针的杂交区域应尽量避免存在二聚体结构。目前比较通用的构。目前比较通用的DNADNA合成方法是亚磷酰胺三合成方法是亚磷酰胺三酯法,合成每个单核苷酸都需要四步以上的操作。酯法,合成每个单核苷酸都需要四步以上的操作。美国美国安捷伦安捷伦以及国内的以及国内的赛百盛赛百盛等公司都可提供寡等公司都可提供寡核苷酸合成服务。当然,如果自己拥有一台核苷酸合成服务。当然,如果自己拥有一台DNADNA合成仪的话,就可以随时依照自己的意愿来合成合成仪的话,就可以随时依照自己的意愿来合成目的寡核苷酸片段。目
29、的寡核苷酸片段。参照体系的选择参照体系的选择 一套合适的参照体系的运用,既保证了基因一套合适的参照体系的运用,既保证了基因芯片质量的稳定性,又保证了其在不同实验条件芯片质量的稳定性,又保证了其在不同实验条件下的可对比性。下的可对比性。阳性对照:一般选用管家基因,是指基因表达水阳性对照:一般选用管家基因,是指基因表达水平比较稳定,不太受环境变化而产生变化的一类平比较稳定,不太受环境变化而产生变化的一类基因,它能保证各种芯片杂交试验中基本都能保基因,它能保证各种芯片杂交试验中基本都能保证表达的稳定性,因而它们在各芯片上的信号应证表达的稳定性,因而它们在各芯片上的信号应该保持一致,以它们作为校验标准
30、,可以保证同该保持一致,以它们作为校验标准,可以保证同一芯片上不同杂交样品间或不同芯片的杂交样品一芯片上不同杂交样品间或不同芯片的杂交样品间表达信号的可对比性。间表达信号的可对比性。阴性对照:一般选用与所研究基因无同源性的其阴性对照:一般选用与所研究基因无同源性的其它种属的基因作为对照。它种属的基因作为对照。空白对照:一般选用不含任何基因的点样稀释液,空白对照:一般选用不含任何基因的点样稀释液,空白对照可以作为分析芯片杂交结果时本底信号空白对照可以作为分析芯片杂交结果时本底信号的参照。的参照。3.3 3.3 点样及点样后处理点样及点样后处理 所谓点样,就是指利用点样仪将已经得到的所谓点样,就是
31、指利用点样仪将已经得到的探针序列通过接触式针点或非接触式喷点的方法探针序列通过接触式针点或非接触式喷点的方法点到预先进行过化学修饰的基因芯片载体上。点到预先进行过化学修饰的基因芯片载体上。在基因芯片的制备过程中,对点完样的芯片在基因芯片的制备过程中,对点完样的芯片进行后处理是其最后一道工序,也是其中非常关进行后处理是其最后一道工序,也是其中非常关键的一道工序。点样后处理的目的主要是为了使键的一道工序。点样后处理的目的主要是为了使探针能与载体表面牢固结合,同时,还对载体上探针能与载体表面牢固结合,同时,还对载体上未与探针结合的游离活性基团进行封闭以避免在未与探针结合的游离活性基团进行封闭以避免在
32、杂交过程中非特异性的吸附对实验结果(特别是杂交过程中非特异性的吸附对实验结果(特别是背景)造成大的影响。因此,基因芯片点样后处背景)造成大的影响。因此,基因芯片点样后处理的结果直接影响了实验结果的好坏。更高的探理的结果直接影响了实验结果的好坏。更高的探针固定率可提高杂交时的灵敏度;而封闭效果好针固定率可提高杂交时的灵敏度;而封闭效果好的芯片在杂交后的背景特别干净,所得到的结果的芯片在杂交后的背景特别干净,所得到的结果也就相对更为可靠。也就相对更为可靠。一般玻片点样后处理的的步骤为:一般玻片点样后处理的的步骤为:再水合再水合 紫外交联紫外交联 室温晾干室温晾干 洗涤剂洗涤剂洗涤洗涤 双蒸水洗涤双
33、蒸水洗涤 室温晾干室温晾干 封闭液封闭封闭液封闭 室温晾干室温晾干 双蒸水洗涤双蒸水洗涤 而一般膜芯片的点样后处理就相对比较简单:而一般膜芯片的点样后处理就相对比较简单:8080烘干(固定样品)烘干(固定样品)缓冲液中和缓冲液中和 室温晾干室温晾干 双蒸水洗涤双蒸水洗涤 待测样品的靶基因在与基因芯片退火杂交之待测样品的靶基因在与基因芯片退火杂交之前必须要进行分离、扩增和逆转录,然后再进行前必须要进行分离、扩增和逆转录,然后再进行标记。新近发展的多的荧光标记方法用不同激发标记。新近发展的多的荧光标记方法用不同激发波长的荧光素对不同来源的靶基因进行标记,可波长的荧光素对不同来源的靶基因进行标记,可
34、以更直观地比较不同来源样品的基因表达差异。以更直观地比较不同来源样品的基因表达差异。目前虽然已经报道出了诸多可以用来标记的目前虽然已经报道出了诸多可以用来标记的靶基因的荧光或其它标记物,但用的最多的且效靶基因的荧光或其它标记物,但用的最多的且效果较好的是果较好的是Cy3Cy3和和Cy5Cy5,它们不但具有很好的荧光,它们不但具有很好的荧光强度,而且可以尽可能少的与探针或载体粘连。强度,而且可以尽可能少的与探针或载体粘连。其实对靶基因进行标记后,它们本身并不是红色其实对靶基因进行标记后,它们本身并不是红色或绿色的,而是经过扫描仪的扫描处理后才显现或绿色的,而是经过扫描仪的扫描处理后才显现出了我们
35、所预期的颜色。出了我们所预期的颜色。4 4 基因芯片图片获取及图像基因芯片图片获取及图像分析分析 图片获取图片获取 完成基因芯片的制备后,下一步便是根据不完成基因芯片的制备后,下一步便是根据不同的研究目的设计和选择实验标本(包括组织、同的研究目的设计和选择实验标本(包括组织、细胞等),然后通过各种方法对其标记上染料分细胞等),然后通过各种方法对其标记上染料分子(多用荧光分子)或同位素(子(多用荧光分子)或同位素(3232P P、3333P P),与基),与基因芯片进行杂交。对于用荧光标记的标本,其杂因芯片进行杂交。对于用荧光标记的标本,其杂交结果可通过专门的芯片扫描仪进行扫描得到,交结果可通过
36、专门的芯片扫描仪进行扫描得到,常用的扫描仪主要有基于常用的扫描仪主要有基于PMTPMT(光电倍增管)和(光电倍增管)和CCDCCD(电耦合器件)作为感光器件的两种。下面(电耦合器件)作为感光器件的两种。下面是一张典型的是一张典型的cDNAcDNA基因芯片的图像:基因芯片的图像:样点的识别样点的识别 但光学扫描仪扫出的芯片图像并没有给出各但光学扫描仪扫出的芯片图像并没有给出各个样点的信号值、背景值和荧光信号比等信息,个样点的信号值、背景值和荧光信号比等信息,必须通过进一步的图像处理提取并得到各个样点必须通过进一步的图像处理提取并得到各个样点的相应数据信息,供进一步的统计分析。因此,的相应数据信息
37、,供进一步的统计分析。因此,芯片图像处理的主要目的是量化芯片上样点的具芯片图像处理的主要目的是量化芯片上样点的具体信息。体信息。芯片图像的处理首先要识别样点并确定样点芯片图像的处理首先要识别样点并确定样点的位置。样点识别的第一步是生成网格或圆,以的位置。样点识别的第一步是生成网格或圆,以确定样点的大概位置。根据芯片上行和列的数目,确定样点的大概位置。根据芯片上行和列的数目,由计算机自动生成一个网格或圆,每个网格或圆由计算机自动生成一个网格或圆,每个网格或圆就为每个点提供了一个相对位置的坐标。就为每个点提供了一个相对位置的坐标。样点位置确定后,还得对样点进行识别,主样点位置确定后,还得对样点进行
38、识别,主要是对网格或圆按照一定的规则不断的调节大小,要是对网格或圆按照一定的规则不断的调节大小,找出最合适的位置和大小,使之正好与样点一样找出最合适的位置和大小,使之正好与样点一样大。如下图所示:大。如下图所示:确定属于信号确定属于信号和背景的像素和背景的像素 在样点识别并定在样点识别并定位后,点内的区域和位后,点内的区域和周围的一部分区域内周围的一部分区域内的像素就用来计算信的像素就用来计算信号和背景强度,所以号和背景强度,所以样点代表的基因表达样点代表的基因表达情况是由样点的信号情况是由样点的信号值扣除背景值得到的。值扣除背景值得到的。厂家厂家 软件名称软件名称 Biodiscovery
39、Inc.ImaGenImaGenImaging Research Inc.ArrayVisionArrayVisionThe Institute of Genomic ResearchTIGR Spotfinder TIGR Spotfinder Axon Instruments Inc.GenePix ProGenePix ProBioscienceQuantArrayQuantArrayMedia Cybernetic ArrayPro AnalyzerArrayPro AnalyzerStanford University Scanalyse 图像数据的预处理图像数据的预处理 在得到代表
40、基因表达情况的数据后,应当对在得到代表基因表达情况的数据后,应当对数据进行预先处理。目的就是要将一些质量很低、数据进行预先处理。目的就是要将一些质量很低、数据可能不准确的点予以清除;还要对芯片进行数据可能不准确的点予以清除;还要对芯片进行归一化校正处理;另外还可以用散点图先观察数归一化校正处理;另外还可以用散点图先观察数据的特性,做一些预先的分析准备工作。据的特性,做一些预先的分析准备工作。以以cDNAcDNA芯片为例,其常用散点图表示在两个芯片为例,其常用散点图表示在两个组织中基因表达量的比例信息。如果两个样本组组织中基因表达量的比例信息。如果两个样本组织的表达程度一致,那么散点集中在通过远
41、点的织的表达程度一致,那么散点集中在通过远点的斜率为斜率为1 1的直线附近,如果不为的直线附近,如果不为1 1,说明两种荧光,说明两种荧光标记有一个系统误差,可以通过软件来校正。标记有一个系统误差,可以通过软件来校正。数据的预处理还包括设定一个阈值来判断真数据的预处理还包括设定一个阈值来判断真正的弱信号点后,以及利用正的弱信号点后,以及利用LOWESSLOWESS函数来对芯片函数来对芯片进行校正。最后再进行相应的数据分析。进行校正。最后再进行相应的数据分析。图像数据的统计图像数据的统计分析分析 经过预处理的芯经过预处理的芯片数据,其实还是枯片数据,其实还是枯燥无味、难以理解的。燥无味、难以理解
42、的。需要采用相应的芯片需要采用相应的芯片数据分析对其进行分数据分析对其进行分析、判断和推理,从析、判断和推理,从而可以确定很多信息。而可以确定很多信息。例如,可以通过分析例如,可以通过分析正常组织与肿瘤组织正常组织与肿瘤组织的差异表达来确定基的差异表达来确定基因因DNADNA的变化情况,可的变化情况,可以通过聚类分析进而以通过聚类分析进而确定肿瘤的不同亚型。确定肿瘤的不同亚型。厂家厂家 软件名称软件名称 Biodiscovery Inc.ImaGenGenSightImaging Research Inc.ArrayVisionArrayStatTIGR Array Viewer TIGRAp
43、plied MathesGeneMathesSilicon GeneticsGeneSpringEuropen Bioinformatics InstituteExpressionStanford University Cluster&Treeview 基因芯片数据库基因芯片数据库 基因芯片包括了成千上万个样点的信息,对基因芯片包括了成千上万个样点的信息,对应于这些基因的序列信息及图像处理得到的信息;应于这些基因的序列信息及图像处理得到的信息;对于对于cDNAcDNA芯片还包括两种荧光的比例信息;同时,芯片还包括两种荧光的比例信息;同时,芯片制作的目的、制作条件和方法、样品的制备、芯片制作的目
44、的、制作条件和方法、样品的制备、杂交条件、以及检测条件等均与该芯片相对应;杂交条件、以及检测条件等均与该芯片相对应;此外还有基因芯片数据处理与信息提取的结果等,此外还有基因芯片数据处理与信息提取的结果等,在芯片的制作测定前与测定后都有大量的信息数在芯片的制作测定前与测定后都有大量的信息数据需要处理,没有专门的数据库是难以想象的。据需要处理,没有专门的数据库是难以想象的。目前比较常用的芯片数据库有许多,比如:目前比较常用的芯片数据库有许多,比如:ArrayExpress、ChipDB、ExpressDB、Gene Expression Atlas、GeneX、Read、Gene Expressi
45、on Omnibus、M-CHiPS以及以及Standford Microarray等。等。在这些基因数据库中,除了存有基因序列信在这些基因数据库中,除了存有基因序列信息、样本信息、实验操作信息、数据提取信息等息、样本信息、实验操作信息、数据提取信息等必备信息外,有的数据库还与芯片扫描仪联机,必备信息外,有的数据库还与芯片扫描仪联机,自动将芯片扫描的结果输入数据库,进行积累。自动将芯片扫描的结果输入数据库,进行积累。但要真正实现这些数据的共享,就必须要有但要真正实现这些数据的共享,就必须要有一个统一的标准来规范基因芯片的实验数据格式、一个统一的标准来规范基因芯片的实验数据格式、处理用的统计软件
46、以及归一化方法等。基于这种处理用的统计软件以及归一化方法等。基于这种目的,最为著名的关于基因芯片实验的最低限度目的,最为著名的关于基因芯片实验的最低限度信息信息MIAME(Minimum Information about A Microarray Experiment)就相应的诞生了,它)就相应的诞生了,它是由是由MGED(Microarray Gene Experssion Data Society)提出的,建议所有芯片生产厂家、)提出的,建议所有芯片生产厂家、软硬件供应商和研究人员都应采用该标准,以促软硬件供应商和研究人员都应采用该标准,以促进高质量、注释完全的芯片数据的共享。进高质量、
47、注释完全的芯片数据的共享。通用数据库通用数据库 近年来大量生物学实验数据的积累,形成了近年来大量生物学实验数据的积累,形成了当前数以百计的生物信息数据库。它们各自按一当前数以百计的生物信息数据库。它们各自按一定的目标收集和整理生物学实验数据,并提供相定的目标收集和整理生物学实验数据,并提供相关的数据查询、数据处理的服务。同时随着因特关的数据查询、数据处理的服务。同时随着因特网的普及,这些数据库大多可以通过网络或网络网的普及,这些数据库大多可以通过网络或网络下载来访问。下载来访问。通过差异筛选或聚类分析后,从基因芯片中通过差异筛选或聚类分析后,从基因芯片中筛选出自己感兴趣的基因后,就面临着深入了
48、解筛选出自己感兴趣的基因后,就面临着深入了解这批基因功能信息的问题。例如,在基因表达谱这批基因功能信息的问题。例如,在基因表达谱芯片实验后拿到自己需要的基因后,一般会获得芯片实验后拿到自己需要的基因后,一般会获得这个基因的这个基因的GenBankGenBank号,这些信息就像一把钥匙号,这些信息就像一把钥匙一样,只要拥有其中一项信息,通过前面以介绍一样,只要拥有其中一项信息,通过前面以介绍到的公共数据库中进行查询并结合一些生物信息到的公共数据库中进行查询并结合一些生物信息分析,就能获得这个基因的相关功能的研究信息。分析,就能获得这个基因的相关功能的研究信息。三大国际一级生物信息数据库,即美国国
49、家三大国际一级生物信息数据库,即美国国家信息中心信息中心 (National Center of Biotechnology Information,NCBI)的的Gen Bank(Http:/www.nchi.nim.nih.gov/web/GenBank/index.html)、欧洲分子生物学室验室)、欧洲分子生物学室验室(European Molecular Biology Laboratory-Euro-pean Bioinformatics Institute,EMBL-EBI)的的 EM-BL(http:/www.ebi.ac.uk/databases/index.html)和和日
50、本日本 DNA数据库数据库 (DNA Data Bank of Japan,DDBJ)(http:/www.ddbj.nig.ac.jp)新收录的核新收录的核酸序列数据中,酸序列数据中,EST占占65%65%以上。以上。下面就以玉米过氧化氢酶下面就以玉米过氧化氢酶3 3在在Entrez中的检索中的检索和在和在BLASTA中的相似性比对来介绍一下:中的相似性比对来介绍一下:玉米过氧化氢酶玉米过氧化氢酶3 3序列的检索:序列的检索:(1 1)调用)调用Internet浏览器并在其地址栏输入浏览器并在其地址栏输入Entrez网址:网址:http:/www.ncbi.nlm.nih.gov/Entre