1、 1.基本概念及数据库结构GEO(Gene Expression Omnibus)基因表达数据库,是由美国生物技术信息中心(NCBI)在 2000 年开发的一个开放的基因表达丰度的数据库,该数据库不仅包括许多基于基因芯片的基因表达数据信息,同时还包括一些非芯片技术如SAGE 和质谱的基因表达丰度信息。至 2014 年 1 月,该数据库已经收录了 12 422 个不同平台(Platform)上的 1062 513个样品(Sample)的基因表达数据信息。数据提交遵循 MIAME 原则,并提供了供查询和下载实验及基因表达资料的工具。登陆网址为:http:/www.ncbi.nlm.nih.gov/
2、geo/。2.数据库结构 提交给 GEO 的数据分为三种不同的实体,即平台(platform)、样本(sample)和系列(series)。平台,关于以高通量方式(microarray,SAGE)检查样本的物理试剂的信息。一个平台含有多个提交者提交的样本。平台的命名规则为“GPL+n(n 代表数字)”。样本,关于被检查的 mRNA 样本,实验条件和实验产生的基因表达测量数据信息。一个样本必须涉及一个平台,可能会包括在许多系列之中。样本的命名规则为:“GSM+n”。系列,样本收集,样本是如何相关的,如何排序的,分析是如何进行的,和聚类数据是如何获得的信息。系列含有数据的摘要信息。系列的命名规则为
3、“GSE+n”。GEO 的原始数据被放置在平台,样本和系列这三个数据库中;根据原始数据观测角度的不同,又将这些数据整理并分置两个不同的数据库中:数据集(datasets)和表达图谱(profile);数据集以“实验”的角度存储了所有的元数据,表达图谱从“基因”的角度存储了单个基因表达的数据资料。3.数据上传与下载 在 GEO 中上传数据前先要注册账号,注册信息中的联系方法会体现在 GEO 记录中。数据上传可以使用几种不同的格式,如电子表格、纯文本和 XML格式。不管采用哪种上传方式,最终的结果及包含的信息都相同。所有的 GEO 信息可以利用不同的工具下载不同格式的数据:查询到的每一条记录下均有
4、下载连接,通过此链接下载以.gz 或.tgz 为后缀名的压缩文件,通过 WinZip or 7-Zip 即可打开;所有的GEO 记录和原始数据文件都可以通过 FTP(ftp:/ftp.ncbi.nlm.nih.gov/pub/geo/)进行大批量下载;通过查询页面的“send tofile”下载。4.GEO 检索及结果 GEO 提供多种途径检索数据,如以数据集“GDS3176”,平台“GPL339”,系列“GSE9567”,样本GSM241927”进行检索。如果已知序列号,可以直接采用这种方式搜索;否则,可以用关键词、物种甚至作者姓名进行搜索。同时,可通过 Limits 和 Advanced
5、Search 对搜索结果进行筛选。GEO 数据集的搜索结果以“实验”角度列示,内容包括名称、简述、物种、平台、提交者联系方式、系列、样本个数、数值类型和发表时间等,同时提供向NCBI 的其他数据库的链 接,如 PubMed,Epigenomics、SRA 和 GEO Profiles 等。GEO 表达图谱(profiles)的搜索结果以“基因”角度列示,用图片的形式展现一个基因对所有样本的表达水平,搜索结果中的实验条件方便我们观察一个基因在不同条件下表达水平的差异。搜索结果可利用“my NCBIcollection”进行在线保存。5.数据分析 “GEO datasets”提供了四种数据分析工具
6、,分别是“find genes”“compare 2 sets of samples”“cluster heatmaps”“experiment design and value distribution”。“find genes”通过输入基因名称或符号直接定位到“profiles”中的相关基因。“compare 2 sets of samples”用以区别存在显著表达差异的两组样本,特别是比较属于不同实验的样本。“Cluster heat maps”工具提供了分层和 K-means 聚类分析方法,可以选择、扩增、下载大量感兴趣的簇,并制成线图或直接链接到 Entrez GEO 图谱。“experiment design and value distribution”用柱状图(box plot)表示每一样本的表达量。谢谢!