1、第八章第八章 生物信息学资源检索生物信息学资源检索 胡德华胡德华2目录目录第一节第一节 生物信息学数据库概述生物信息学数据库概述 1第二节第二节 核酸序列数据库核酸序列数据库 2第三节第三节 蛋白质数据库蛋白质数据库 3第四节第四节 基因组数据库基因组数据库4第五节第五节 疾病基因数据库疾病基因数据库 53第一节第一节 生物信息学数据库概述生物信息学数据库概述生物信息学数据库的类型生物信息学数据库的类型 生物信息数据收集与存贮生物信息数据收集与存贮 生物信息学数据库的查找生物信息学数据库的查找4一、生物信息学数据库的类型文献数据库文献数据库 突变数据库突变数据库 图谱数据库图谱数据库 结构数据
2、库结构数据库 序列数据库序列数据库 类型类型按收录信息内容分按收录信息内容分 5二、生物信息数据收集与存贮二、生物信息数据收集与存贮(一)生物信(一)生物信息数据的收集息数据的收集 生物信息数据生物信息数据收集与存贮收集与存贮(二)生物信(二)生物信息数据的存贮息数据的存贮 6(一)生物信息数据的收集(一)生物信息数据的收集 数据库与数据库合作数据库与测序中心合作数据库与期刊合作 建库的初期 4数据交换数据交换 3成批发送成批发送 2直接发送直接发送 1人工收集人工收集 7(二)生物信息数据的存贮1记录格式主要有:EMBL格式、GenBank格式存贮格式存贮格式2序列格式 又称Pearson格
3、式 三、生物信息学数据库的查找三、生物信息学数据库的查找 v(一)通过搜索引擎查找(一)通过搜索引擎查找 v(二)通过专门的生物信息学数据库目录查询(二)通过专门的生物信息学数据库目录查询 从2000年开始,Nucleic Acids Research 设立了一个数据库目录(http:/www.oxfordjournals.org/nar/database/c/)。v(三)通过生物信息学中心资源导航查询(三)通过生物信息学中心资源导航查询 一些著名的生物信息学中心不仅自己建立和维护大量的生物信息数据库,而且一般在网上提供资源导航。9第二节第二节 核酸序列数据库核酸序列数据库GenBank EM
4、BL-Bank DDBJ10(一)GenBank概述 一、一、GenBank(二)GenBank检索(一)GenBank概述v是由美国国家生物技术信息中心是由美国国家生物技术信息中心(NCBI)管管理和维护大型、综合性的公共核酸序列数据理和维护大型、综合性的公共核酸序列数据库,包括所有已知的核酸序列和蛋白质序列,库,包括所有已知的核酸序列和蛋白质序列,以及与它们相关的文献和生物学注释。以及与它们相关的文献和生物学注释。v网址:网址:http:/www.ncbi.nlm.nih.gov/Genbank/index.html12国际核酸序列数据库协作体国际核酸序列数据库协作体 (一)GenBank
5、概述v GenBank的数据来源于约的数据来源于约260000个物种,每月新增个物种,每月新增1700多个物种。大约多个物种。大约12%的序列来自于人类,其中的序列来自于人类,其中8%是人类的是人类的EST序列。序列。v 每条每条GenBank数据记录包含对序列的简要描述、它的科数据记录包含对序列的简要描述、它的科学命名、物种分类名称、参考文献、序列特征表以及序列学命名、物种分类名称、参考文献、序列特征表以及序列本身。本身。v 序列特征表里包含对序列生物学特征注释,如编码区、转序列特征表里包含对序列生物学特征注释,如编码区、转录单元、重复区域、突变位点或修饰位点等。录单元、重复区域、突变位点或
6、修饰位点等。v 所有数据记录被划分成若干个子库,如细菌类(所有数据记录被划分成若干个子库,如细菌类(BCT)、)、病毒类(病毒类(VRL)、灵长类()、灵长类(PRI)、啮齿类()、啮齿类(ROD)以)以及及EST数据、基因组序列数据(数据、基因组序列数据(GSS)、高通量基因组)、高通量基因组序列数据(序列数据(HTG)等)等19类,其中类,其中EST数据等又被分成若数据等又被分成若干子库。干子库。(二)(二)GenBank检索检索 vEntrez是是NCBI生物信息学数据库集成检索系统,生物信息学数据库集成检索系统,可以检索以下生物信息学数据库。可以检索以下生物信息学数据库。v例如,查找例
7、如,查找H1N1流感病毒(流感病毒(H1N1 Flu Virus)的核酸序列。其检索步骤是:的核酸序列。其检索步骤是:(1)进入)进入Entrez主页(主页(http:/www.ncbi.nlm.nih.gov/gquery/),),在提问框输入在提问框输入H1N1 Flu Virus。(2)点击)点击“GO”,得到各个数据库的检索结果。,得到各个数据库的检索结果。(3)点击)点击“Nucleotide:Core subset of nucleotide sequence records”,得到,得到GenBank核酸序列数据库中的核酸序列数据库中的4801条记录简要格式(条记录简要格式(Su
8、mmary)。)。(4)点击记录的标题,即可获取该记录的详细信息。)点击记录的标题,即可获取该记录的详细信息。20(一)EMBL-Bank概述 二、二、EMBL-Bank(二)EMBL-Bank检索(一)EMBL-Bank概述vEMBL-Bank(http:/www.ebi.ac.uk/embl/)是是国际三大核酸序列数据库之一,创建于国际三大核酸序列数据库之一,创建于1982年。年。现由欧洲生物信息学研究所现由欧洲生物信息学研究所(EBI)管理和维护,管理和维护,主要收集欧洲产生的核酸序列数据。主要收集欧洲产生的核酸序列数据。v到到2009年年8月,月,EMBL-Bank(101版)的核版)
9、的核酸序列达到酸序列达到163656234条,碱基数达到条,碱基数达到283748816763个。个。v对于每条核酸序列,相关信息包括序列名称、序对于每条核酸序列,相关信息包括序列名称、序列、染色体定位、关键字、来源生物体、参考文列、染色体定位、关键字、来源生物体、参考文献、注释、序列中具有重要生物学意义的位点等。献、注释、序列中具有重要生物学意义的位点等。(二)EMBL-Bank检索v获取获取EMBL-Bank的核酸序列数据主要是通过的核酸序列数据主要是通过SRS(Sequence Retrieval System)序列)序列检索系统检索系统v由由Lion Bioscience公司继续开发,
10、而成为一公司继续开发,而成为一个商业软件,科研单位只要与它签订协议即可获个商业软件,科研单位只要与它签订协议即可获得该软件的免费使用权。得该软件的免费使用权。vSRS是一个开放式的,可以根据需要安装不同的是一个开放式的,可以根据需要安装不同的数据库。数据库。SRS查询方法查询方法 v通过通过EBI的的SRS服务器服务器(http:/srs.ebi.ac.uk)进入)进入Quick Search界面。界面。v点击点击“Library Page”,即数据库选择页。,即数据库选择页。v选择好要检索的数据库后,选择好要检索的数据库后,SRS提供三种查询提供三种查询方式。方式。(1)Quick Sear
11、ch(快速查询快速查询)(2)Standard Query(标准查询标准查询)(3)Extended Query(扩展查询扩展查询)(1)Quick Search(快速查询快速查询)(2)Standard Query(标准查询)(3)Extended Query(扩展查询)标准查询后的结果CS116935的详细信息29(一)DDBJ概述 三、三、DDBJ(二)DDBJ检索(一)(一)DDBJ概述概述 v DDBJ(DNA Data Bank of Japan,日本核酸数据,日本核酸数据库,库,http:/www.ddbj.nig.ac.jp/index-e.html)创建于创建于1986,现由
12、日本国家遗传学研究所的生物信息中,现由日本国家遗传学研究所的生物信息中心(心(CIB/DDBJ)管理和维护。)管理和维护。v 截止至截止至2009年年9月,月,DDBJ(79版)共收录版)共收录108,593,519条序列条序列,106,684,379,504个碱基。个碱基。v DDBJ 主页除了提供主页除了提供SRS、ARSA、TXSearch、BLAST等数据检索功能外,还提供等数据检索功能外,还提供SAKURA、MSS、Sequin数据提交工具和数据提交工具和CLUSTAL W、FASTA、BLAST等数据分析工具。等数据分析工具。(二)DDBJ检索v通过通过getentry、ARSA、
13、SRS、TXSearch、BLAST、PSI-BLAST、FASTA、SSEARCH等检索工具可以获取等检索工具可以获取DDBJ数据。数据。v前四种用于检索前四种用于检索DDBJ数据库中的原始数据,其数据库中的原始数据,其中中getentry属于存取号检索,属于存取号检索,SRS和和ARSA属属于关键词检索,于关键词检索,TXSearch属于分类检索;属于分类检索;v后后4种对用户提供的序列或片断作同源性分析。种对用户提供的序列或片断作同源性分析。32第三节第三节 蛋白质数据库蛋白质数据库 蛋白质序列数据库蛋白质序列数据库 蛋白质结构数据库蛋白质结构数据库 蛋白质功能数据库蛋白质功能数据库33
14、一、蛋白质序列数据库一、蛋白质序列数据库(三)(三)TrEMBL(四)(四)GenPept(二)(二)SWISS-PROT(一)(一)PIR(五)(五)UniProt(六)(六)OWL(一)(一)PIR v 创建于创建于1984年。年。v 1988年,美国年,美国NBRF、日本国际蛋白质信息数据库(、日本国际蛋白质信息数据库(Japan International Protein Information Database,JIPID)与)与德国的慕尼黑蛋白质序列信息中心(德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequence
15、s,MIPS)合作成立国际蛋白质)合作成立国际蛋白质序列信息中心(序列信息中心(PIR-International)。)。v 第第75.03版的版的PIR数据库按照数据的性质和注释详略分成四个子库:数据库按照数据的性质和注释详略分成四个子库:PIR1、PIR2、PIR3和和PIR4。PIR1中的序列已经验证,注释最为详尽;PIR2中包含尚未确定的冗余序列;PIR3中的序列尚未加检验,也未加注释;PIR4包括其他渠道获得的序列,既未验证,也无注释。v 网址:网址:http:/pir.georgetown.edu/PIR主页主页(二)(二)SWISS-PROTv 创建于创建于1986年年v 由瑞士
16、生物信息学研究所(由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息研究所()和欧洲生物信息研究所(EBI)共同维护和管理。共同维护和管理。v 1994年,年,SIB创建蛋白质专家分析系统创建蛋白质专家分析系统(Expert Protein Analysis System,ExPASy)(http:/www.expasy.Ch),除了开发、维护和管,除了开发、维护和管理理SWISS-PROT数据库外,还提供蛋白质序列、结构、数据库外,还提供蛋白质序列、结构、功能和蛋白质功能和蛋白质2D-PAGE图谱等蛋白质信息资源图谱等蛋白质信息
17、资源v 到到2009年年10月,月,SWISS-PROT(57.11版)收录了版)收录了512994条序列,包含条序列,包含180531504个氨基酸。个氨基酸。v 网址:网址:http:/expasy.org/sprot/(三)(三)TrEMBL v 创建于创建于1996年,意即年,意即“Translation of EMBL”,是计,是计算机翻译并注释的蛋白质序列数据库,收录的序列是从算机翻译并注释的蛋白质序列数据库,收录的序列是从EMBL中的中的cDNA序列翻译得到的。记录采用序列翻译得到的。记录采用SWISS-PROT数据库格式。数据库格式。v TrEMBL分为两个部分:分为两个部分:
18、SP-TrEMBL和和REM-TrEMBL。SP-TrEMBL的条目已经专家分类并且给予SWISS-PROT存取号,但尚未通过人工审查,最终将收入SWISS-PROT。REM-TrEMBL包含其他剩余序列,主要是免疫球蛋白、T细胞受体、少于8个氨基酸碱基的多肽、人工合成序列、专利序列等。v http:/www.ebi.ac.uk/trembl/(四)(四)GenPept v由由GenBank中的中的cDNA序列翻译得到的蛋白质序列翻译得到的蛋白质序列数据库。序列数据库。v网址:网址:ftp:/ncbi.nlm.nih.gov/genbank/genpept/)(五)(五)UniProt v 将
19、将PIR、SWISS-PROT和和TrEMBL3个蛋白质数据库个蛋白质数据库统一起来组建而成,包含统一起来组建而成,包含3个部分:个部分:(1)UniProt Knowledgebase(UniProtKB),这是蛋白质序列、功能、分类、交叉引用等蛋白质知识库,记录经过人工筛选和注释;(2)UniRef(UniProt Non-redundant Reference)数据库,将密切相关的蛋白质序列组合到一条记录中,以便提高搜索速度;目前,根据序列相似程度形成3个子库,即UniRef100、UniRef90和UniRef50;(3)UniParc(UniProt Archive),是UniPro
20、t存档库,收录所有蛋白质序列。用户可以通过文本查询数据库,可以利用BLAST程序搜索数据库,也可以直接通过FTP下载数据。v 网址:网址:http:/www.uniprot.org/UniProt主页主页(六)(六)OWL v1994年由英国里兹(年由英国里兹(Leeds)大学和)大学和Warrington的的Daresbury国家实验室合作创国家实验室合作创建并维护的一个复合型数据库。建并维护的一个复合型数据库。v数据来源于数据来源于SWISS-PROT、PIR、GenPept、SWISS-PROT、PDB、NRL3D等数据库,去等数据库,去重后整合而成的非冗余蛋白质序列数据库。重后整合而成
21、的非冗余蛋白质序列数据库。v网址:网址:http:/www.bioinf.manchester.ac.uk/dbbrowser/OWL/index.php OWL主页主页小结:小结:v SWISSPROT的序列经过严格审核,注释完善,但数的序列经过严格审核,注释完善,但数量仍较少。量仍较少。v PIR数据量较大,但包含未经验证的序列,注释也不完数据量较大,但包含未经验证的序列,注释也不完善。善。v TrEMBL和和GenPept的数据量最大,且随核酸序列数的数据量最大,且随核酸序列数据库的更新而更新,但是由于据库的更新而更新,但是由于TrEMBL和和GenPept均是均是由核酸序列经过计算机程
22、序翻译生成的,这两个数据库中由核酸序列经过计算机程序翻译生成的,这两个数据库中的序列错误率较大,并存在较多的冗余序列。的序列错误率较大,并存在较多的冗余序列。v OWL中的序列虽具有较好的代表性,但采用某些标准中的序列虽具有较好的代表性,但采用某些标准取舍序列,导致某些数据不完整。取舍序列,导致某些数据不完整。v UniProt中的序列具有较好的代表性,数据较完整。中的序列具有较好的代表性,数据较完整。44二、蛋白质结构数据库二、蛋白质结构数据库(三)(三)DSSP (四)(四)HSSP (二)(二)MMDB(一)(一)PDB (五)(五)SCOP(六)(六)CATH (一)(一)PDBv创建
23、于创建于1971年,是国际上最著名、最完整的蛋年,是国际上最著名、最完整的蛋白质三维结构数据库。白质三维结构数据库。v最先由美国最先由美国Brookhaven国家实验室负责维护国家实验室负责维护和管理,从和管理,从1998年开始,由结构生物信息学合年开始,由结构生物信息学合作研究协会作研究协会(RCSB)负责管理。负责管理。v到到2009年年12月统计,月统计,PDB数据库已经收录了数据库已经收录了利用利用X线衍射、线衍射、NMR、电子显微镜实验数据或理、电子显微镜实验数据或理论计算得出的蛋白质、核酸、蛋白质论计算得出的蛋白质、核酸、蛋白质/核酸复合核酸复合物等结构数据物等结构数据61808条
24、,而且数据增长速度相当条,而且数据增长速度相当快。快。vPDB数据库以文本文件格式存放数据,每条记数据库以文本文件格式存放数据,每条记录即是一个独立的文件,包括物种来源、化合录即是一个独立的文件,包括物种来源、化合物名称、原子坐标、结构提交者以及有关文献物名称、原子坐标、结构提交者以及有关文献等基本注释信息。等基本注释信息。v此外,还包括分辨率、结构因子,温度系数、此外,还包括分辨率、结构因子,温度系数、主链数目、配体分子式、金属离子、二级结构主链数目、配体分子式、金属离子、二级结构信息、二硫键位置等和结构有关的数据。信息、二硫键位置等和结构有关的数据。v网址:网址:http:/www.rcs
25、b.org/pdb/home/home.do PDB主页主页(二)(二)MMDB v MMDB是是NCBI的分子模型数据库,收录了由晶体衍射的分子模型数据库,收录了由晶体衍射和核磁共振实验研究得到的蛋白质三维结构。和核磁共振实验研究得到的蛋白质三维结构。v MMDB采用采用ASN.1记录格式,而不是采用记录格式,而不是采用PDB记录格记录格式。式。MMDB结构与原始的结构与原始的PDB结构相比,增加了许多附结构相比,增加了许多附加信息,如经程序验证的显性化学图像,一致的二级结构加信息,如经程序验证的显性化学图像,一致的二级结构衍生定义,与衍生定义,与MEDLINE相匹配的引用等。相匹配的引用等
26、。v MMDB可利用可利用Entrez进行文本查询。进行文本查询。MMDB检索项包检索项包含含PDB、MMDB的存取号,源自的存取号,源自PDB注释记录的自由文注释记录的自由文本,作者名及其它书目检索项。本,作者名及其它书目检索项。v VAST(矢量分析检索工具)用于检索三维结构的相似性。(矢量分析检索工具)用于检索三维结构的相似性。它舍弃了序列信息,而单纯依靠由二级结构衍生的三维矢它舍弃了序列信息,而单纯依靠由二级结构衍生的三维矢量指标进行检索。量指标进行检索。v Cn3D是一种新的三维结构浏览器,用于浏览是一种新的三维结构浏览器,用于浏览MMDB数数据记录。据记录。(三三)DSSP vDS
27、SP是一个蛋白质二级结构数据库。目前,收是一个蛋白质二级结构数据库。目前,收录了录了59474条记录。条记录。vDSSP对蛋白质二级结构划分得比较详细,共分对蛋白质二级结构划分得比较详细,共分7种二级结构,其编码含义如下:种二级结构,其编码含义如下:H代表代表 螺旋,螺旋,E代表代表 折叠,折叠,G和和I分别代表分别代表3-螺旋和螺旋和 螺旋,螺旋,B代表孤立的代表孤立的 桥,桥,T 代表氢键转折,代表氢键转折,S代表弯曲。代表弯曲。图图8-8是一个具体的蛋白质二级结构实例,其上是一个具体的蛋白质二级结构实例,其上面一行代表蛋白质序列,下面一行是对于各个氨面一行代表蛋白质序列,下面一行是对于各
28、个氨基酸残基所处二级结构的注释。基酸残基所处二级结构的注释。v网址:网址:http:/swift.cmbi.ru.nl/gv/dssp/)(四)(四)HSSP v HSSP是一个基于蛋白质同源的蛋白质结构。目前,收录是一个基于蛋白质同源的蛋白质结构。目前,收录了了58774条记录。条记录。v 对于一个蛋白质,对于一个蛋白质,HSSP组合二级结构、三维结构数据和组合二级结构、三维结构数据和序列数据,其数据主要来源于序列数据,其数据主要来源于PDB及其它蛋白质序列数及其它蛋白质序列数据库,如据库,如SWISS-PROT。v HSSP不仅是蛋白质家族序列比对数据库,同时该数据库不仅是蛋白质家族序列比
29、对数据库,同时该数据库隐含了二级结构和空间结构信息,覆盖了隐含了二级结构和空间结构信息,覆盖了SWISS-PROT中中27%的蛋白质。的蛋白质。v HSSP有助于分析蛋白质的保守区域,确定有意义的序列有助于分析蛋白质的保守区域,确定有意义的序列模式,研究蛋白质的进化关系,研究蛋白的折叠,也有助模式,研究蛋白质的进化关系,研究蛋白的折叠,也有助于蛋白质的分子设计。于蛋白质的分子设计。v 网址:网址:http:/swift.cmbi.kun.nl/swift/hssp/(五)(五)SCOP v SCOP 是英国医学研究委员会分子生物学实验室和蛋白是英国医学研究委员会分子生物学实验室和蛋白质工程中心
30、开发的,基于质工程中心开发的,基于Web的蛋白质结构数据库分类、的蛋白质结构数据库分类、检索和分析系统。检索和分析系统。v SCOP按结构和进化关系对蛋白质分类,主要划分为全按结构和进化关系对蛋白质分类,主要划分为全 型、全型、全 型、以平行折叠为主的型、以平行折叠为主的/型、以反平行折叠为型、以反平行折叠为主的主的+型等型等11类。类。v 然后,再将属于同一结构类型的蛋白质按照折叠然后,再将属于同一结构类型的蛋白质按照折叠(Fold)、超家族超家族(Superfamily)、家族、家族(Families)、蛋白质结、蛋白质结构域(构域(Protein Domains)、单个)、单个PDB蛋白
31、质结构层蛋白质结构层次组织起来。次组织起来。v 网址:网址:http:/scop.mrc-lmb.cam.ac.uk/scop/SCOP 主页主页(六)(六)CATH v CATH是一个关于已知蛋白质结构域的分级分类数据库,是一个关于已知蛋白质结构域的分级分类数据库,由英国伦敦大学开发和维护。由英国伦敦大学开发和维护。v CATH主要有四个层次:类主要有四个层次:类(Class,C)、构架、构架(Architecture,A)、拓扑、拓扑(Topology,T)和同源超和同源超家族家族(Homology superfamily,H)。v CATH的类与的类与SCOP数据库类似,主要根据二级结构
32、划分数据库类似,主要根据二级结构划分为为、+、/等结构类型。等结构类型。v 构架层次描述结构域的形状,主要由其二级结构的取向决构架层次描述结构域的形状,主要由其二级结构的取向决定。定。v 拓扑层描述的是折叠家族的水平。拓扑层描述的是折叠家族的水平。v 同源超家族层次则将对此具有同源性的蛋白质聚类在一起。同源超家族层次则将对此具有同源性的蛋白质聚类在一起。v 网址:网址:http:/www.cathdb.info/CATH主页主页55三、蛋白质功能数据库三、蛋白质功能数据库(三)(三)STRING(二)(二)DIP (一)(一)BOND (四)(四)KEGG (一)(一)BOND v BOND是
33、生物分子网络数据库,创建于是生物分子网络数据库,创建于2005年,由年,由Unleashed Informatics公司管理和维护。公司管理和维护。v 主要收录生物分子及其蛋白质序列、结构和相互作用等数主要收录生物分子及其蛋白质序列、结构和相互作用等数据,其中生物分子包括蛋白质、据,其中生物分子包括蛋白质、DNA、RNA、配基、复、配基、复合体、基因、光子(合体、基因、光子(photon)等。)等。v BOND集成了多个重要数据库,如集成了多个重要数据库,如BIND(生物分子相互(生物分子相互作用网络数据库作用网络数据库)、SMID(小分子相互作用数据库)、(小分子相互作用数据库)、Genba
34、nk、GO(基因本体)、(基因本体)、OMIM、conserved domains(保守功能域)、交叉参考数据库、完整基因(保守功能域)、交叉参考数据库、完整基因组等。组等。v 网址:网址:http:/ v DIP专门存放实验确定的蛋白质之间相互作用的数据,既专门存放实验确定的蛋白质之间相互作用的数据,既包括经典实验手段确定的蛋白质相互作用,也包括高通量包括经典实验手段确定的蛋白质相互作用,也包括高通量实验手段确定的蛋白质相互作用数据。实验手段确定的蛋白质相互作用数据。v 数据要经过人工审核和采用计算方法自动验证后加入数据数据要经过人工审核和采用计算方法自动验证后加入数据库。数据的自动验证有库
35、。数据的自动验证有3种指标,即种指标,即EPR Index、PVM Score和和DPV Score。v 在目前缺乏蛋白质相互作用数据金标准的现实情况下,在目前缺乏蛋白质相互作用数据金标准的现实情况下,DIP为采用计算的方法自动验证高通量技术产生的蛋白质为采用计算的方法自动验证高通量技术产生的蛋白质相互作用数据做了开拓性的工作。相互作用数据做了开拓性的工作。v DIP还利用还利用XML技术专门开发了一种用来存放和交换蛋技术专门开发了一种用来存放和交换蛋白质相互作用数据的白质相互作用数据的xin格式。格式。v 网址:网址:http:/dip.doe-mbi.ucla.edu/DIP主页主页(三)
36、(三)STRING v STRING不仅存贮实验确定的蛋白质相互作用数据,而不仅存贮实验确定的蛋白质相互作用数据,而且还存贮预测的蛋白质相互作用数据,并对各种预测方法且还存贮预测的蛋白质相互作用数据,并对各种预测方法的准确性给出了相应的权重,对于采用经典实验方法研究的准确性给出了相应的权重,对于采用经典实验方法研究蛋白质的功能、生物学意义具有非常重要的意义。蛋白质的功能、生物学意义具有非常重要的意义。v 数据来源有数据来源有4种,一是高通量实验技术产生的蛋白质相互种,一是高通量实验技术产生的蛋白质相互作用数据,二是由保守的共表达数据推导出的蛋白质功能作用数据,二是由保守的共表达数据推导出的蛋白
37、质功能联系,三是文献搜索得到的蛋白质相互作用数据,四是采联系,三是文献搜索得到的蛋白质相互作用数据,四是采用预测蛋白质相互作用的方法,根据基因组中基因的上下用预测蛋白质相互作用的方法,根据基因组中基因的上下文关系(文关系(genomic context)预测得到的蛋白质相互)预测得到的蛋白质相互作用数据。作用数据。v 目前目前STRING数据库已经包括数据库已经包括179个物种中的个物种中的736429个蛋白,覆盖率相当高。个蛋白,覆盖率相当高。v 网址:网址:http:/string.embl.de/STRING主页主页(四)(四)KEGG v 京都基因和基因组百科全书京都基因和基因组百科全
38、书(KEGG)是系统分析基因功能,是系统分析基因功能,联系基因组信息和功能信息的知识库。联系基因组信息和功能信息的知识库。v 基因组信息存贮在基因组信息存贮在GENES数据库里,包括完整和部分测数据库里,包括完整和部分测序的基因组序列;序的基因组序列;v 功能信息存贮在功能信息存贮在PATHWAY数据库里,包括图解的细胞数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信息;同系保守的子通路等信息;v KEGG的另一个数据库是的另一个数据库是LIGAND,包含关于化学物质、,包含关于化学物质、酶分子、酶
39、反应等信息。酶分子、酶反应等信息。v KEGG提供了提供了Java的图形工具来访问基因组图谱,比较的图形工具来访问基因组图谱,比较基因组图谱和操作表达图谱,以及其它序列比较、图形比基因组图谱和操作表达图谱,以及其它序列比较、图形比较和通路计算的工具,可以免费获取。较和通路计算的工具,可以免费获取。v 网址:网址:http:/www.genome.jp/kegg/KEGG主页主页64第四节第四节 基因组数据库基因组数据库Entrez Gonomes Ensembl UCSC Genome Browser 其他基因组数据库其他基因组数据库 一、一、Entrez Gonomes v NCBI提供的,
40、是世界上最大、最完整的多物种的基因组提供的,是世界上最大、最完整的多物种的基因组资源。目前已收录资源。目前已收录5937个物种的个物种的8500多条记录,多条记录,v 按生物体分成古细菌(按生物体分成古细菌(Archaea)、细菌()、细菌(Bacteria)、)、真核生物(真核生物(Eukaryotae)、病毒()、病毒(Viruses)、类病毒)、类病毒(Viroids)和质粒()和质粒(Plasmids)六大类。)六大类。v 提供了各种基因组图谱,包括完整的染色体、序列图谱、提供了各种基因组图谱,包括完整的染色体、序列图谱、遗传图谱、物理图谱和连续子(遗传图谱、物理图谱和连续子(cont
41、igs)图谱。)图谱。v 可以通过可以通过Entrez进行关键词搜索,也可以通过进行关键词搜索,也可以通过Map Viewer进行浏览、检索及编辑。进行浏览、检索及编辑。v 网址:网址:http:/www.ncbi.nlm.nih.gov/sites/genomeEntrez Gonomes主页主页(一)(一)Map Viewer vMap Viewer是一种从众多资源中汇集图谱和序是一种从众多资源中汇集图谱和序列信息的图谱浏览器。它既允许用户浏览和检索列信息的图谱浏览器。它既允许用户浏览和检索某有机体完整基因组信息,又允许用户在序列水某有机体完整基因组信息,又允许用户在序列水平,通过浏览单个
42、染色体图谱或某染色体上的特平,通过浏览单个染色体图谱或某染色体上的特定区域,探查完整基因组信息。定区域,探查完整基因组信息。v对于每一个基因组,对于每一个基因组,Map Viewer从从4个层次揭个层次揭示其信息:示其信息:生物体主页(Home Page)基因组浏览(Genome View)图谱浏览(Map View)序列浏览(Sequence View)(二)(二)Map Viewer的使用的使用 Map Viewer主页检索结果检索结果 有关有关ARMS2更详细的信息更详细的信息 二、二、Ensembl v Ensembl是一个有关人类基因组及其他物种基因组的综是一个有关人类基因组及其他物
43、种基因组的综合数据库。始建于合数据库。始建于1996年,由年,由EMBL-EBI和和Sanger研究所共同开发。研究所共同开发。v 目前包括人类、小鼠、斑马鱼、马、猩猩等几十种生物基目前包括人类、小鼠、斑马鱼、马、猩猩等几十种生物基因组的注释分析。因组的注释分析。v Ensembl主要根据已经测得的基因组序列,定位所有已主要根据已经测得的基因组序列,定位所有已知基因,并预测未知新基因,同时为这些基因提供功能、知基因,并预测未知新基因,同时为这些基因提供功能、疾病相关特征等方面的注释信息。疾病相关特征等方面的注释信息。v Ensembl基因组注释的核心部分是基因预测,这部分工基因组注释的核心部分
44、是基因预测,这部分工作的好坏直接影响最终结果。作的好坏直接影响最终结果。v 网址:网址:http:/www.ensembl.org/index.htmlEnsembl主页主页三、三、UCSC Genome Browser v UCSC Genome Browser是美国加利福尼亚大学是美国加利福尼亚大学Santa Cruz分校的分校的Jim Kent等建立的人类基因组图谱等建立的人类基因组图谱三大门户网站之一。三大门户网站之一。v 目前该数据库采用目前该数据库采用NCBI拼接整合的人类基因组序列作为拼接整合的人类基因组序列作为平台,提供了很多基因组中的定位数据,包括染色体区带、平台,提供了很多
45、基因组中的定位数据,包括染色体区带、连续子和间隙、连续子和间隙、mRNA和表达序列标签和表达序列标签(EST)、预测基、预测基因、单核苷酸多态(因、单核苷酸多态(SNPs)、)、STS的遗传和放射杂交图的遗传和放射杂交图谱、重复序列、鼠同源序列、斑马鱼(谱、重复序列、鼠同源序列、斑马鱼(Tetraodon nigroviridis)同源序列等。)同源序列等。v 大多数据与其他数据库链接,如大多数据与其他数据库链接,如RefSeq、LocusLink、PubMed、GeneLynx、GenCards、AceView等。等。v 网址:网址:http:/genome.ucsc.edu/UCSC Ge
46、nome Browser主页主页75鼠基因组数据库 人类基因组数据库 线虫基因组数据库 四、其他基因组数据库四、其他基因组数据库(一)(一)GDB(二)MDB(三)ACEDB(一)(一)GDBvGDB(人类基因组数据库)由美国(人类基因组数据库)由美国John Hopkins大学于大学于1990年建立,年建立,1998年年底移年年底移至加拿大多伦多儿童医院生物信息中心。至加拿大多伦多儿童医院生物信息中心。vGDB采用表格方式给出基因组结构数据,包括基采用表格方式给出基因组结构数据,包括基因单位、因单位、PCR位点、细胞遗传标记、位点、细胞遗传标记、EST、连续、连续子、重复片段等;并可显示基因
47、组图谱,包括细子、重复片段等;并可显示基因组图谱,包括细胞遗传图、连锁图、放射杂交图、连续子图、转胞遗传图、连锁图、放射杂交图、连续子图、转录图等,并给出等位基因等基因多态性数据库。录图等,并给出等位基因等基因多态性数据库。v网址:网址:http:/www.gdb.org/(二)(二)MDBvMDB(鼠基因组数据库,)由(鼠基因组数据库,)由Jackson实验室实验室于于1997年创建。年创建。v收录遗传、物理、比较图谱数据、克隆收录遗传、物理、比较图谱数据、克隆/探针探针/PCR信息、基因的表型描述、突变和老鼠种株信息、基因的表型描述、突变和老鼠种株的遗传记、哺乳类同源性确定、参考文献等。的
48、遗传记、哺乳类同源性确定、参考文献等。v网址:网址:http:/www.informatics.jax.org(三)(三)ACEDB vACEDB(线虫基因组数据库,)是一种被广泛(线虫基因组数据库,)是一种被广泛应用的管理和提供基因组数据的工具组,适用于应用的管理和提供基因组数据的工具组,适用于许多动物和植物的基因组计划。许多动物和植物的基因组计划。vACEDB以丰富的图形界面提供信息,包括有具以丰富的图形界面提供信息,包括有具体显示的基因图谱、物理图谱、新陈代谢的途径体显示的基因图谱、物理图谱、新陈代谢的途径和序列等。和序列等。v数据采用面向对象的形式进行组织,如相关的文数据采用面向对象的
49、形式进行组织,如相关的文献、基因、描述和克隆的献、基因、描述和克隆的DNA等。可用于专用的等。可用于专用的数据分析以及许多永久性数据的采集。数据分析以及许多永久性数据的采集。v网址:网址:http:/www.acedb.org/79第五节第五节 疾病基因数据库疾病基因数据库 OMIM GeneCards 突变数据库突变数据库 单核苷酸多态性数据库单核苷酸多态性数据库 80一、一、OMIMOMIM概述概述 OMIM数据的存贮数据的存贮 OMIM检索检索 OMIM在医学遗在医学遗传学中的应用价值传学中的应用价值(二)(一)(三)(四)(一)(一)OMIM概述概述 v“在线人类孟德尔遗传在线人类孟德
50、尔遗传”(Online Mendelian Inheritance in Man,OMIM),是在美国),是在美国John Hopkins大学医学大学医学院院Victor AMcKusick教授编撰的教授编撰的人类孟人类孟德尔遗传德尔遗传一书的基础上发展起来的,一书的基础上发展起来的,v内容包括所有已知的遗传病、遗传决定的性状及内容包括所有已知的遗传病、遗传决定的性状及其基因,除了简略描述各种疾病的临床特征、诊其基因,除了简略描述各种疾病的临床特征、诊断、鉴别诊断、治疗与预防外等文本资料,还提断、鉴别诊断、治疗与预防外等文本资料,还提供已知有关疾病相关基因的连锁关系、染色体定供已知有关疾病相关