1、1.网络生物医学资源概论网络生物医学资源概论2.生物分子数据库生物分子数据库3.基因组数据库基因组数据库4.蛋白质序列、生物大分子结构数据库蛋白质序列、生物大分子结构数据库5.蛋白质二级结构、互作数据库蛋白质二级结构、互作数据库6.基因产物注释数据库基因产物注释数据库网络生物医学资源概论网络生物医学资源概论?如是对引起胃癌基因感兴趣的读者,想从事这方面的研究,请问如何查找这方面的信息。能够对这方面的研究动态有一定的了解生物分子数据库生物分子数据库v生物分子数据库应满足5个方面的主要需求v(1)时间性v(2)注释 v(3)支撑数据 v(4)数据质量 v(5)集成性v生物分子数据库 一级数据库v数
2、据库中的数据直接来源于实验获得的原始数据,只经过简单的归类整理和注释 二级数据库v对原始生物分子数据进行整理、分类的结果,是在一级数据库、实验数据和理论分析的基础上针对特定的应用目标而建立的 。国际上权威的核酸序列数据库国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http:/www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank http:/www.ncbi.nlm.nih.gov/Web/Genbank/index.html (3)日本遗传研究所的DDBJ http:/www.ddbj.nig.ac.jp/“ID”为序列的标识符行,包括
3、登录号、类型,分子的长度“AC”为登录号行;“XX”为分隔符号行;“DT”为创建和更新日期行“DE”为序列描述行;“KW”为关键字行;“OG”行描述细胞组织;“OS”行描述生物体种属;“OC”行描述生物体分类信息;“RN”描述参考文献的编号;“RP”描述参考文献的页码;“RA”描述参考文献的作者;“RT”描述参考文献的题目;“RL”描述参考文献的出处;“RC”描述参考文献的注解;“RX”、“DR”行描述交叉引用信息;“FH”为特征开始符号;“FT”为特征表行(1)Feature Key,它是描述域生物功能的关键字;(2)Location,指明特征在序列中的特定位置;(3)Qualifiers,
4、描述关于一个特征的辅助信息;文件体由序列本身所组成,由“SQ”标志的行开始。序列结束的标记是“/”。EMBL核酸数据库中的每一个序列数据被赋予一个登录号,它是一个永久性的唯一标识 EMBL的序列数据用外在的ASCII文本文件来表示,而每一个文件分为文件头和文件体两大部分 文件头由一系列的信息描述行所组成,文件头实际上对应于一个序列的注释(annotation)核酸数据库提供一些与序列相关的检索操作核酸数据库提供一些与序列相关的检索操作(基于(基于3W服务器)服务器)(1 1)序列查询)序列查询最简单的查询就是通过序列的最简单的查询就是通过序列的登录号登录号(如(如X58929X58929)或或
5、序列名称序列名称(如(如SCARGCSCARGC)直接查询。)直接查询。如果找到所查询的序列,则服务器将查询结果以如果找到所查询的序列,则服务器将查询结果以HTMLHTML文件返回文件返回给用户给用户如果数据库中该序列有到如果数据库中该序列有到MEDLINEMEDLINE的交叉索引,则系统同时返回的交叉索引,则系统同时返回与包含参考文献摘要等信息的与包含参考文献摘要等信息的MEDLINEMEDLINE链接链接如果该序列有到其它数据库的交叉索引,也返回相应的链接如果该序列有到其它数据库的交叉索引,也返回相应的链接(2)核酸同源性搜索 3W服务器支持用户使用FastA程序进行核酸同源搜索。Fast
6、A根据给定的目标序列在数据库中搜索其同源序列。生物基因组数据库生物基因组数据库 鼠基因组数据库鼠基因组数据库 MGD(http:/www.informatics.jax.org/)酵母基因组数据库酵母基因组数据库 SGD(http:/genome-www.stanford.edu/Saccharomyces/)1、PIR(Protein Information Resource)UniProt包含3个部分:(1)UniProt Knowledgebase(UniProt)蛋白质序列、功能、分类、交叉引用等信息存取蛋白质序列、功能、分类、交叉引用等信息存取中心中心(2)UniProt Non-r
7、edundant Reference(UniRef)数据库 将密切相关的蛋白质序列组合到一条记录中 以便提高搜索速度;(3)UniProt Archive(UniParc)资源库,记录所有蛋白质序列的历史。生物大分子结构数据库生物大分子结构数据库1、PDB(Protein Data Bank)PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构 蛋白质 核酸 糖类 其它复合物 其它生物分子数据库其它生物分子数据库核酸序列变化核酸序列变化 单碱基多态性单碱基多态性SNPs(Single nucleotide polymorphisms)SNPs对人类遗传学研究和医学应
8、用具有重要的意义对人类遗传学研究和医学应用具有重要的意义 无论对于人类种群遗传学的研究,还是对疾病性状分析无论对于人类种群遗传学的研究,还是对疾病性状分析或个体化医疗,都需要深入地研究或个体化医疗,都需要深入地研究SNPs。基因组数据库基因组数据库 随着核酸测序技术的迅速发展,人类已经得到一部分生物的全基因组数据,如人、小鼠、大鼠等。这些数据对于我们认识基因组信息组织的奥秘、了解生物体的生长发育的规律是非常重要的。国际上有专门的组织收集和管理这些数据。NCBI基因组数据库Entrez Gonomes(http:/www.ncbi.nlm.nih.gov/entrez/query.fcgi?db
9、=Genome)所收集的基因组数据量非常大,GDB 人类基因组学数据库 资源名称:资源名称:The Genome Database 交替名称:交替名称:基因组数据库 创建机构:创建机构:美国马里兰州巴尔的摩市约翰霍普金斯大学 基因组数据库(GDB)为人类基因组计划(HGP)保存和处理基因组图谱数据。GDB的目标是构建关于人类基因组的百科全书,除了构建基因组图谱之外,还开发了描述序列水平的基因组内容的方法,包括序列变异和其它对功能和表型的描述。目前GDB中有:人类基因组区域(包括基因、克隆、amplimers PCR 标记、断点breakpoints、细胞遗传标记cytogenetic mark
10、ers、易碎位点fragile sites、EST序列、综合区域syndromic regions、contigs和重复序列);人类基因组图谱(包括细胞遗传图谱、连接图谱、放射性杂交图谱、content contig图谱和综合图谱等);人类基因组内的变异(包括突变和多态性,加上等位基因频率数据)。GDB数据库以对象模型来保存数据,提供基于Web的数据对象检索服务,用户可以搜索各种类型的对象,并以图形方式观看基因组图谱 此外,GDB数据库还包括了与核酸序列数据库 GenBank和EMBL、遗传疾病数据库OMIM、医药文摘数据库MedLine等其他网络信息资源的超文本链接。GDB数据库是用大型商业
11、软件Sybase数据库管理系统开发的,并用Java语言编写基因图谱显示程序,为用户提供了很好的界面,缺点是传输速度受到一定限制。GDB数据库是国际合作的成果,其宗旨是为从事基因组研究的生物学家和医护人员提供人类基因组信息资源。其数据来自于世界各国基因组研究的成果,经过注册的用户可以直接向GDB数据库中添加和编辑数据。目前GDB数据库主站点设在加拿大安大略多伦多儿童医院生物信息中心。不过,根据协议,生物信息中心对 GDB的管理到2002年底终结,因此,自2003年始,GDB数据库内容没有更新,不过,各镜像站点仍继续提供检索服务。据称新的主站点正在建设中,不过新的主站点将设在何处尚是未知数。其它模
12、式生物基因组数据库酵母基因组数据库酵母基因组数据库SGD(http:/www.yeastgenome.org/)小鼠基因组信息学数据库小鼠基因组信息学数据库MGI(http:/www.informatics.jax.org/)果蝇基因组数据库果蝇基因组数据库FlyBase(http:/flybase.bio.indiana.edu/)线虫基因组数据库线虫基因组数据库WormBase(http:/www.wormbase.org/)蛋白质序列、生物大分子结构数据蛋白质序列、生物大分子结构数据库库数据库简介数据库简介 由于蛋白质序列测定技术先于DNA序列测定技术问世,蛋白质序列的搜集也早于DNA序
13、列。蛋白质序列数据库的雏形可以追朔到60年代。60年代中期到80年代初,美国国家生物医学研究基金会(National Biomedical Research Foundation,简称NBRF)Dayhoff领导的研究组将搜集到的蛋白质序列和结构信息以“蛋白质序列和结构地图集”(Atlas of Protein Sequence and Structure)的形式发表,主要用来研究蛋白质的进化关系。1984年,年,“蛋白质信息资源蛋白质信息资源”(Protein Information Resource,简称,简称PIR)计划正式计划正式启动,蛋白质序列数据库启动,蛋白质序列数据库PIR也因此
14、而诞生。也因此而诞生。与核酸序列数据库的国际合作相呼应,与核酸序列数据库的国际合作相呼应,1988年,美国的年,美国的NBRF、日本的国际蛋白质、日本的国际蛋白质信息数据库信息数据库(Japanese International Protein Information Database,简称,简称JIPID)和德国的慕尼黑蛋白质序列信息中心和德国的慕尼黑蛋白质序列信息中心(Munich Information Center for Protein Sequences,简称,简称MIPS)合作成立了国际蛋合作成立了国际蛋白质信息中心白质信息中心(PIR-International),共同收集,共
15、同收集和维护蛋白质序列数据库和维护蛋白质序列数据库PIR,除了PIR外,另一个重要的蛋白质序列数据库则是SwissProt。该数据库由瑞士日内瓦大学于1986年创建,目前由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,简称SIB)和欧洲生物信息学研究所 EBI共同维护和管理。瑞士生物信息研究所下属的蛋白质分析专家系统(Expert Protein Analysis System,,简称ExPASy)的Web服务器除了开发和维护SwissProt数据库外,也是国际上蛋白质组和蛋白质分子模型研究的中心,为用户提供大量蛋白质信息资源。北京大学生物信息中心设
16、有ExPASy的镜象 SwissProt数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算机工具并查阅有关文献资料仔细核实。SIB和 EBI共有70多人的研究队伍,专门从事蛋白质序列数据的搜集、整理、分析、注释、发布,力图提供高质量的蛋白质序列和注释信息。SwissProt数据库的每个条目都有详细的注释,包括结构域、功能位点、跨膜区域、二硫键位置、翻译后修饰、突变体等。该数据库中还包括了与核酸序列数据库EMBL/GenBank/DDBJ、蛋白质结构数据库PDB以及Prosite、PRINTTS等十多个二次数据库的交叉引用代码。ExPAsy专门聘请了由200多位国际知名生物学
17、家组成的网上专家评审团,并将SwissProt数据库中的蛋白质分成200多个类别,每个类别由1位或2位评审专家负责,通过计算机网络进行审核。ExPASy网站上列出了这些评审专家的姓名、电子邮件地址和他们所负责评审蛋白质种类。用户若对某个蛋白质条目有疑义,可以直接和相应的评审专家取得联系.截止1998年6月,SWISS-PROT数据库包含约7万条序列,这些序列涵盖了5千多个不同种属,其中大部分来自于几种主要模式生物,如人、小鼠等。蛋白质序列、生物大分子结构数据蛋白质序列、生物大分子结构数据库库SWISS-PROT 数据记录(Entry)详解:每条蛋白质序列条目按照各种数据行的格式书写排列每条蛋白
18、质序列条目按照各种数据行的格式书写排列 1.ID(IDentification)标识标识 记录名记录名(Entry-name)X_YX代表蛋白质名称的记忆码,代表蛋白质名称的记忆码,至多至多4位;位;Y代表蛋白质的生物来源,至多代表蛋白质的生物来源,至多5位,一般前位,一般前3位是属名,后位是属名,后2位是种名。常见普通生物以自释码表明位是种名。常见普通生物以自释码表明来源,如来源,如HUMAN,YEAST等,病毒例外,以临时码代等,病毒例外,以临时码代替。替。如如PDI_YEAST,PDI代表代表Protein Disulfide Isomerase(蛋白质二硫键异构酶);(蛋白质二硫键异构
19、酶);YEAST代表它来源于代表它来源于Yeast(酵母酵母),属于自释码。,属于自释码。FER_HALHAFER代表代表ferredoxin铁还原蛋白;铁还原蛋白;HALHA表明其生物来源为表明其生物来源为Halobacterirn halobium(海海洋嗜盐菌,洋嗜盐菌,HAL代表嗜盐菌层代表嗜盐菌层Halobacterium,HA代代表海洋生物表海洋生物Halobium)。1.2 数据类型(Data class)分标准(Standard)数据和初级(Preliminary)数据两类。数据达不到SWISS-PROT标准的属于初级数据。1.3 分子类型(Molecular type)在SW
20、ISS-PROT数据库,分子类型均为PRT,代表蛋白质(PRoTein)。1.4 分子长度(Length of the molecule)ID数据行的最后一项是序列的氨基酸残基数目。2.AC(Accession number)蛋白质注册号蛋白质注册号 由于数据的合并与增删,一个记录可能有几个注册号,以第一个注册号为准;但一般情况下,一个记录只有一个注册号。3.DT(Date)记录日期或最后一次更新记录日期或最后一次更新的日期的日期格式为DD-MMM-YEAR(REL.XX.COMMENT)日-月-年(发行号,记录缘由)记录缘由分为创建、序列更新 和其他内容更新三种。4.DE(DEscripti
21、on)描述描述 包含蛋白质序列的描述性信息,无固定格式。5.GN(GeneName)基因名称基因名称 格式为 GN NAME1AND/ORNAME2 多个基因编码同一个蛋白时,同义名称的基因间以 OR 相隔;不同基因编码蛋白质的不同亚基时,基因之间以 AND 相隔。6.KW(KeyWord)关键词关键词 可用于蛋白质功能,结构或其他范畴的蛋白质序列索引。7.OS(Organism Species)生物种生物种属属表明序列的来源,通常采用拉丁种属名,括弧中继以英文名。如:OS SACCHARMYCES CEREVISIAE(BAKERS YEAST)表示:生物来源为酵母 OS HOMO SAPI
22、ENS(HUMAN)表示:生物来源为人 描述内容组成。8.OG(OrGanelle)细胞器细胞器(细胞内小器官细胞内小器官)表明基因编码蛋白的来源或定位,如细胞内的线粒体,叶绿体或质粒等。9.OC(Organism classification)生物分类生物分类 以树状分类的从上至下的格式列出,最普遍的类目列在最前面。10.RN,RP,RC,RX,RA,RL 参考数据参考数据 RN(Reference Number)参考号在本记录中的参考文献的排号RP(Reference Position)参考性质参考性质 文献作者的工作性质和范围RC(Reference Comment)相关内容相关内容文献
23、相关内容(可选数据行)RX(Reference Cross-reference)交互参照用来表示题录型数据库(Bibliographic database)中的标识号,一般是MEDLINE数据库的标识号。如:RX MEDLINE;91001972RA(Reference Author)文献作者RL(Reference Location)参考文献来源,包括几种:杂志:注明杂志缩写,卷次,页码及发表日期(年);书:注明书名,版次,卷次,编号,页码,出版及发表日期(年)书名前冠以(IN)字样;未出版物:示“UNPUBLISHED”字样;论文(Thesis):冠以“THESIS”标记,注明时间(年),
24、研究所,国家;专利(Patent):注明专利号,日期;直接递交序列(submissions):注明递交年月及数据库。11.DR(Database cross-Reference)参照数据库参照数据库 格式为格式为DRDATA_BANK_IDENTIFIER;PRIMARY_IDENTIFIER;SECONDARY_ IDENTIFIER 包含数据库缩写名,第一标识号(Primary Identifier),第二标识号(Secondary Identifier,为补充信息)。12.FT(Feature Table)特征表特征表 提供简洁精炼的数据注释,描述了序列的位点及作用区域。一般情况下列出翻
25、译后修饰、结合位点、酶活性位点和局部二级结构等其他特征。每一特征数据行按关键词、残基起始序号区域及简扼的13.SQ(SeQuence header)序列题)序列题头头 列出蛋白质的序列长度(氨基酸数目),分子量(MW),CRC32序列值 蛋白质数据库(简称蛋白质数据库(简称PDB),专门用于处理和分类储专门用于处理和分类储存蛋白质等生物大分子的存蛋白质等生物大分子的3D结构及其他生物学数据,结构及其他生物学数据,应用范围极其广泛,是十分重要的世界性数据库之应用范围极其广泛,是十分重要的世界性数据库之一。一。蛋白质的基本立体结构数据库为蛋白质的基本立体结构数据库为PDB(Protein Data
26、 Bank),1971年建立于美国布鲁海克海文国家年建立于美国布鲁海克海文国家实验室。实验室。该数据库中收集了通过该数据库中收集了通过X射线衍射和核磁共振射线衍射和核磁共振(NMR)试验测定的蛋白质结构的精确坐标数据。)试验测定的蛋白质结构的精确坐标数据。这种数据即蛋白质中的原子坐标是蛋白质结构的最这种数据即蛋白质中的原子坐标是蛋白质结构的最细致的层次。细致的层次。该数据库的管理者是结构生物信息学合作研究组织该数据库的管理者是结构生物信息学合作研究组织(Research Collaboration for Structural Bioinformatics,RCSB,http:/www.rcs
27、b.org/pdb 截至2004年4月20日,该数据库所收录的各种结构数据已达25176条之多。在太平洋时间每个周三的凌晨一点,该数据库会释放一些新的结构数据,在PDB年报和PDB新闻中,用户可以详尽地了解该数据库的历史、功能、最新进展以及最终目的等信息。PDB是是RCSB建立的全世界最完整的包括蛋白质、核建立的全世界最完整的包括蛋白质、核酸、蛋白质酸、蛋白质-核酸复合物及病毒等生物大分子的三维结核酸复合物及病毒等生物大分子的三维结构数据库。构数据库。PDB生物大分子结构数据库的内容来自于全世界相关生物大分子结构数据库的内容来自于全世界相关研究者提交的生物大分子的原子坐标、注释、一级结研究者提
28、交的生物大分子的原子坐标、注释、一级结构、二级机构、晶体结构因子、构、二级机构、晶体结构因子、NMR实验数据,实验数据,由由RCSB维护。每周大概生成维护。每周大概生成50-100个新数据。这些个新数据。这些分子结构信息可以从分子结构信息可以从PDB主页检索,也可以通过其镜主页检索,也可以通过其镜像站点,或者像站点,或者FTP站点下载。站点下载。PDB的基本目标是 使得用户可以查找到感兴趣的结构资料对一个或多个数据执行简单的分析作为互联网上一个可以了解到更多附加说明信息的入口使得用户可以下载结构信息,尤其是笛卡尔原子坐标等以便于下一步的分析。数据格式数据格式 每个PDB文件可能分割成一系列行,
29、由行终止符终止.在记录文件中每行由80列组成.每条PDB记录末尾标志应该是行终止符.PDB文件中每行都是自我识别的.每行的前六列存放记录名称,左对齐空格补足.必须和规定的记录名称一致.PDB文件也可看成是各种记录类型的总和.每个记录类型包括一行或多行又被更深一层分成各字段.该文件详细描述了每个数据类型,一般包括如下几部分:综述 记录格式 细节 例子 HEADER(分子类,公布日期、分子类,公布日期、ID号号)记录的表示记录的表示 PDB数据库中的数据都应按照一定的规定来出现,强制记录类型必须出现在所有的记录中,当强制数据没有提供,记录名必须出现在记录中并以NULL表示当此条件存在时选择项表就变
30、成强制记录类型。以下表格是对这两种类型的具体划分和描述:蛋白质序列数据库为基础构建的二级数据库 生物信息资料的庞大无比,如何快速而正确的取得、管理、分析、使用这些网络资源已成为十分重要的课题。建立面向不同领域的二级数据库,将具有相同特点的蛋白质资源进行归纳、分析,找出它们之间的共同之处。二级数据库的种类 蛋白序列模式的二级数据库种类繁多,包括Prosite、Prints、Blocks等等。这些数据库的共同特点是基于多序列比对。不同之处:一次数据库来源及处理比对结果的原则和方法不同 Prosite数据库基于多序列比较得到的单一保守序列片段,或称序列模体。除Prosite外,蛋白质序列二次数据库还
31、有蛋白质序列指纹图谱数据库Prints(Attwood,1998)、蛋白质序列模块数据库Blocks(Henikoff,1998)、蛋白质序列家族数据库Pfam(Sonnhammer,1998)、蛋白质序列概貌数据库Profile、蛋白质序列识别数据库Identify等(表1.16)。应该说,这些方法各有一定的特色。从某种意义上说,蛋白质序列二次数据库实际上也是蛋白质功能数据库,因为从这些数据库中,可以得到有关蛋白质功能、家族、进化等信息。?分别说明几个二级数据库所存储的内容,具有什么功能单元DIP数据库及数据介绍数据库及数据介绍 DIP(Database of Interacting Pro
32、teins,蛋,蛋白互相作用数据库白互相作用数据库)于于1999年在年在UCLA的的David Elsenberg实验室建立;实验室建立;主旨:是把关于蛋白互作的多样的实验信息主旨:是把关于蛋白互作的多样的实验信息整合成一个容易进行查询的专一数据库。整合成一个容易进行查询的专一数据库。互作指的是两个氨基酸链在实验上证实相互互作指的是两个氨基酸链在实验上证实相互结合。结合。它转化了它转化了MEDLINE文献中关于蛋白互作的实文献中关于蛋白互作的实验结果,储存和组织了多种观察和实验技术下验结果,储存和组织了多种观察和实验技术下得到的蛋白互作信息得到的蛋白互作信息.DIP发展了全基因组范围的数据质量
33、监测工具,发展了全基因组范围的数据质量监测工具,保证了数据的可信性保证了数据的可信性 DIP收集的互作蛋白数据不仅有利于研究某一收集的互作蛋白数据不仅有利于研究某一具体互作蛋白的关系,还对信号转导、蛋白相具体互作蛋白的关系,还对信号转导、蛋白相互作用细胞网络的组织和复杂性研究起推动作互作用细胞网络的组织和复杂性研究起推动作用。用。DIP数据库及数据介绍数据库及数据介绍 DIP数据库使用开放式的数据库使用开放式的PostgreSQL数据库数据库管理系统。管理系统。注:注:PostgreSQL 是一种非常复杂的对象是一种非常复杂的对象-关系关系型数据库管理系统(型数据库管理系统(ORDBMS),)
34、,也是目前也是目前功能最强大,特性最丰富和最复杂的自由软件功能最强大,特性最丰富和最复杂的自由软件数据库系统。有些特性甚至连商业数据库都不数据库系统。有些特性甚至连商业数据库都不具备。具备。这个起源于伯克利(这个起源于伯克利(BSD)的数据库研究计划)的数据库研究计划目前已经衍生成一项国际开发项目,目前已经衍生成一项国际开发项目,并且有非并且有非常广泛的用户。常广泛的用户。DIP数据库及数据介绍数据库及数据介绍3.Experiment部分包括了对实验细节的部分包括了对实验细节的介绍和相关文献的链接。介绍和相关文献的链接。注:注:EVIDENCE表格提供相关实验的具体细节表格提供相关实验的具体细
35、节 SOURCE表格提供了相关实验的来源,包括表格提供了相关实验的来源,包括MEDLINE标准的文献号码(标准的文献号码(PMID/UID)和)和文献的作者、题目、刊物和出版年份等文献的作者、题目、刊物和出版年份等数据库搜寻数据库搜寻 DIP数据库可以以多种方式搜寻得到信息,数据库可以以多种方式搜寻得到信息,也可以根据用户特定的标准得到蛋白或相互也可以根据用户特定的标准得到蛋白或相互作用作用数据库组成数据库组成DIP数据库是由节点(数据库是由节点(node)和边()和边(edge)组成)组成:1.DIP节点节点(蛋白蛋白)每个每个DIP相互作用的蛋白都具有一个独特的识别信息相互作用的蛋白都具有
36、一个独特的识别信息(形式为(形式为)和对应其他一个主要的蛋白)和对应其他一个主要的蛋白数据库数据库PIR,SWISSPROT 和和/或或 GENBANK的参考。的参考。另外,包括一些关于蛋白的基本信息,如名称、功能、另外,包括一些关于蛋白的基本信息,如名称、功能、亚细胞定位、在其他生物学数据库中的参考等。亚细胞定位、在其他生物学数据库中的参考等。2.DIP边边(相互作用相互作用)每个每个DIP相互作用都具有一个独特的识别信息(形式相互作用都具有一个独特的识别信息(形式为为),还具有相互作用区域、区域分离),还具有相互作用区域、区域分离常数和实验手段等标志此相互作用的信息。常数和实验手段等标志此
37、相互作用的信息。2.一个一个DIP发展的重要方面是整合现在存在的发展的重要方面是整合现在存在的很好的生物学数据库,很好的生物学数据库,如:如:蛋白数据库蛋白数据库SWISS-PROT,通路数据库通路数据库KEGG、TRANSPATH,酵母数据库酵母数据库YPD等,等,使用户能对一个指定的蛋白得到最完整的信息。使用户能对一个指定的蛋白得到最完整的信息。1 增加DIP数据库中人亚数据的数据数目;2 发展新的获得和分析数据库中信息的工具。DIP未来发展方向 Gene Ontology 的功能本体论框架的功能本体论框架 基因本体论(基因本体论(gene ontology)的建立)的建立 Ontolog
38、y是一个哲学术语,在西方哲学中是一个哲学术语,在西方哲学中Ontology是指本体论,反映世界的本原是存是指本体论,反映世界的本原是存在的本身。这一个哲学术语水者人们对自然在的本身。这一个哲学术语水者人们对自然科学的研究的深入,已经作为一个概念的规科学的研究的深入,已经作为一个概念的规范以及通过概念与概念之间的关系来对不同范以及通过概念与概念之间的关系来对不同自然科学知识体系进行客观的描述,完成对自然科学知识体系进行客观的描述,完成对不同自然科学领域的知识表示。不同自然科学领域的知识表示。这些概念的详细说明和它们之间的关系通过这些概念的详细说明和它们之间的关系通过具有代表性的词汇表来描述,通过
39、这些词表具有代表性的词汇表来描述,通过这些词表可以用基于知识的程序来表示知识体系。它可以用基于知识的程序来表示知识体系。它所反映的不是某个个体私有的,而是可以被所反映的不是某个个体私有的,而是可以被一个群体所接受的。一个群体所接受的。通过通过Ontology的建立,我们可以达到知识共的建立,我们可以达到知识共享,获取和再利用的目的,能够方便有效的享,获取和再利用的目的,能够方便有效的进行人工智能和机器学习,以实现对知识体进行人工智能和机器学习,以实现对知识体系的进一步认识。系的进一步认识。Gene Ontology(GO)项目正是为了能够使项目正是为了能够使对各种数据库中基因产物功能描述相一致
40、对各种数据库中基因产物功能描述相一致的努力结果。的努力结果。这个项目最初是由这个项目最初是由1988年对三个模式生物年对三个模式生物数据库的整合开始:数据库的整合开始::FlyBase(果蝇数据果蝇数据库库Drosophila),Saccharomyces Genome Database(酵母基因组数据库酵母基因组数据库SGD)和和 Mouse Genome Database(小小鼠基因组数据库鼠基因组数据库MGD)。从那开始,从那开始,GO不断发展扩大,现在已包含不断发展扩大,现在已包含数十个动物、植物、微生物的数据库。数十个动物、植物、微生物的数据库。GO的结构包括三个方面:的结构包括三个
41、方面:分子生物学上的功能分子生物学上的功能 生物学途径生物学途径 在细胞中的组件作用在细胞中的组件作用.当然,它们可能在每一个方面都有多种当然,它们可能在每一个方面都有多种性质。如细胞色素性质。如细胞色素C,在分子功能上体现为电在分子功能上体现为电子传递活性,在生物学途径中与氧化磷酸化子传递活性,在生物学途径中与氧化磷酸化和细胞凋亡有关,在细胞中存在于线粒体质和细胞凋亡有关,在细胞中存在于线粒体质中和线粒体内膜上。下面,将进一步的分别中和线粒体内膜上。下面,将进一步的分别说明说明GO的具体定义情况。的具体定义情况。基因产物基因产物 基因产物和其生物功能常常被我们基因产物和其生物功能常常被我们混
42、淆。混淆。例如,例如,“乙醇脱氢酶乙醇脱氢酶”既可以指放在既可以指放在Eppendorf管里的基因产物,也表明了它的管里的基因产物,也表明了它的功能。功能。一个基因产物可以拥有多种分子功能,多种一个基因产物可以拥有多种分子功能,多种基因产物也可以行使同一种分子功能。基因产物也可以行使同一种分子功能。比如还是比如还是“乙醇脱氢酶乙醇脱氢酶”,其实多种基因产,其实多种基因产物都具有这种功能,而并不是所有的这些酶物都具有这种功能,而并不是所有的这些酶都是由乙醇脱氢酶基因编码的。一个基因产都是由乙醇脱氢酶基因编码的。一个基因产物可以同时具有物可以同时具有“乙醇脱氢酶乙醇脱氢酶”和和“乙醛歧乙醛歧化酶化
43、酶”两种功能,甚至更多。两种功能,甚至更多。所以,在所以,在GO中,很重要的一点在于,当使中,很重要的一点在于,当使用用“乙醇脱氢酶活性乙醇脱氢酶活性”这种术语时,所指的这种术语时,所指的是功能,并不是基因产物。是功能,并不是基因产物。许多基因产物会形成复合物后执行功许多基因产物会形成复合物后执行功能。这些能。这些“基因复合物基因复合物”有些非常简有些非常简单(如血红蛋白由血红蛋白基因产物单(如血红蛋白由血红蛋白基因产物球蛋白、球蛋白、球蛋白和小分子的亚血球蛋白和小分子的亚血红素组成),有些非常复杂(如核糖红素组成),有些非常复杂(如核糖体)。现在,小分子的描述还没有包体)。现在,小分子的描述
44、还没有包括在括在GO中。在未来,这个问题可望由中。在未来,这个问题可望由和现在的和现在的Klotho和和LIGAND等小分子等小分子数据库联合而解决数据库联合而解决。分子功能分子功能 分子功能描述在分子生物学上的分子功能描述在分子生物学上的活性,如催化活性或结合活性。活性,如催化活性或结合活性。GO分子功能定义功能而不是整体分子,而分子功能定义功能而不是整体分子,而且不特异性地指出这些功能具体的时空信且不特异性地指出这些功能具体的时空信息。分子功能大部分指的是单个基因产物息。分子功能大部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的功能,还有一小部分是此基因产物形成的复合物的功能。
45、的复合物的功能。定义功能的义项包括催化活性、转运活性、定义功能的义项包括催化活性、转运活性、结合活性等,更为狭窄的定义包括腺苷酸结合活性等,更为狭窄的定义包括腺苷酸环化酶活性或钟形受体结合活性等。环化酶活性或钟形受体结合活性等。生物学途径生物学途径 生物学途径是由分子功能有序生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程。地组成的,具有多个步骤的一个过程。举例来说,较为宽泛的是细胞生长和维持、举例来说,较为宽泛的是细胞生长和维持、信号传导。一些更为具体的例子包括嘧啶信号传导。一些更为具体的例子包括嘧啶代谢或代谢或配糖基的运输等。一个生物学途配糖基的运输等。一个生物学途径并不是完全和
46、一条生物学通路相等。因径并不是完全和一条生物学通路相等。因此,此,GO并不涉及到通路中复杂的机制和所并不涉及到通路中复杂的机制和所依赖的因素依赖的因素 细胞中的位置指基因产物位于何种细胞器细胞中的位置指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核或核或基因产物组中(如糙面内质网,核或核糖体,蛋白酶体等)。糖体,蛋白酶体等)。GO的形式的形式 GO 定义的术语有着直接非循环定义的术语有着直接非循环式(式(directed acyclic graphs(DAGs)的特的特点,而并非是传统的等级制(点,而并非是传统的等级制(hierarchy)定义方式(随着代数增加,下一级比上一定义方式(
47、随着代数增加,下一级比上一级更为具体)。级更为具体)。举个例子来说,生物学途径中有一个定义举个例子来说,生物学途径中有一个定义是己糖合成,它的上一级为己糖代谢和单是己糖合成,它的上一级为己糖代谢和单糖合成。当某个基因被注解为糖合成。当某个基因被注解为“己糖合成己糖合成活性活性”后,它自动地获得了己糖代谢和单后,它自动地获得了己糖代谢和单糖合成地注解。因为在糖合成地注解。因为在GO中,每个术语必中,每个术语必须遵循须遵循“真途径真途径“法则,即如果下一代的法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语可以用于描述此基因产物,其上一代术语也可以适用。术语也可以适用。Gene Onto
48、logy中功能之间关系的分析 Gene Ontology在我们的工作中主要用来分析功能之间的联系。如果从物理层面看待生命现象,可以想象蛋白质在细胞中多个生物功能、多个细胞过程和生化反应中发挥作用,使得生命得以维持;但如果从功能层面来看,每一个蛋白质都携带了不同的功能,细胞就可以看作是一个复杂的功能相互作用的网络。在这个网络中,通常一个功能会与其他多个功能集中完成同一件任务,然后与另外一些功能相互作用去完成另一件任务。Gene Ontology详细的功能分类体系为分析系统的功能结构提供了便利。我们把Gene Ontology中功能之间的联系分为两种类型:第一种是层与层之间的“is a”关系和“p
49、art of”关系,我们统称为父子关系;第二种基于功能之间的互作,如果两个功能之间有互作并且二者没有包含与被包含的关系,即其中一个功能不是另一功能的祖先节点也不是另一功能的子孙节点,我们就称两个功能有非继承关系。一个功能会与其他多个功能集中完成同一一个功能会与其他多个功能集中完成同一件任务,从另一个角度看,这使得一个单件任务,从另一个角度看,这使得一个单个的蛋白质会同时具有多个功能。利用这个的蛋白质会同时具有多个功能。利用这一点,可以识别相关的功能,并可以利用一点,可以识别相关的功能,并可以利用蛋白质层面信息判断什么情况下不同功能蛋白质层面信息判断什么情况下不同功能倾向于共同发挥作用。倾向于共
50、同发挥作用。我们能够直接从我们能够直接从Gene Ontology结构中得结构中得到第一种功能关系;利用蛋白质功能注释到第一种功能关系;利用蛋白质功能注释信息,判断不同功能是否在同一个蛋白质信息,判断不同功能是否在同一个蛋白质中出现,可于确定非继承关系的功能联系。中出现,可于确定非继承关系的功能联系。KEGG 京都基因和基因组百科全书(KEGG)是系统分析基因功能,联系基因组信息和功能信息的知识库。基因组信息存储在GENES数据库里,包括完整和部分测序的基因组序列;更高级的功能信息存储在PATHWAY数据库里,包括图解的细胞生化过程如代谢、膜转运、信号传递、细胞周期,还包括同系保守的子通路等信