1、 20012001年年9 9月,国家科学技术部对月,国家科学技术部对“生物和生物和现代农业技术领域生物信息技术主题现代农业技术领域生物信息技术主题”提出的提出的目标是目标是:实现生物技术与信息技术以及其他学科的实现生物技术与信息技术以及其他学科的结合,实现基因组数据、蛋白质组和结构基因结合,实现基因组数据、蛋白质组和结构基因组数据、天然及合成化合物数据的计算机处理、组数据、天然及合成化合物数据的计算机处理、分析和可视化,以及生物实验和生物分子的模分析和可视化,以及生物实验和生物分子的模拟设计,解析蛋白质三维结构和蛋白质组的时拟设计,解析蛋白质三维结构和蛋白质组的时空表达关系等,提高生物信息处理
2、、分析和利空表达关系等,提高生物信息处理、分析和利利用的水平。利用的水平。How to correlate changes in protein expression with disease?How to distinguish important from unimportant changes in expression?How to compare,archive,retrieve gel data?How to rapidly,accurately identify proteins from MS and 2D gel data?How to include expression
3、info in databases?How to predict 3D structure from 1D sequence?How to determine function from structure?How to classify proteins on basis of structure?How to recognize 3D motifs and patterns?How to use bioinformatics databases to help in 3D structure determination?How to predict which proteins will
4、express well or produce stable,folded molecules?SWISS-PROT/TrEMBLSWISS-PROT/TrEMBL 高度注释高度注释(比如蛋白功能描述、结构域比如蛋白功能描述、结构域结构、转录后修饰、变异等结构、转录后修饰、变异等),冗余程度,冗余程度最低,与其他数据库整合程度最高。最低,与其他数据库整合程度最高。TrEMBLTrEMBL是是SWISS-PROTSWISS-PROT的补充,含有所有的的补充,含有所有的EMBLEMBL核苷酸的翻译产物,但未整合进核苷酸的翻译产物,但未整合进SWISS-PROTSWISS-PROT 。Protein
5、 Information Resource(PIR)Protein Information Resource(PIR)广泛的、注释的、非冗余的蛋白质序列数据广泛的、注释的、非冗余的蛋白质序列数据库。蛋白信息资源与慕尼黑蛋白序列信息中及库。蛋白信息资源与慕尼黑蛋白序列信息中及日本国际蛋白质信息数据库合作,产生的公共日本国际蛋白质信息数据库合作,产生的公共领域中最广泛的熟练注释的蛋白序列数据库领域中最广泛的熟练注释的蛋白序列数据库-PIRPIR国际蛋白质序列数据库。国际蛋白质序列数据库。NCBInrNCBInr 是一个非冗余的蛋白质数据库,由是一个非冗余的蛋白质数据库,由NCBINCBI搜集,搜集
6、,以供其搜索工具以供其搜索工具BLASTBLAST和和EntrezEntrez所用。所用。dbEST dbEST 是是GenBankGenBank的分支的分支,含有从大量的生物中来的含有从大量的生物中来的一次反应测序得到的一次反应测序得到的cDNAcDNA或叫表达序列标签。或叫表达序列标签。这是一个核酸数据库,被这是一个核酸数据库,被MascotMascot从从6 6个相位翻个相位翻译得到。译得到。OWLOWLOWLOWL混合蛋白质数据库混合蛋白质数据库(Composite Protein Composite Protein Sequence Database)Sequence Databas
7、e)是一个非冗余的蛋白质序是一个非冗余的蛋白质序列数据库,由列数据库,由4 4个公用的一级资源组成:个公用的一级资源组成:SWISS-SWISS-PROTPROT、PIRPIR、GenbankGenbank和和NRL-3DNRL-3D。UniGeneUniGene 美国国家生物技术信息中心美国国家生物技术信息中心(NCBl)NCBl)提供提供的公用数据库,该数据库将的公用数据库,该数据库将GenBankGenBank中属中属于同一条基因的所有片段拼接成完整的基于同一条基因的所有片段拼接成完整的基因进行收录。因进行收录。7.7.其它数据库如下图其它数据库如下图PDBPDB中的每条记录有显式序列(
8、中的每条记录有显式序列(explicit sequenceexplicit sequence)和隐式序列和隐式序列(implicit sequence)(implicit sequence)信息。信息。PDB PDB的隐式的隐式序列即为立体化学数据,包括每个原子的名称和原子序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。在实际应用中,的三维坐标。在实际应用中,PDBPDB数据库应与结构模数据库应与结构模型显示软件相结合。由于型显示软件相结合。由于PDBPDB的主要信息是三维结构,的主要信息是三维结构,如果直接将三维结构信息以文本的形式返回给用户,如果直接将三维结构信息以文本的形式返回
9、给用户,用户将难以读懂这些信息。实用的方法是通过分子模用户将难以读懂这些信息。实用的方法是通过分子模型软件,以图形方式显示三维结构。互联网上有许多型软件,以图形方式显示三维结构。互联网上有许多可以利用的分子模型软件如可以利用的分子模型软件如RasMolRasMol、CHIME CHIME、MolPOVMolPOV等,这些软件能够以各种各样的模型显示出生等,这些软件能够以各种各样的模型显示出生物大分子的三维结构如结构骨架模型、棒状模型、球物大分子的三维结构如结构骨架模型、棒状模型、球棒模型、空间填充模型和带状模型等。此外,棒模型、空间填充模型和带状模型等。此外,PDBPDB还还说明了蛋白质某些特
10、定部位的二级结构类型如说明了蛋白质某些特定部位的二级结构类型如a a螺旋螺旋和和b b折叠。折叠。观看生物分子观看生物分子3 3D D微观立体结构的软件微观立体结构的软件,可以旋转可以旋转,以多个模式观看,并可以存成普通图形文件。以多个模式观看,并可以存成普通图形文件。IEIE与与NetScapeNetScape浏览器插件浏览器插件,安装后安装后,可以直接用浏览器观看可以直接用浏览器观看PDBPDB格式的文件格式的文件,直接在浏览器中观看直接在浏览器中观看3 3D D分子。分子。CHIME 2.6 SP6是是PDBPDB格式至格式至POVPOV格式转化工具,可以将大分子格式转化工具,可以将大分
11、子PDBPDB格格式文件转化为式文件转化为POVPOV格式,以便用格式,以便用pov-raypov-ray进行三维渲染,进行三维渲染,生成质量非常高的分子三维图形。软件有许多选项,生成质量非常高的分子三维图形。软件有许多选项,只需设定这些选项,便能生成相应的只需设定这些选项,便能生成相应的POVPOV格式文件,格式文件,直接调用直接调用Pov-RayPov-Ray软件,生成相应的非常高质量的三维图像。软件,生成相应的非常高质量的三维图像。MolPOV 2.0.8MolPOV 2.0.82.2.CPHmodelsCPHmodelsWX3 3.MMDB .MMDB http:/sander.ebi
12、.ac.uk/hssp/http:/sander.ebi.ac.uk/hssp/所有实验测定的三维结构所有实验测定的三维结构 现在,许多蛋白质家族的三维结构已经知道、现在,许多蛋白质家族的三维结构已经知道、因此很有可能在搜索序列数据库时会碰到巳知结因此很有可能在搜索序列数据库时会碰到巳知结构的同源物。构的同源物。EntrezEntrez的三维纳构数据库的目标就是的三维纳构数据库的目标就是使这些信息以及其提供的功能注释能够很方便地提使这些信息以及其提供的功能注释能够很方便地提供给分子生物学家。比如,人们可能会选与一个感供给分子生物学家。比如,人们可能会选与一个感兴趣的序列相似的所有的序列,以及到
13、所有已知的兴趣的序列相似的所有的序列,以及到所有已知的三维结构的链接。在确定一个已知结构的同源物后,三维结构的链接。在确定一个已知结构的同源物后,人们可以通过观察分子图像相比对情况来推导近似人们可以通过观察分子图像相比对情况来推导近似的的3 3D D结构。结构。DSSPDSSP还包括一个实用程序,根据蛋白质的还包括一个实用程序,根据蛋白质的三维结构用它就可以计算一个蛋白质所对应三维结构用它就可以计算一个蛋白质所对应的二级结构。在的二级结构。在DSSPDSSP数据库中,蛋白质的二数据库中,蛋白质的二级结构共分级结构共分7 7种类型,其编码含义是:种类型,其编码含义是:H H代表代表a a螺旋,螺旋,E E代表代表b b折叠,折叠,G G和和I I分别代表分别代表3-3-螺旋和螺旋和p p螺旋,螺旋,B B代表孤立的代表孤立的b b桥,桥,T T代表氢键转折,代表氢键转折,S S代表弯曲。代表弯曲。DSSPDSSP二级结构实例二级结构实例 谢谢大家!谢谢大家!