1、ANTHEPROT 介绍介绍生物的化学,就是蛋白质与核酸的化学。对蛋生物的化学,就是蛋白质与核酸的化学。对蛋白质的研究是生物化学领域一个非常重要的部白质的研究是生物化学领域一个非常重要的部分。近年来,通过实施基因组计划,得到了大分。近年来,通过实施基因组计划,得到了大量的蛋白序列数据,但是,面对如此众多的蛋量的蛋白序列数据,但是,面对如此众多的蛋白质序列数据,其分析工作是一个非常困难的白质序列数据,其分析工作是一个非常困难的工作。用人工的方法是不可能完成如此大量的工作。用人工的方法是不可能完成如此大量的分析工作的。运用计算机,利用一定的运算规分析工作的。运用计算机,利用一定的运算规则,进行蛋白
2、序列分析是唯一的方法。蛋白序则,进行蛋白序列分析是唯一的方法。蛋白序列分析软件包列分析软件包ANTHEPROT 5.0正是这样的一正是这样的一个程序。个程序。蛋白序列分析软件包蛋白序列分析软件包ANTHEPROT 5.0是位于是位于法国的蛋白质生物与化学研究院(法国的蛋白质生物与化学研究院(Institute of Biology and Chemistry of Proteins)用十多年)用十多年时间开发出的蛋白质研究软件包。软件包包括时间开发出的蛋白质研究软件包。软件包包括了蛋白质研究领域所包括的大多数内容,功能了蛋白质研究领域所包括的大多数内容,功能非常强大。非常强大。软件包为一个自解
3、压执行文件,文件名软件包为一个自解压执行文件,文件名Anthe5_0.exe,大小为,大小为1.9兆。执行此文件,输兆。执行此文件,输入解压后存放的目录名,便可将所有文件解压入解压后存放的目录名,便可将所有文件解压在此目录下。主程序名为在此目录下。主程序名为Anthewin,在桌面,在桌面上建立它的快捷图标,双击快捷图标便打开了上建立它的快捷图标,双击快捷图标便打开了ANTHEPROT 5.5主窗口。主窗口。通过主程序,我们可以载入蛋白序列,对序列通过主程序,我们可以载入蛋白序列,对序列进行编辑、打印、拷贝、改变设定等操作,更进行编辑、打印、拷贝、改变设定等操作,更重要的是,我们可以在此调用各
4、种所需的分析重要的是,我们可以在此调用各种所需的分析工具,对蛋白序列进行分析。工具,对蛋白序列进行分析。软件包为一个自解压执行文件,文件名软件包为一个自解压执行文件,文件名Anthe5_0.exe,大小为,大小为1.9兆。执行此文件,输兆。执行此文件,输入解压后存放的目录名,便可将所有文件解压入解压后存放的目录名,便可将所有文件解压在此目录下。主程序名为在此目录下。主程序名为Anthewin,在桌面,在桌面上建立它的快捷图标,双击快捷图标便打开了上建立它的快捷图标,双击快捷图标便打开了ANTHEPROT 5.5主窗口。主窗口。通过主程序,我们可以载入蛋白序列,对序列通过主程序,我们可以载入蛋白
5、序列,对序列进行编辑、打印、拷贝、改变设定等操作,更进行编辑、打印、拷贝、改变设定等操作,更重要的是,我们可以在此调用各种所需的分析重要的是,我们可以在此调用各种所需的分析工具,对蛋白序列进行分析。工具,对蛋白序列进行分析。一一 序列编辑功能序列编辑功能 可以使用按键或菜单中的File/Open命令打开各种序列文件,程序识别的文件类型包括:单序列文件格式:*.SEQ,(ANTHEPROT 3.3支持以下格式的单序列文件:DNA/Strider 格式、EMBL格式、NBRF格式、Pearson/Fasta格式、PIR 格式与IG/Stanford格式);含有多个蛋白序列的蛋白数据库文件:*.BA
6、S,(以Pearson/Fasta格式添加序列,上限为30条序列或32K文件大小);ClustalV 或ClustalW 文件:*.ALN 含有ClustalW格式的多队列;含有多队列的Multalin 4.1格式文件:*.MUL;一一 序列编辑功能序列编辑功能 在Prosite 蛋白数据库中查寻出Site结果的文件:*.SIT,蛋白质原子空间结构的PDB格式文件:*.PDB;使用IBCP(wwww.ibcp.fr/predict.html)服务器预测蛋白二级结构所获得的结果文件格式:*.CNS;一一 序列编辑功能序列编辑功能 序列可以从ANTHEPROT编辑窗口以键盘输入,或者以*.SEQ等
7、文件格式载入,也可以从其它文件复制粘贴到编辑窗口。最简单的序列格式为Pearson/Fasta格式,为文本格式文件,带有开始的为序列蛋白的名称,其后便是蛋白序列。下面为一个此格式的例子:MBNVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKFDRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPIKYLEFISEAIIHVLHSRHPGDFGADAQGAMNKALELFRKDIAAKYKELGYQG一一 序列编辑功能序列编辑功能 输入或载入序列后,便同时打开了一个图像窗口,以彩图的形式显示出蛋白序列
8、。不同的蛋白残基以不同的颜色表示。下面便是打开一个序列后的主程序窗口的例子:二工具栏与基本功能二工具栏与基本功能 当序列格式识别后,Methods菜单便被激活,相应的快捷按键也出现在工具栏中。打开文件按键 ;存储文件按键 ;打印按键 ;更改字体与格式按键更改设定颜色按键 ;进行蛋白序列二级结构预测 在 蛋 白 序 列 中 查 找 符 合PROSITES数据库的特征序列 绘制出蛋白序列的所有理化特性曲线 在Internet或本地蛋白序列数据库中查找类似序列 二工具栏与基本功能二工具栏与基本功能当序列格式识别后,Methods菜单便被激活,相应的快捷按键也出现在工具栏中。计算蛋白序列分子量,比重与
9、各蛋白残基百分组成 计算蛋白序列滴定曲线与等电点 选定一个片段后,绘制Helical Wheel图 进行点阵图(Dot Plot)分析 计算信号肽潜在的断裂位点 打开一个简单的帮助文件 退出程序 三基本分析工具介绍三基本分析工具介绍 1.点阵图(Dot Plot)Dot Plot分析方法对以下分析工作非常有用:l 在一条序列内查找重复序列;l 在2条序列中不同位置查找类似片段;l 在不同序列中查找同源性。只有当程序载入一条序列时,才可以激活Dot Plot程序,选择菜单命令Dot Plot或单击按键 ,运行Dot Plot程序,可再选择要进行比较的第二条序列。然后,再确定参数与限制条件,包括:
10、窗口尺寸:移动片段的长度矩阵:选择替代矩阵三基本分析工具介绍三基本分析工具介绍 上图为含有两个蛋白酶序列的点阵图,两个酶具有同源性,因为由点阵图可以看到,基本上有非常好的斜线。但由于此斜线的位置开始于位置115,很容易知道,水平轴的蛋白序列含有前体(由1到第114个残基组成),也清楚地看到,它们具有一个小的内部重复片段(图上非常短的红线)。三基本分析工具介绍三基本分析工具介绍 2.类似性查找(Similarity Search)此程序用来在一个蛋白数据库(可以是本地数据库,也可是网上的数据库)中,找出所有与给定序列具有同源性的序列。选择菜单命令Methods/Similarity Search
11、/WWW or Local Fasta,或者Methods/Similarity Search/WWW-Blast at PBIL NPS server 便实现在蛋白数据库中对类似性蛋白序列的查找。需注意,如果在本地蛋白数据库中查找,需要先下载SwissProt蛋白质数据库。三基本分析工具介绍三基本分析工具介绍 3.查找Site/signature在ANTHEPROT主窗口单击 按键或选取菜单命令Methods/Site detection(Prosite),便进行位点与特征序列的查找。程序查找给定序列是否存在PROSITE数据库中已定义的特征序列,缺省设置为100%匹配,也可设定为Misma
12、tch 1 or 2(一到两个不匹配)或者Similarity level(类似水平)。当前PROSITE数据库是95年2月发布的,共1054个不同位点与特征序列,含有两个文件,PROSITE.DAT 与PROSITE.DOC。此两个文件必需均放在ANTHEPROT程序的目录下,程序才能进行。三基本分析工具介绍三基本分析工具介绍 下图为查找结束后程序输出的结果:绿色的文字可连接到PROSITE文件中相应的位置。需要知道的是,在你的蛋白序列中找到的特征序列并不一定具有生物学意义,只能说,查找的结果对寻找潜在的有意义片段具有很大帮助。三基本分析工具介绍三基本分析工具介绍 4.在序列数据库中查找一个
13、自定义的特征序列:Pattern search选择菜单命令Databases/Pattern search,便开始在网上的蛋白数据库或本地蛋白数据库中查找含有自定义特征序列的蛋白。所定义的特征序列必需符合PROSITE规定的语法。语法规则如下:-位置分隔符;-允许此位置为括号内的任何一个残基;-允许此位置为除了括号内所包括的任何一个残基;-x 代表任何残基;-x(3)代表任何3个氨基酸残基,三基本分析工具介绍三基本分析工具介绍 4.在序列数据库中查找一个自定义的特征序列:Pattern search根据以上语法,如果要查找的特征序列为N-PT-GM-x(2)-ILVM,则序列N-P-K-G-H
14、-V,N-T-L-K-G-M将能够找到,而序列N-L-K-G-H-V,N-T-G-K-H-V将不能找到。查找结束后,所有找到的序列将以Pearson格式,以SEQ_x.BAS为文件名存储在硬盘中。三基本分析工具介绍三基本分析工具介绍 5.预测物理化学特性曲线 Antheprot可以以图示的方法,显示出预测的蛋白质的物理化学特性曲线,下图为一个亲水性特性曲线的例子。在图中,一个可移动的光标,显示了目前在序列中的位置为115,此位置的氨基酸残基(L)显示为红色,同时显示前5个与后五个残基(为AIIHVLHSRHP),特性值(-7)与参数(5)也显示在图中。三基本分析工具介绍三基本分析工具介绍 6.
15、二级结构预测 Antheprot提供了几种方法进行蛋白质二级结构预测,包括:l GOR I方法:在菜单中选择Method/Secondary structure prediction/Garnier et all Gibrat方法:在菜单中选择Method/Secondary structure prediction/Gibrat et all Double Prediction Method DPM方法:在菜单中选择Method/Secondary structure prediction/DPMl Homologue方法:在菜单中选择Method/Secondary structure p
16、rediction/Levin三基本分析工具介绍三基本分析工具介绍 6.二级结构预测 l Predator方法:在菜单中选择Method/Secondary structure prediction/Predator或全部使用以上几种方法:单击 按键或在菜单中选择Method/Secondary structure prediction/All,其快捷键为Ctrl+L。三基本分析工具介绍三基本分析工具介绍 五种方法的输出形式分别举例如下:GOR I方法 三基本分析工具介绍三基本分析工具介绍 Gibrat方法三基本分析工具介绍三基本分析工具介绍 Double Prediction Method
17、DPM方法 三基本分析工具介绍三基本分析工具介绍 Homologue方法 三基本分析工具介绍三基本分析工具介绍 Predator方法 三基本分析工具介绍三基本分析工具介绍 全部使用以上几种方法的输出形式为 三基本分析工具介绍三基本分析工具介绍 上图中加入了自定义的由X射线衍射法确定的二级结构图,可以显示在一个窗口,与其它预测的二级结构相比较。自定义的二级结构由以*.XRA为扩展名的文件输入。其格式为Pearson/Fasta文件格式,下面是一个*.xra文件的例子,Myoglobin CCCHHHHHHHHHHHHHHTTSHHHHHHHHHHHHHHHCHHH H H T C H H H H
18、 T C C S H H H H H H C H H H H H H H HHHHHHHHHHHTTTTCCHHHHHHHHHHHHHTTCCCHHHHHHHHHHHHHHHHHHCTTTTSHHHHHH HHHHHHHHHHHHHHHHHHHTCCCH代表螺旋,图中表示为蓝色;E代表折叠,图中表示为橙色;T代表转角,图中表示为绿色;C代表其它松散结构,图中表示为黑色。三基本分析工具介绍三基本分析工具介绍 7.计算蛋白序列分子量,比容与各蛋白残基百分组成程序可以非常方便地对蛋白序列进行分子量,比容与各蛋白残基百分组成的计算。单击 按键或选取Methods/AA Composition,spec
19、ific volume,M.Weight便进行计算。快捷键为Ctrl+M。三基本分析工具介绍三基本分析工具介绍 7输出形式如下:三基本分析工具介绍三基本分析工具介绍 8.计算蛋白序列滴定曲线与等电点ANTHEPRO5.0还可根据一定算法,对输入的蛋白序列计算其滴定曲线与等电点。单击 按键或选取Methods/Titration curve便可进行计算,快捷键为Ctrl+U。输出图形如下:三基本分析工具介绍三基本分析工具介绍 9.选定一个片段后,绘制Helical Wheel图ANTHEPRO5.0还可先选定一 个 蛋 白 片 段,绘 制 其Helical Wheel图。单击 按 键 或 选 取
20、 M e t h o d s/Helical Wheel便可进行计算与绘制。在二级结构预测输出窗口,用鼠标左键定义起始点,用鼠标右键定义结束点,选择菜单命令Helical Wheel,也可很方便的绘制此定义片段的Helical Wheel图输出图形的例子如下:三基本分析工具介绍三基本分析工具介绍 10.进行潜在的信号肽与断裂位点预测ANTHEPRO5.0还对输入的蛋白片段,进行潜在的信号肽与断裂位点预测。单击 按键或选取Methods/Potential cleavage site of signal pept.,再选择是原核序列或或者真核序列便可进行预测。输出结果举例如下:三基本分析工具介绍
21、三基本分析工具介绍 四结果的输出以及与其它应用程序进行数据交换 ANTHEPRO4.3所输出的所有文字、结果图形与曲线,均可以打印,也可以拷贝到剪贴板,粘贴到其它应用软件如WORD中,或者输出为*.BMP格式的文件,使用其它软件进行再编辑。程序的缺省设置将输出图形背景色设为黑色,在所有图形输出窗口,均可以以Invert Mode(即黑白反色模式)输出,或者可以在Options菜单由用户定义背景与前景色颜色。这样,可以将黑色背景反转为白色,符合我们的习惯,打印时也节约些墨水。四结果的输出以及与其它应用程序进行数据交换ANTHEPRO5.0蛋白质分析软件包的简单介绍到这里就结束了,本文只是对此软件
22、进行了一个粗略的介绍,许多细节的用法还有待大家去发掘。总的来说,ANTHEPRO4.3蛋白质分析软件包可以极大地加快研究蛋白序列的速度,并且能够获得具有发表质量的图表与数据,它对生物化学工作者来说,是一个不可多得的好软件。可以毫不夸张地说,ANTHEPRO5.0蛋白质分析软件包是蛋白分析领域的“重磅炸弹”,威力巨大,每一个生物化学工作者都应熟悉它,用好它。ExPasy功能简介 ExPasy功能简介 作为进入其他生命科学网络资源的门户的ExPasy网上的海量信息已经给生物学家创造了很多便利的条件,同时也不免让人陷入不知从何开始的困惑。一般来说,生物学家最迫切的问题之一就是如何把不同网站上提供的最
23、新的信息和陈旧的信息,低质量的数据区分开来;为了解决这些问题,ExPasy收集大量的信息。为生物学家提供下面一系列的工具和链接来解决信息时代的困惑。ExPasy功能简介 Amos WWW 网站(expasy.org/alinks.html)超过1000以上的生命科学网络资源,更新得很快,针对不同的特定领域组织成不同的分类.WORLD-2DPAGE(expasy.org/ch2d/2d-index.html)所有已知的二维凝胶电泳网络数据库服务器的列表及其相关的服务.BioHunt(expasy.org/BioHunt)提供一个在互联网上检索分子生物学数据的服务.2DHunt(expasy.or
24、g/ch2d/2Dhunt)二维凝胶电泳相关站点的专门索引ExPasy功能简介 其他一些有用的ExPasy特性Biochemical Pathways(expasy.org/tools/pathways)是Boehringer Mannheim的生物化学途径的一个有索引,数字化,可以点击的版本.允许用户检索图形化表示的代谢途径,可以直接连接到ENZYME数据库上.DeepView(Swiss-Pdbviewer)(expasy.org/spdbv)一个可以在Windows,Mac OS,SGI 和Linux多平台下运行的程序,提供了很多的选项用于观察和操纵蛋白质结构.也可以用作基于web的服务
25、程序,用来显示PDB格式的序列.Swiss-Pdbviewer可以作为SWISS-MODEL同源建模工具的补充.ExPasy功能简介 2-D PAGE(expasy.org/ch2d)关于2D PAGE的信息收集,包括实验原型的详细描述,并提供一个2D凝胶浏览器下载.Protein Spotlight(expasy.org/proteinspotlight)关于一些热点研究的蛋白质或蛋白质组的周期性综述.Swiss-Quiz(expasy.org/swiss-quiz)如果你答对了一个分子生物学的问题,你就有可能得到一块真的瑞士巧克力.ExPasyBar(expasybar.mozdev.or
26、g)一个有用的导航条,可以链接到绝大多数重要的ExPasy 数据库和工具.可以作为免费的Mozilla浏览器(mozilla.org)的插件,可以从这个地址(expasybar.mozdev.org)下载.ExPasy功能简介 镜像站点ExPasy的镜像站点均从位于日内瓦的ExPasy服务器上完全拷贝了所有的信息资源,也同样的定期进行更新.这有利于那些不能连接到瑞士ExPasy服务器或者连接速度很慢的用户访问当地的ExPasy服务.截至目前,一共有8个镜像站点澳大利亚au.expasy.org玻利维亚bo.expasy.org巴西br.expasy.org加拿大ca.expasy.org中国大
27、陆cn.expasy.org韩国kr.expasy.org台湾tw.expasy.org美国us.expasy.org 如何引用ExPasy如果你想在出版物中引用ExPasy,请使用下面的格式:Gasteiger E.,Gattiker A.,Hoogland C.,Ivanyi L.,Appel R.D.,Bairoch A.ExPasy:the proteomics server for in-depth protein knowledge and analysis:Nucleic Acids Res.31:3784-3788(2019)数据库 ExPasy 是个数据库的集合,主要专注的领
28、域是蛋白质分子和蛋白质组学.Swiss-Prot知识库是一个经过人工验证的蛋白质序列数据库.致力于提供高质量的注释,最少的冗余,以及和其他数据库的高度集成.TrEMBL是对Swiss-Prot的补充,EMBL中没集成进Swiss-Prot数据 库 的 所 有 序 列 都 经 过 计 算 机 进 行 注 释 并 集 成 进TrEMBL.Swiss-Prot和TrEMBL由SIB(瑞士生物信息学研究所)和EBI(欧洲分子生物学研究所)共同维护.目前,Swiss-Prot,TrEMBL和P I R 数 据 库 已 经 联 合 起 来 组 成 了 U n i v e r s a l P r o t e
29、 i n Knowledgebase(UniProt)联盟数据库 PROSITE(expasy.org/prosite)是个蛋白质结构域和蛋白质家族数据库,含有生物学上显著的位点(site),模式(pattern)和模体(profile),可用于鉴定一个未知的蛋白质序列属于哪一个已知的蛋白质家族.SWISS-2DPAGE(expasy.org/ch2d)是由双向聚丙稀酰胺凝胶电泳鉴别的蛋白质数据库.数据来源于很多不同的样本,例如人,鼠,枯草杆菌,大肠杆菌,酵母等.ENZYME(expasy.org/enzyme)是一个与酶命名的有关信息的集合 SWISS-MODEL(swissmodel.ex
30、pasy.org/repository)SWISS-MODEL库是个结构蛋白模型的数据库,使用同源建模方法自动产生.下载服务 所有的ExPasy 数据库,数据,和相关的文档都可以从ExPasy 的ftp 匿名下载(ftp:/ftp.expasy.org)此外,下载Swiss-Prot和TrEMBL数据库的不同选项,包括不同的子单元发行间隔时间和数据格式在expasy.org/sprot/download.html 都有文档记录软件和工具ExPasy工具页(expasy.org/tools)里面有很多有用的序列分析和蛋白质分析工具的链接.其中一些工具由ExPasy团队开发,其他的则指向世界上的其
31、他服务网站.序列和分析工具SWISS-MODEL一个自动的蛋白质建模服务,如果一个3维结构未知的蛋白质的序列和已知三维结构的蛋白质的序列有很近的相似关系,那么就可以使用这个工具来构建这个蛋白的3维模型.ProtParam计算一个蛋白质序列的理化参数例如氨基酸残基位置,等电点,原子位置等等.ProtScale根据一个蛋白质序列上的任何氨基酸的scale来计算和表示一个蛋白质的的模体(profile).一个amino acid scale 定义是为每种氨基酸赋的一个数值,最常用的scale是疏水或者亲水性,或者二级结构构像参数等等.目前有50个可用的scale.序列和分析工具RandSeq产生一个
32、随机的蛋白质序列,基于用户指定的氨基酸位置和序列长度.Myristoylator用神经网络的方法预测蛋白质N端的myristoylationSulfinator在蛋白质的序列内预测酪氨酸的硫化位点Translate使用6个读码框把核酸序列翻译成蛋白质序列蛋白质组学工具AACompIdent通过蛋白质的氨基酸成分来鉴别一个蛋白质AACompSim给定一个Swiss-Prot的序列,查询得到有最高的相似度的序列Compute PI/MW计算用户输入的序列或者Swiss-Prot或者TrEMBL数据库中序列的等电点和分子量FindMod预测潜在的蛋白质翻译后修饰和蛋白质中潜在的单氨基酸替换.蛋白质组学工具FindPept综合分子量的信息、化学修饰,翻译后修饰等其他信息共同来鉴定蛋白GlycanMass计算oligosaccharide结构的massGlycoMod预测可能的oligosaccharide结构.蛋白质组学工具PeptideCutter预测给定蛋白序的蛋白酶剪切位点和化学剪切位点PepIndent,tagIndent,MultiIndent使用很多不同的实验信息来鉴定一个蛋白质,例如等电点,分子量,氨基酸组成,部分序列标记,和肽的质谱数据.(peptide mass fingerprinting data)