1、11梅艳珍梅艳珍南京师范大学生命科学学院南京师范大学生命科学学院基因组学研究基因组学研究功能基因分析功能基因分析现代生物学实验技术现代生物学实验技术2要求:要求:1.掌握常用的序列比对工具掌握常用的序列比对工具2.能构建进化树能构建进化树3.能够预测蛋白质的二级结构、疏水区、跨膜区等能够预测蛋白质的二级结构、疏水区、跨膜区等4.能够进行简单的同源建模分析能够进行简单的同源建模分析5.了解了解KEGG数据库的检索数据库的检索3序列比对序列比对BLASTBLAST应用应用4 4 同源性同源性(homology)(homology): 指从一些数据中推断出的两个基因或蛋白质序列具有共指从一些数据中推
2、断出的两个基因或蛋白质序列具有共同祖先的结论,属于同祖先的结论,属于质的判断质的判断。 A A和和B B的关系上,是同源序的关系上,是同源序列,或者非同源序列两种关系。而说列,或者非同源序列两种关系。而说A A和和B B的同源性为的同源性为8080都是不科学的。都是不科学的。相似性相似性(similarity)(similarity): 是指一种直接的是指一种直接的数量关系数量关系,如部分相同或相似的百分比或,如部分相同或相似的百分比或其它一些合适的度量。比如说,其它一些合适的度量。比如说,A A序列和序列和B B序列的相似性是序列的相似性是8080,或者,或者4/54/5。生物序列的同源性生
3、物序列的同源性序列间相似性越高,它们是同源序列的可能性就更高序列间相似性越高,它们是同源序列的可能性就更高5BlastBlast程序评价序列相似性的两个数据程序评价序列相似性的两个数据ScoreScore:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残:使用打分矩阵对匹配的片段进行打分,这是对各对氨基酸残基(或碱基)打分求和的结果,一般来说,基(或碱基)打分求和的结果,一般来说,匹配片段越长、匹配片段越长、 相似性相似性越高越高, ,则则ScoreScore值越大值越大。E valueE value: :在相同长度的情况下,两个氨基酸残基(或碱基)在相同长度的情况下,两个氨基酸残基(或碱
4、基)随机排列随机排列的序列的序列进行打分,得到上述进行打分,得到上述ScoreScore值的概率的大小。值的概率的大小。E E值越小表示随机值越小表示随机情况下得到该情况下得到该ScoreScore值的可能性越低。值的可能性越低。我们在获得一个我们在获得一个BlastBlast结果时需要看这两个指标。结果时需要看这两个指标。 如果如果BlastBlast获得的目标序列的获得的目标序列的ScoreScore值越高并且值越高并且E-valueE-value越低表明结果越越低表明结果越可信可信,反之越不可信,反之越不可信. .6主要的主要的BLASTBLAST程序(功能)程序(功能)程序名程序名查询
5、序列查询序列数据库数据库搜索方法搜索方法BlastnBlastn核酸核酸核酸核酸在核酸数据库中比对核酸序列在核酸数据库中比对核酸序列BlastpBlastp蛋白质蛋白质蛋白质蛋白质在蛋白质数据库中比对蛋白质序列在蛋白质数据库中比对蛋白质序列BlastxBlastx核酸核酸蛋白质蛋白质在蛋白质数据库中比对待检的核酸序在蛋白质数据库中比对待检的核酸序列(用所有列(用所有6 6种可读框翻译)种可读框翻译)TblastnTblastn蛋白质蛋白质核酸核酸在核酸数据库(用所有在核酸数据库(用所有6 6种可读框翻种可读框翻译)中比对待检的蛋白质序列译)中比对待检的蛋白质序列TBlastxTBlastx核酸
6、核酸核酸核酸在核酸数据库(用所有在核酸数据库(用所有6 6种可读框翻种可读框翻译)中比对待检的核酸序列(也译)中比对待检的核酸序列(也用所有用所有6 6种可读框翻译)种可读框翻译)71.登陆登陆blast主页主页http:/www.ncbi.nlm.nih.gov/BLAST/组装的基因组序列库基本blast特定的BLAST所有的BLAST基因数据库88核酸数据库中比对核酸序列蛋白质数据库中比对蛋白质序列蛋白质数据库中比对核酸序列蛋白质数据库中比对核酸序列核酸数据库中比对蛋白质序列9Fasta格式文件1010 什么是什么是fasta格式?怎么建立?格式?怎么建立? 新建一个新建一个txt文本文
7、件,命名如文本文件,命名如: bph.txt Fasta的格式:的格式: 序列名称序列名称序列序列1112121.序列信息部分填入查询(query)的序列序列范围(默认全部)选择搜索数据库如果接受其他参数默认设置,点击开始搜索1313去冗余GenBank编码序列PDB + SwissProt + PIR + PRF14常用的检索数据库14Pdb拥有三维空间结构的原子坐标的氨基酸序列库拥有三维空间结构的原子坐标的氨基酸序列库Nr GenBank 蛋白数据库蛋白数据库ESTExpressed sequence tags,表达序列标签数据库,表达序列标签数据库STSsequence tagged s
8、ites,序列标签位点数据库,序列标签位点数据库Htgshigh throughput genomic sequences,高通量基因组序列,高通量基因组序列GSSgenome survey sequences,基因组测定序列,基因组测定序列Yeast酵母基因组中基因编码的全套蛋白质酵母基因组中基因编码的全套蛋白质E.coli大肠杆菌基因组中基因编码的全套蛋白质大肠杆菌基因组中基因编码的全套蛋白质Mito脊椎动物线粒体的全基因组序列脊椎动物线粒体的全基因组序列Alu搜集了灵长类动物的搜集了灵长类动物的Alu重复序列重复序列Swissprot蛋白质数据库蛋白质数据库15以下列蛋白序列为例,进行B
9、LAST搜索: P1MSDNGPQSNQRSAPRITFGGPTDSTDNNQNGGRNGARPKQRRPQGLPNNTASWFTALTQHGKEELRFPRGQGVPINTNSGPDDQIGYYRRATRRVRGGDGKMKELSPRWYFYYLGTGPEASLPYGANKEGIVWVATEGALNTPKDHIGTRNPNNNAATVLQLPQGTTLPKGFYAEGSRGGSQASSRSSSRSRGNSRNSTPGSSRGNSPARMASGGGETALALLLLDRLNQLESKVSGKGQQQQGQTVTKKSAAEASKKPRQKRTATKQYNVTQAFGRRGPEQTQGNFGDQ
10、DLIRQGTDYKHWPQIAQFAPSASAFFGMSRIGMEVTPSGTWLTYHGAIKLDDKDPQFKDNVILLNKHIDAYKTFPPTEPKKDKKKKTDEAQPLPQRQKKQPTVTLLPAADMDDFSRQLQNSMSGASADSTQA16171818基因名基因名来源物种来源物种一致程度,一致程度,登录号登录号19所选序列下载序列20Cluster比对21Clustalx的工作界面(多序列比对模式多序列比对模式)2222Clustal的工作原理ClustalClustal输入多个序列输入多个序列快速的序列两两比对,计算序列间的快速的序列两两比对,计算序列间的距离,获
11、得一个距离矩阵。距离,获得一个距离矩阵。邻接法邻接法(NJ)(NJ)构建一个树构建一个树根据进化树,渐进比对多个序列。根据进化树,渐进比对多个序列。2323ClustalxClustalx的输出结果的输出结果 .aln.aln格式文件格式文件 这个文件是默认输出,可以转换成各种格式,而且很多这个文件是默认输出,可以转换成各种格式,而且很多软件都支持这种格式。软件都支持这种格式。 .dnd.dnd格式文件格式文件 引导树。就是根据两两序列相似值构建的一个指导后面引导树。就是根据两两序列相似值构建的一个指导后面多重联配的启发树多重联配的启发树 不能做进化分析。进化分析要考虑的所有同源位点的一不能做
12、进化分析。进化分析要考虑的所有同源位点的一个综合效应,因此应该用个综合效应,因此应该用.aln.aln格式文件专门做进化分析。格式文件专门做进化分析。2424多序列比对实例多序列比对实例输入文件的格式输入文件的格式(fasta)(fasta):KCC2_YEASTKCC2_YEAST NYIFGRTLGAGSFGVVRQARKLSTN NYIFGRTLGAGSFGVVRQARKLSTNDMK_HUMANDMK_HUMAN DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK. DFEILKVIGRGAFSEVAVVKMKQTGQVYAMKIMNK.KPRO_MAIZEKPRO
13、_MAIZE TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLEN TRKFKVELGRGESGTVYKGVLEDDRHVAVKKLENDAF1_CAEELDAF1_CAEELQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALDQIRLTGRVGSGRFGNVSRGDYRGEAVAVKVFNALD1CSN1CSN HYKVGRRIGEGSFGVIFEGTNLLNN HYKVGRRIGEGSFGVIFEGTNLLNN不留空格不留空格25第一步:输入序列文件。第一步:输入序列文件。262728建议用建议用treeview 打开打开outtree,然后可以编辑,然后
14、可以编辑2930建树软件建树软件-mega-mega31MEGA5MEGA5可以识别可以识别fastafasta格式文件格式文件将将17-RNASE1.fasta.txt17-RNASE1.fasta.txt重命名为重命名为17-RNASE1.fasta17-RNASE1.fasta建树软件建树软件-mega3233ClustalW参数设置参数设置34多序列联配后结果多序列联配后结果35以以.meg格式保格式保存结果存结果36回到回到MEGA主窗口主窗口打开所保存的文件(打开所保存的文件(.meg)37点击按钮打开文件窗口点击按钮打开文件窗口38显示保守位点显示保守位点 显示变异位点显示变异位
15、点39回到回到MEGA主窗口构建进化树主窗口构建进化树当前打开的文件当前打开的文件选择邻接法建树选择邻接法建树40选择选择Bootstrap检检验验4142蛋白质二级结构预测蛋白质二级结构预测43蛋白质结构为什么如此重要的?蛋白质结构为什么如此重要的? 氨基酸序列只有折叠成特定的空间结构才具有相应的活性和相应的生物学功能DNA 序列蛋白质序列蛋白质结构转录&翻译折叠44为什么要研究蛋白质结构为什么要研究蛋白质结构? ? 生物体中许多重要的功能由蛋白质完成 分析蛋白质结构、功能及其关系是蛋白质组计划中的一个重要组成部分 分析蛋白质结构有助于药物设计研究 有助于了解蛋白质相互作用,这对于生物学、医
16、学和药学都是非常重要45蛋白质二级结构蛋白质二级结构 -helix (30-35%)-螺旋螺旋 -sheet / -strand (20-25%)-折叠折叠 Coil (40-50%) 无规则卷曲无规则卷曲 Loop 环环 -turn -转角转角4646蛋白蛋白质质3D 结结构构47http:/pbio.dundee.ac.uk/www-jpred/48JPred预测结果螺旋折叠49二级结构预测网站二级结构预测网站 PHD http:/cubic.bioc.columbia.edu/predictprotein/ JPRED http:/pbio.dundee.ac.uk/www-jpred/
17、 PSIPRED http:/bioinf.cs.ucl.ac.uk/psipred/ NNPREDICT http:/www.cmpharm.ucsf.edu/nomi/nnpredict.html Chou and Fassman http:/fasta.bioch.virginia.edu/fasta_www/chofas.htm5051部分预测工具部分预测工具 Compute pI/Mw(ExPASy) 计算蛋白序列的等电点和分子量 TGREASE 计算蛋白质序列疏水性工具 TMHMM 蛋白质跨膜区预测 More http:/www.expasy.org/tools/52http:/w
18、eb.expasy.org/compute_pi/等电点,分子量预等电点,分子量预测工具测工具5354http:/web.expasy.org/protscale/55TGREASE疏水性参数疏水性参数 高正值的氨基酸具有更大的疏水性而低负值的氨基酸具有更强的亲水性5657蛋白质跨膜区预测蛋白质跨膜区预测(TMHMM)http:/www.cbs.dtu.dk/services/TMHMM/585960信号肽分析61SignalP软件2.0版(http:/www.cbs.dtu.dk/services/SignalP-2.0/)对信号肽分析。62信号肽的作用一般是帮助蛋白质穿膜用的信号肽的作用一
19、般是帮助蛋白质穿膜用的,跟蛋白质的细胞跟蛋白质的细胞定位有关系。定位有关系。63同源建模蛋白质三维结构预测蛋白质三维结构预测64 3D预测是可能的,因为:序列信息决定三级结构序列相似性 (30%)倾向于结构相似性 3D预测是必须的,因为:DNA 序列 蛋白质序列 空间结构656667蛋白质结构预测方法:同源建模法(Comparative homology modeling)依据蛋白序列与已经结构蛋白比对信息构建3D模型折叠识别法(Threading fold recognition)寻找与未知蛋白最合适的模板,进行序列与结构比对,最终建立结构模型从头预测法(Ab initio/de novo
20、methods)根据序列本身来从头预测蛋白质结构68同源建模基本原理: 1、一个蛋白质的结构由其氨基酸序列唯一的决定。由一级结构,在理论上,足以获取其二级、三级结构。 2、三级结构的保守型远远大于一级结构的保守型。应用限制:模板蛋白和目标蛋白的序列一致性需要大于30%69SWISS-MODEL SWISS-MODEL: 网址http:/swissmodel.expasy.org/ 非专业人士应用最为广泛的一个在线建模服务器。 特点:简单、自动化、对学术团队免费。Automated mode:自动模式,可以称为是最傻瓜的方式提交自己的氨基酸序列+邮箱即可适用:一致性较高时7071邮箱邮箱模型命名
21、模型命名氨基酸序列氨基酸序列7273KEGG数据库74http:/www.genome.jp/kegg/75特点 KEGGKEGG是一个整合了是一个整合了基因组基因组、化学化学和和系统功能系统功能信息的数据信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是级别的细胞、物种和生态系统水平的系统功能关联起来是KEGGKEGG数据库的特色之一。数据库的特色之一。 人工创建了一个知识库,这个知识库是基于使用一种可计人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知
22、识而形成的系统功能知算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个识库。它是一个生物系统的计算机模拟生物系统的计算机模拟。 与其他数据库相比,与其他数据库相比,KEGG KEGG 的一个显著特点就是具有的一个显著特点就是具有强大强大的图形功能的图形功能,它利用图形而不是繁缛的文字来介绍众多的,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解。对其所要研究的代谢途径有一个直观全面的了解。76777879甲硫醇甲硫醇4-甲氧基甲氧基-2-氧丁酸氧丁酸
23、80某物质的特定代谢途径某物质的特定代谢途径双击可以查双击可以查到酶或基因到酶或基因的序列信息的序列信息描述描述8181实验内容实验内容 实验材料:实验材料: 根据导师给定的或实验室相关课题,选择一种酶或基因,根据导师给定的或实验室相关课题,选择一种酶或基因,作为目标序列;若没有,从生化代谢途径中任选一个酶或基因。作为目标序列;若没有,从生化代谢途径中任选一个酶或基因。实验要求:实验要求:1. 1.采用采用BlastBlast检索,获得不少于检索,获得不少于1010条有相似度的序列,做成条有相似度的序列,做成fasterfaster格式文件;格式文件;2.2.采用采用cluster Xcluster X对上述序列进行序列比对,找出存在的保守区;对上述序列进行序列比对,找出存在的保守区;3.3.将比对所得到的序列采用将比对所得到的序列采用treeviewtreeview或或megamega做成进化树;做成进化树;4.4.分析目标序列的二级结构,疏水区,跨膜区,将目标序列进分析目标序列的二级结构,疏水区,跨膜区,将目标序列进行同源建模,获得三维结构;行同源建模,获得三维结构;5.5.根据根据KEGGKEGG代谢途径找到该目标酶或基因所在特定物种的代代谢途径找到该目标酶或基因所在特定物种的代谢途径谢途径8282谢谢各位谢谢各位!