1、基因组数据注释和功能分析基因组数据注释和功能分析 1.通过序列比对工具通过序列比对工具BLAST学习,了解学习,了解蛋白编码基因的功能注释原理蛋白编码基因的功能注释原理2.介绍多序列联配工具介绍多序列联配工具ClustalX3.分子进化分析软件分子进化分析软件MEGA4的基本知的基本知识,掌握系统发生树绘制的基本方法识,掌握系统发生树绘制的基本方法序列比对的进化基础序列比对的进化基础 序列比对的目的:序列比对的目的:从核酸以及氨基酸的层次去分析序列的相同点和不同从核酸以及氨基酸的层次去分析序列的相同点和不同点,以推测他们的结构、功能以及进化上的联系点,以推测他们的结构、功能以及进化上的联系 通
2、过判断两个序列之间的相似性来判定两者是否具有通过判断两个序列之间的相似性来判定两者是否具有同源性同源性 相似性:直接的数量关系,如:序列之间相似部分相似性:直接的数量关系,如:序列之间相似部分的百分比的百分比 同源性:质的判断,两个基因在进化上是否曾有共同源性:质的判断,两个基因在进化上是否曾有共同祖先的推断同祖先的推断BLAST 基本局部比对搜索工具基本局部比对搜索工具(Basic Local Alignment Search Tool)NCBI 上上 BLAST 服务的网址服务的网址:http:/www.ncbi.nlm.nih.gov/blast/NCBI 的的 BLAST 程序及数据库
3、下载网址:程序及数据库下载网址:ftp:/ftp.ncbi.nlm.nih.gov/blast选择物种选择物种选择选择blast程序程序Query SequenceAmino acid SequenceDNA SequencetBLASTxBLASTxBLASTntBLASTnBLASTpNucleotideDatabaseProteinDatabaseNucleotideDatabaseNucleotideDatabaseProteinDatabaseTranslatedTranslated程序名搜索序列数据库内容备注blastpProteinProtein比较氨基酸序列与蛋白比较氨基酸序列
4、与蛋白质数据库质数据库使用取代矩阵寻找较使用取代矩阵寻找较远的关系,进行远的关系,进行SEG过滤过滤blastnNucleotideNucleotide比较核酸序列与核酸数比较核酸序列与核酸数据库据库寻找较高分值的匹配,寻找较高分值的匹配,对较远的关系不太适对较远的关系不太适用用blastxNucleotideProtein比较核酸序列理论上的比较核酸序列理论上的六框架的所有转换结果六框架的所有转换结果和蛋白质数据库和蛋白质数据库用于新的用于新的DNA序列和序列和ESTs的分析,可转的分析,可转译搜索序列译搜索序列tblastnProteinNucleotide比较蛋白质序列和核酸比较蛋白质序
5、列和核酸序列数据库,动态转换序列数据库,动态转换为六框架结果为六框架结果用于寻找数据库中没用于寻找数据库中没有标注的编码区,可有标注的编码区,可转译数据库序列转译数据库序列tblastxNucleotideNucleotide比较比较核酸核酸序列和核酸序序列和核酸序列数据库,列数据库,经过两次经过两次动动态转换为六框架结果态转换为六框架结果转译搜索序列与数据转译搜索序列与数据库序列库序列与核酸相关的数据库与核酸相关的数据库与蛋白质相关的数据库与蛋白质相关的数据库选择数据库选择数据库序列或目标序列的序列或目标序列的GI号号以文件格式上传以文件格式上传配对与错配配对与错配空位罚分空位罚分PSI-B
6、LAST:位点特异迭代位点特异迭代 打分矩阵:打分矩阵:PAM 30PAM 30PAM 70PAM 70BLOSUM80BLOSUM80BLOSUM62BLOSUM62BLOSUM45BLOSUM45选择打分矩阵(选择打分矩阵(scoring matrix)The PAM family Based on global alignments The PAM1 is the matrix calculated from comparisons of sequences with no more than 1%divergence.Other PAM matrices are extrapolate
7、d from PAM1.The BLOSUM family Based on local alignments.BLOSUM 62 is a matrix calculated from comparisons of sequences with no less than 62%divergence.All BLOSUM matrices are based on observed alignments;they are not extrapolated from comparisons of closely related proteins.进行比对的数据库进行比对的数据库图形化结果图形化结
8、果The Expect value(E)is a parameter that describes the number of hits one can expect to see just by chance when searching a database of a particular size.上机实习上机实习1:网上运行:网上运行blastx和和blastn(NCBI blastNCBI blast网址:网址:http:/www.ncbi.nlm.nih.gov/BLAST/)lesson.seq.screen.Contig34 lesson.seq.screen.Contig34
9、 TTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCATTTTTTTTTTTTTTTTTAGTGCCAGTTTTTTTTTTTATTTGTAAAGCTCTGCCATAAACTTCTAGCGTGTGCCAATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCATGGTCACCTGCCACACTCGCACCAGGTTGTCCGTGTAGCCAGCAAACAGAGTCTGGCCATCAGCAGACCAGGCCAG
10、GGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGACAGGGAGGTGCACTGGGGTGGTTCTGCCTTGCTGCTGGTACTGATAACTTCTTGCTTCAGTTCATCTACAATGATCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCTCTTTCCCTCTAAATCCCAGATCTTGATGCTGGGGCCTGTGGAGCACACAGCCAGTAGCGGTTAGGGCTGAAGCACAGGGC
11、GTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCACAGGGCGTTGATGATGTCCCCACCATCTAGCGTGTAAAGGTGTTTGCCTTCGTTGAGATCCCATAACATGGCCTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGTGGCCATCCTTGCCTCCAGAAGCACAGAGGGATCCATCTGGAGAGACAGTCACCGTGTTCAGATAGCCTGTGTGGCCAATGTGGT
12、TGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGAGCCAATGTGGTTGGTCTTCAGCTTGCAGTTAGCCAGGTTCCATACCTTGACCAGCTTGTCCCAGCCACAGGAGACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACACGATGATAGGGTTGCTGCTGTTGGGCGAGAAGCGGACACAAGACACCCACTCTGAGTGGCTCTCATCCTGGACAGTGTATTTGCACACA
13、CCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTGTATTTGCACACACCCAGGGTATTCCATAGCTTGATGGTTTTATCTCGAGATCCAGAGACAATCTGCCGGTTGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGTCAGAGGAGAAGGCCACACTCAGCACATCCTTGGTATGGCCCACAAATCGCCTCGTGGTGGTGCCCGTTGTGAGATCCCAGAAGGCGCAGGG
14、TTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCGATCCCAGAAGGCGCAGGGTTCCATCCCAGGAGCCTGAGAGGGCAAACTGGCCATCTGAGGAGATAACCACATCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACTAACAAAGTGGGAGTGACCCCGCAGAGCACGCTGTGGAATTCCATAGTTGGTCTCATCCCTGGTCAGTTTCCACATGATGATGGTCTTATCTCGA
15、GAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACATGATGATGGTCTTATCTCGAGAGGCGGAGAGGATCATGTCCGGGAACTGCGGGGTAGTAGCGATCTGGGTTACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCACCCAGCCGTTGTGGCCCTTGAGGGTGCCACGAAGGGTCATCTGCTCAGTCATGGCGGCGGCGAGAGCGTGTTCGCTGCAGCGACGAGGATGGCACTGGAT
16、GGCTTAGAGAAACTAGCACCACAGTCGACCGCTGCAGCGACGAGGATGGCACTGGATGGCTTAGAGAAACTAGCACCACAGTCGACC1.1.对对contig34contig34进行网上进行网上blastnblastn(演示),(演示),2.2.blastxblastx(自行操作)比对(自行操作)比对本地运行本地运行BLASTBLAST 下载下载 (http:/http:/www.ncbi.nlm.nih.gov/blast/download.shtmwww.ncbi.nlm.nih.gov/blast/download.shtml l )安装(安装到安
17、装(安装到C C:)数据库的格式化(数据库的格式化(formatdbformatdb)程序运行程序运行 (blastallblastall)双击安装到双击安装到D盘盘产生三个文件夹产生三个文件夹bindatadoc将将 db,in复制到复制到Blast/bin文件夹下文件夹下bin含可执行程序含可执行程序(将数据库及需要比将数据库及需要比对操作的数据放入该文件对操作的数据放入该文件);data文件夹含打分矩阵及演示例子的文件夹含打分矩阵及演示例子的序列数据信息;序列数据信息;doc文件夹含关于各子程序的说明文文件夹含关于各子程序的说明文档。档。数据库的格式化数据库的格式化formatdbfor
18、matdb命令用于数据库的格式化:命令用于数据库的格式化:formatdbformatdb option1option2option3 option1option2option3 formatdbformatdb常用参数常用参数 -i i database_namedatabase_name 需要格式化的数据库名称需要格式化的数据库名称 -p TF -p TF 待格式化数据库的序列类型待格式化数据库的序列类型 (核苷酸选(核苷酸选F F;蛋白质选;蛋白质选T T;默认值为;默认值为T)T)例:例:formatdb-i db-p T 对蛋白质数据库对蛋白质数据库“db”进行格式化进行格式化 程序
19、运行程序运行blastallblastall命令用于运行五个命令用于运行五个blastblast子程序子程序:blastallblastall option1option2option3 option1option2option3 blastallblastall常用参数常用参数 四个必需参数 -p program_name,程序名,根据数据库及搜索文件序列性质进行选择;程序名,根据数据库及搜索文件序列性质进行选择;-d database_name,数据库名称数据库名称,比对完成格式化的数据库;比对完成格式化的数据库;-i input_file,搜索文件名称;搜索文件名称;-o output_
20、file,BLAST BLAST结果文件名称;结果文件名称;2 2个常用参数 -e expectation,期待值,期待值,默认值为默认值为10.010.0,可采用科学计数法来表示,如,可采用科学计数法来表示,如2e-52e-5;-F filter?过滤低复杂性序列,默认为过滤低复杂性序列,默认为T,T,默认低复杂性序列不参加比对;默认低复杂性序列不参加比对;例:blastall-p blastx-d db-F F-i in-o out-e 2e-5 blast部分参数:上机实习上机实习2:本地运行本地运行blastx 进入进入DOS命令行提示符状态命令行提示符状态(“运行运行”cmd)进入进
21、入C盘盘 “cd”进入包含序列数据的进入包含序列数据的bin目录下目录下“cd Blastbin”察看目录下内容察看目录下内容“dir”格式化数据库格式化数据库db“formatdb i db p T”运行运行blastx“blastall p blastx i in d db o out”察看结果察看结果 more out.txt输入输入数据库类型:数据库类型:F/TBlast程序程序 序列输入序列输入 数据库数据库 结果输出结果输出输入输入“cd”-回车回车回到安装目录回到安装目录 C盘盘输入输入“cd blastbin”-回回车车到达到达blast程序下程序下bin文件夹文件夹输入输入“
22、dir”-回车回车察看察看bin文件夹下内容文件夹下内容bin文件夹下包含文件夹下包含以以.exe为后缀的程序为后缀的程序文件以及这次实习文件以及这次实习需要用到的数据可需要用到的数据可文件文件“bd”和目标序和目标序列文件列文件“in”输入输入“more db”-回车回车 察看察看db文件内容文件内容空格键翻页输入“q”跳出输入输入“formatdb i db p T”-回车回车对对db数据库进行格式化数据库进行格式化输入输入“dir”-回车回车察看察看bin文件夹下内容文件夹下内容格式化以后产生的文件格式化以后产生的文件输入输入“blastall p blastx i in d db o
23、out”-回车回车运行运行blastx程序程序产生的结果文件产生的结果文件“out”用用”more out”察看结果文件察看结果文件ESTEST数据注释小结:数据注释小结:一、注释评价一、注释评价 相同物种中有高度相似的序列相同物种中有高度相似的序列 其它物种有高度相似的序列其它物种有高度相似的序列 其它物种有中度相似的序列其它物种有中度相似的序列 其它物种相似度低的序列其它物种相似度低的序列 含有某些结构域或者基序含有某些结构域或者基序(motif)(motif)二、程序选择二、程序选择 序列信息序列信息BLASTBLASTFASTA(FASTA(http:/www.ebi.ac.uk/fa
24、stahttp:/www.ebi.ac.uk/fasta/)较高敏感度较高敏感度,但速度较慢但速度较慢(可通过可通过ktupktup值调节值调节)BLITZ(BLITZ(http:/www.ebi.ac.uk/searches/blitz.htmlhttp:/www.ebi.ac.uk/searches/blitz.html)更为灵敏更为灵敏,所需时间更长所需时间更长三、低复杂度区域(三、低复杂度区域(LCRsLCRs)低复杂度区域过滤低复杂度区域过滤将该类区域转化为不明确字符(蛋白质用将该类区域转化为不明确字符(蛋白质用X X,核酸用,核酸用N N)多序列比对的目的多序列比对的目的 从物种的
25、一些分子特性出发,从而了解物种之从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。间的生物系统发生的关系。通过序列同源性的比较进而了解基因的进化以通过序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。及生物系统发生的内在规律。分子钟分子钟 不同生物系统的同一血红蛋白分子的氨基酸随着时间的推移而以不同生物系统的同一血红蛋白分子的氨基酸随着时间的推移而以几乎一定的比例相互量换着几乎一定的比例相互量换着(Zuckerkandl&Pauling,1962)蛋白质,基因序列在单位时间以大致恒定的速度进行置换蛋白质,基因序列在单位时间以大致恒定的速度进行置换 直系同源直系同源(o
26、rthologs):同源的基因是由于同源的基因是由于共同的祖先共同的祖先基因进化而产生基因进化而产生的的.旁系同源旁系同源(paralogs):同源的基因是由于同源的基因是由于基因复制基因复制产生的产生的.用于分子进化分析中的序列必须是用于分子进化分析中的序列必须是直系同源直系同源的,才能真实反映进的,才能真实反映进化过程。化过程。paralogsorthologs多序列比对的应用:多序列比对的应用:系统发育分析系统发育分析(phylogeneticphylogenetic analysis)analysis)结构预测结构预测(structure prediction)(structure p
27、rediction)序列基序鉴定序列基序鉴定(sequence motif(sequence motif identification)identification)功能预测功能预测(function prediction)(function prediction)ClustalW/ClustalXClustalW/ClustalX:一种全局的多序列比:一种全局的多序列比对程序,可以用来绘制亲缘树,分析进化关对程序,可以用来绘制亲缘树,分析进化关系。系。MEGA4 MEGA4 ClustalWClustalW的运行的运行 本地运行本地运行命令行操作的命令行操作的ClustalXClustalX
28、(linuxlinux)窗口化操作的窗口化操作的ClustalXClustalX(windowswindows)下载页面:下载页面:(http:/http:/www.ebi.ac.uk/clustalwwww.ebi.ac.uk/clustalw)网上运行网上运行 (http:/http:/www.ebi.ac.uk/clustalwwww.ebi.ac.uk/clustalw)目标序列目标序列各种参数设定各种参数设定下载下载ClustalXJalview结果下载结果下载上机实习上机实习2 2:本地运行:本地运行ClastalXClastalX17-RNASE1.fasta 多序列比对多序列比
29、对 (Multiple Alignment)构建进化树构建进化树 (Bootstrap N-J)在在C:zcnishiyan1clustalx1.83文件夹下,找到文件夹下,找到clustalx.exe双击打开双击打开Clustalx窗口窗口点击点击File下拉菜单中下拉菜单中Load sequences选项,选项,打开序列文件打开序列文件17-RNASE1.fasta.txt打开后的界面打开后的界面可在可在Alignment下拉菜单中的下拉菜单中的Alignment Parameters中设定各个参数中设定各个参数点击点击Alignment下拉菜单中的下拉菜单中的Do Complete Al
30、ignment 进行比对进行比对比对结果比对结果 *:和空格依次代表改为点的序列一致性由高到低和空格依次代表改为点的序列一致性由高到低 选择选择Trees下拉菜单中的下拉菜单中的Draw N-J Tree构建进化树,并且保存构建进化树,并且保存在在C:zcnishiyan1clustalx1.83文件夹下,找到文件夹下,找到njplotWIN95.exe双击打开双击打开用于打开进化树文件用于打开进化树文件在在njplotWIN95中打开中打开刚才构建的进化树刚才构建的进化树(文件后缀为(文件后缀为.ph)在在ClustalX中采用中采用Bootstrap检验进化树检验进化树Bootstrap重
31、复值至少为重复值至少为100(默认设置为(默认设置为1000)在在njplotWIN95中打开进化树中打开进化树(文件后缀为(文件后缀为.phb)点击点击Bootstrap Value前的方框前的方框在各节点前显示在各节点前显示该点所通过该点所通过Bootstrap检验检验的次数的次数MEGA4一个关于序列分析及比较一个关于序列分析及比较统计的工具包统计的工具包包含距离建树包含距离建树,MP等建等建树法树法自动或手动进行序列比对;自动或手动进行序列比对;推断进化树;推断进化树;估算分子进化率,进行进化假设测验;估算分子进化率,进行进化假设测验;联机进行数据库搜索;联机进行数据库搜索;联机联机B
32、LASTBLAST输入序列号:输入序列号:NM_198232 选择数据库选择数据库(Nucleotide collection)选择符合要求的序列:选择符合要求的序列:19386966932095761938696819386946提取所选序列提取所选序列以以genbank格式显示格式显示点击点击Add to Alignment自动跳出序列窗口自动跳出序列窗口进行进行ClustalW比对比对 DataExport AlignmentMEGA format 命名为命名为17RNASE.meg,保存到目录,保存到目录C:zcnishixi1更改参数设定为:更改参数设定为:差异位点百分数差异位点百分
33、数(p-distance)显示两显示两两序列两序列间距离间距离 进行分子钟检验进行分子钟检验(Molecular Clock Test)选择外类群选择外类群(Outgroup):H.sapiens RNASE1A和和B序列序列M.mulatta RNASE1P.nemaeus RNASE1采用默认设置采用默认设置 MEGA4MEGA4可以识别可以识别fastafasta格式格式文件文件将将17-RNASE1.fasta.txt17-RNASE1.fasta.txt重命名为重命名为17-RNASE1.fasta17-RNASE1.fasta编辑编辑 标注保守区域标注保守区域 标注不匹配的区域标注
34、不匹配的区域选择打开方式为选择打开方式为MEGA4,打开,打开17-RNASE1.fasta,自动跳出序列窗口自动跳出序列窗口在在MEGA4主窗口主窗口构建进化树构建进化树选择选择Bootstrap重重复次数,至少为复次数,至少为100次次进化树的可靠性分析Bootstrap Method从排列的多序列中随机有放回的抽取某一列,构成相同长度的新的排列序列重复上面的过程,得到多组新的序列对这些新的序列进行建树,再观察这些树与原始树是否有差异,以此评价建树的可靠性至少进行100次重复取样原始数据多序列比对结果对序列中每个位置重复抽样,基于原比对结果生成多个样本Oringinal treeBoots
35、trap consensus tree节点上的值为通过节点上的值为通过 Bootstrap检验的次数检验的次数选择模型为选择模型为P-distance不同树型不同树型Tree:树型选择树型选择Branch:分支信息修改分支信息修改Label:分支名称修改分支名称修改Scale:标尺设定标尺设定Cutoff:cut off 值值 软件网址说明ClustalXhttp:/bips.u-strasbg.fr/fr/Documentation/ClustalX/图形化的多序列比对工具ClustalWhttp:/www.cf.ac.uk/biosi/research/biosoft/Downloads/
36、clustalw.html命令行格式的多序列比对工具GeneDochttp:/www.psc.edu/biomed/genedoc/多序列比对结果的美化工具BioEdithttp:/www.mbio.ncsu.edu/BioEdit/bioedit.html序列分析的综合工具MEGAhttp:/ 最大简约法最大简约法(maximum(maximum parsimony,MPparsimony,MP)对所有可能的拓扑结构进行计算,并计算出对所有可能的拓扑结构进行计算,并计算出所需替代数最所需替代数最小小的那个拓扑结构,作为最优树。的那个拓扑结构,作为最优树。基于距离矩阵基于距离矩阵 UPGMA(
37、UPGMA(UnweightedUnweighted Pair-Group Method using Pair-Group Method using Anathematic Average)Anathematic Average)将类间距离定义为两个类成员距离的平均值,广泛应用于将类间距离定义为两个类成员距离的平均值,广泛应用于距离矩阵距离矩阵 NJNJ(Neighbor-joiningNeighbor-joining)把所有把所有n n个序列两两比对个序列两两比对 ,构建,构建NJNJ树(起指导作用),每树(起指导作用),每个对比后的成对序列都可以跟第三条序列或者另一个新的个对比后的成对序列
38、都可以跟第三条序列或者另一个新的alignmentalignment比对,按照距离远近,用来决定下一个参与比对,按照距离远近,用来决定下一个参与比对的序列比对的序列最大简约法(最大简约法(MPMP)不需要处理大量核苷酸不需要处理大量核苷酸或者氨基酸替代或者氨基酸替代存在较多的回复突变存在较多的回复突变或平行突变,而被检或平行突变,而被检验的序列位点数又比验的序列位点数又比较少的时候,可能会较少的时候,可能会给出一个不合理的或给出一个不合理的或者错误的进化树推导者错误的进化树推导结果结果UPGMAUPGMA所有分支突变率相近所有分支突变率相近突变率相差较大时容突变率相差较大时容易易现已较少使用现已较少使用邻接法(邻接法(NJNJ)远源序列远源序列对相似度很低的序列,对相似度很低的序列,往往出现往往出现Long-Long-branch attractionbranch attraction(LBALBA,长枝吸引现,长枝吸引现象),严重干扰进化象),严重干扰进化树的构建树的构建