生物信息学软件及使用概述课件.pptx_163文库

资源描述

1、生物信息学软件及使用概述生物信息学的概念：生物信息学的概念：生物信息学是一门新兴的交叉学生物信息学是一门新兴的交叉学科，它将数学和计算机知识应用于生科，它将数学和计算机知识应用于生物学，以获取、加工、存储、分类、物学，以获取、加工、存储、分类、检索与分析生物大分子的信息，从而检索与分析生物大分子的信息，从而理解这些信息的生物学意义。理解这些信息的生物学意义。生物信息学软件主要功能生物信息学软件主要功能1.分析和处理实验数据和公共数据，分析和处理实验数据和公共数据，加快研究进度，缩短科研时间加快研究进度，缩短科研时间2.提示、指导、替代实验操作，利用提示、指导、替代实验操作，利用对实验数据的分析

2、所得的结论设计对实验数据的分析所得的结论设计下一阶段的实验下一阶段的实验3.实验数据的自动化管理实验数据的自动化管理4.寻找、预测新基因及其结构、功能寻找、预测新基因及其结构、功能5.蛋白质高级结构及功能预测（三维蛋白质高级结构及功能预测（三维建模，目前研究的焦点和难点）建模，目前研究的焦点和难点）功能功能1.分析和处理实验数据和公共数据，分析和处理实验数据和公共数据，加快研究进度，缩短科研时间加快研究进度，缩短科研时间核酸核酸：序列同源性比较，分子进化树构建，结序列同源性比较，分子进化树构建，结构信息分析，包括基元构信息分析，包括基元(Motif)、酶切点、重复、酶切点、重复片断、碱基组成

3、和分布、开放阅读框（片断、碱基组成和分布、开放阅读框（ORF），），蛋白编码区（蛋白编码区（CDS）及外显子预测、）及外显子预测、RNA二级二级结构预测、结构预测、DNA片段的拼接；片段的拼接；蛋白：蛋白：序列同源性比较，结构信息分析（包括序列同源性比较，结构信息分析（包括Motif，限制酶切点，内部重复序列的查找，氨，限制酶切点，内部重复序列的查找，氨基酸残基组成及其亲水性及疏水性分析基酸残基组成及其亲水性及疏水性分析)，等电，等电点及二级结构预测等等；点及二级结构预测等等；本地序列与公共序列的联接，成果扩大。本地序列与公共序列的联接，成果扩大。Antheprot 5.0 Dot Plot

4、点阵图点阵图Dot plot 点阵图能够揭示多个局部相似性的复杂关系Peptool Lite-Dot Plot 点阵图点阵图DNASIS 2.5 RNA 二级结构预测二级结构预测DNASIS 2.5 tRNA 二级结构预测二级结构预测RNAStructure 3.5 RNA 二结构预测二结构预测Omiga 2.0 ORF MapDNAStar 之之 Protean 对氨基酸的亲疏水性对氨基酸的亲疏水性分析：分析：helical wheel 图图不同颜色代表不同的AA功能功能2.提示、指导、替代实验操作，利用对实提示、指导、替代实验操作，利用对实验数据的分析所得的结论设计下一阶段的实验验数据的分

5、析所得的结论设计下一阶段的实验1.用软件设计用软件设计PCR引物，测序引物或杂交探引物，测序引物或杂交探针；针；2.设计克隆策略，构建载体；设计克隆策略，构建载体；3.做模拟电泳实验，即模拟核酸内切酶或内做模拟电泳实验，即模拟核酸内切酶或内肽酶对相应的底物分子切割后的电泳行为；肽酶对相应的底物分子切割后的电泳行为；4.蛋白跨膜区域分析，信号肽潜在断裂点预蛋白跨膜区域分析，信号肽潜在断裂点预测。测。Winplas 2.6 质粒构建质粒构建Atheprot 5.0 预测蛋白跨膜区域预测蛋白跨膜区域Antheprot 5.0 预测信号肽断裂点预测信号肽断裂点功能功能3.用计算机管理实验室数据及文献资

6、料用计算机管理实验室数据及文献资料1.实验室结果的储存、管理和申报工作；实验室结果的储存、管理和申报工作；2.从网络数据库获得的序列文件（由从网络数据库获得的序列文件（由ENTREZ集成检索系统所得的数据文件可集成检索系统所得的数据文件可以进入以进入EndNote 或者或者Reference Manager 储存管理）或资料文献的管理；储存管理）或资料文献的管理；3.软件软件:EndNote，Reference Manager。Reference Manager 9 界面界面功能功能4.用计算机预测新基因及其结构和功能用计算机预测新基因及其结构和

7、功能对对CDS（Coding Sequence）蛋白编码区的预测准）蛋白编码区的预测准确率已达到确率已达到90%以上以上对整个基因结构的预测存在一定难度对整个基因结构的预测存在一定难度PWM（位置权重矩阵）算法（位置权重矩阵）算法由物化原理技术开发，侧重于找基因表达系统和由物化原理技术开发，侧重于找基因表达系统和核酸相互作用的位点。给信号序列各个位置每种核酸相互作用的位点。给信号序列各个位置每种可能出现的核苷酸分配一个分数，将各位置分数可能出现的核苷酸分配一个分数，将各位置分数相加后得出该序列作为潜在作用位点的分数。相加后得出该序列作为潜在作用位点的分数。D N A S I S 2.5 对

8、蛋白编码区的预测对蛋白编码区的预测A.(Codon Bias)DNASIS2.5 对蛋白编码区的预测对蛋白编码区的预测B.(Rare Codon)D N A S I S 2.5 对蛋白编码区的预测对蛋白编码区的预测C.(ORF List)DNASTAR 之之 GeneQuest 预测预测CDS功能功能5.蛋白质高级结构预测蛋白质高级结构预测该项技术算法十分复杂，尚未成熟。该项技术算法十分复杂，尚未成熟。PDB及及MMDB数据库目前仍然禁止收录软件预测出来数据库目前仍然禁止收录软件预测出来的蛋白高级结构模型。的蛋白高级结构模型。X

9、射线晶体学技术和多维核磁共振技术是当前射线晶体学技术和多维核磁共振技术是当前人们认识蛋白高级结构的主要手段，但两种技人们认识蛋白高级结构的主要手段，但两种技术都有不足之处。前者要求必需得到高标准的术都有不足之处。前者要求必需得到高标准的蛋白晶体，后者对分子量大于蛋白晶体，后者对分子量大于3万的大蛋白不万的大蛋白不能测定。因此理论模拟和结构预测显得十分重能测定。因此理论模拟和结构预测显得十分重要。要。序列与结构关系的根源在于序列与结构关系的根源在于“蛋白质折叠的问蛋白质折叠的问题题”，这是近期研究关注的焦点。，这是近期研究关注的焦点。DNASIS 2.5 蛋白二级结构预测蛋白二级结构预测目前应用

10、的蛋白质结构预测的算法目前应用的蛋白质结构预测的算法1.同源预测同源预测(一级结构决定高级结构一级结构决定高级结构)2.结构与结构相对比（结构与结构相对比（DALI算法）算法）3.当前最先进的结构预测方法：当前最先进的结构预测方法：4.结构类识别（结构类识别（fold recognition）5.先建立一个已知的结构类数据库先建立一个已知的结构类数据库（fold library)，将待测序列，将待测序列“穿过穿过”该数据该数据库构成的坐标，并根据事先确定的物理限制，库构成的坐标，并根据事先确定的物理限制，逐个位置移动（逐个位置移动（threa

11、ding，sequence-structure alignment)，由一个函数，由一个函数（sequence-structure fitness alignment)判断序判断序列与结构类的符合程度，找出未知序列在目标列与结构类的符合程度，找出未知序列在目标结构上的能量最优和构象最稳固的比对位置。结构上的能量最优和构象最稳固的比对位置。对计算机要求很高。对计算机要求很高。Cn3D 2.5 显示显示 1EQF A链三维结构链三维结构RasMol 2.7 显示显示1EQF A链三维结构链三维结构二二.常见的部分生物学软件功能介绍常见的部分生物学软件功能介绍PCR PCR 引物设计

12、引物设计DNADNA、蛋白质序列同源分析及进化树构建、蛋白质序列同源分析及进化树构建Contig Express-DNA Contig Express-DNA 序列片断拼接序列片断拼接DNA DNA 模拟电泳模拟电泳重要生物数据库简介重要生物数据库简介PCR 引物设计引物设计引物设计的原则引物设计的原则1.引物要跟模板紧密结合；引物要跟模板紧密结合；2.引物与引物之间不能有稳定的二聚体或引物与引物之间不能有稳定的二聚体或发夹结构存在；发夹结构存在；3.引物不能在别的非目的位点引起高效引物不能在别的非目的位点引起高效DNA聚合反应聚合反应(即错配即错配)。如：如：引物长度（引物长度（primer

13、 length），），产物长度（产物长度（product length），），序列序列Tm值值(melting temperature)，G值值(internal stability)，引物二聚体及发夹结构（引物二聚体及发夹结构（duplex formation and hairpin），），错误引发位点（错误引发位点（false priming site），），引物及产物引物及产物GC含量（含量（composition），有时），有时还要对引物进行修饰，如增加限制酶切点，引还要对引物进行修饰，如增加限制酶切点，引进突变等。进突变等。引物设计需要考虑的因素需要考虑的因素引物设计要点引物设计要点

14、一般引物的长度为一般引物的长度为16-23bp，常用的长度为，常用的长度为18-21bp，过长或过短都不合适。，过长或过短都不合适。引物引物3端的碱基一般不用端的碱基一般不用A，因为，因为A在错误引在错误引发位点的引发效率相对比较高，而其它三种碱发位点的引发效率相对比较高，而其它三种碱基的错误引发效率相对小一些。基的错误引发效率相对小一些。引物的引物的GC含量一般为含量一般为45-55%，过高或过低都，过高或过低都不利于引发反应。上下游引物的不利于引发反应。上下游引物的GC含量不能含量不能相差太大。相差太大。引物所对应模板序列的引物所对应模板序列的Tm值最好在值最好在72左右，左右，当然由于

15、模板序列本身的组成决定其当然由于模板序列本身的组成决定其Tm值可值可能偏低或偏高，可根据具体情况灵活运用。能偏低或偏高，可根据具体情况灵活运用。引物设计要点引物设计要点 G值反映了引物与模板结合的强弱程度，也是一值反映了引物与模板结合的强弱程度，也是一个重要的引物评价指标。个重要的引物评价指标。一般情况下，在一般情况下，在Oligo 5.0软件的软件的G值窗口中，引值窗口中，引物的物的G值最好呈正弦曲线形状，即值最好呈正弦曲线形状，即5端和中间部端和中间部分分G值较高，而值较高，而3端端G值相对较低，且不要超值相对较低，且不要超过过9（G值为负值，这里取绝对值），如此则有利值为负值，这里取绝对

16、值），如此则有利于正确引发反应而可防止错误引发。于正确引发反应而可防止错误引发。其原理，引物与模板应具有较高的结合能量，这样其原理，引物与模板应具有较高的结合能量，这样有利于引物与模板序列的整合，因此有利于引物与模板序列的整合，因此5端与中间端与中间段的段的G值应较高，而值应较高，而3端端G值影响值影响DNA聚合酶聚合酶对模板对模板DNA的解链，过高则不利于这一步骤。的解链，过高则不利于这一步骤。引物设计要点引物设计要点可能的错误引发位点决定于引物序列组成与模可能的错误引发位点决定于引物序列组成与模板序列组成的相似性，相似性高则错误引发率板序列组成的相似性，相似性高则错误引发率高，错误引发的

17、引发率一般不要高过高，错误引发的引发率一般不要高过100，最好，最好没有错误引发位点，如此可以保证不出非目的没有错误引发位点，如此可以保证不出非目的产物的假带。产物的假带。引物二聚体及发夹结构的能量一般不要超过引物二聚体及发夹结构的能量一般不要超过4.5，否则容易产生引物二聚体带，且会降低引物浓否则容易产生引物二聚体带，且会降低引物浓度从而导致度从而导致PCR正常反应不能进行。正常反应不能进行。对引物的修饰一般是增加酶切位点，应参考载对引物的修饰一般是增加酶切位点，应参考载体的限制酶识别序列确定，常常对上下游引物体的限制酶识别序列确定，常常对上下游引物修饰的序列选用不同限制酶的识别序列，以有修

18、饰的序列选用不同限制酶的识别序列，以有利于以后的工作。利于以后的工作。关于引物的自动搜索和评价分析关于引物的自动搜索和评价分析推荐使用自动搜索软件：推荐使用自动搜索软件：Primer Premier 5.0 推荐使用引物评价软件：推荐使用引物评价软件：Oligo 5/6OLIGO 5.0 PCR 引物设计引物设计DNA、蛋白质序列同源分析及、蛋白质序列同源分析及进化树构建进化树构建相似性与同源性相似性与同源性相似性是指一种很直接的数量关系，比如部分相似性是指一种很直接的数量关系，比如部分相同或相似的百分比或其它一些合适的度量。相同或相似的百分比或其它一些合适的度量。可进行自身局部比较。可进

19、行自身局部比较。如如 Dot Plot(点阵序列比较点阵序列比较)同源性指从一些数据中推断出的两个基因或蛋同源性指从一些数据中推断出的两个基因或蛋白质序列具而共同祖先的结论，属于质的判断。白质序列具而共同祖先的结论，属于质的判断。如如 Alignment(同源性分析同源性分析)推荐软件推荐软件相似性分析 Peptool Lite 同源性分析 Vector NTI 6-AlignX Contig Express-DNA 序列片断拼接Vector NTI Suit 同源比较同源比较主窗口主窗口Vector NTI Suit 同源比较同源比较进化树进化树Nosema granulosisNosem

20、a furnacalisVairimorpha imperfectaNosema tyriaeMG5Nosema bombycisNosema bombycisNosema bombycisNosema sp.Vairimorpha sp.Mh8535MG4Mh7521N.BNosema cernanae Vairimorpha necatrixNosema necatrixNosema oulemaeC.SNosema sp.P.RMG2Vairimorpha sp.Nosema sp.Nosema portugalMicrosporidium sp.Nosema vespulaVairim

21、orpha lymantriaeVairimorpha sp.Nosema apisNosema apisDNA 模拟电泳模拟电泳Tips DNA模拟电泳具有一定实验预示功能，模拟电泳具有一定实验预示功能，模拟电泳不能作为实验结果或依据模拟电泳不能作为实验结果或依据Vector NTI Suit 5.5 模拟电泳Gene Construction Kit 2.0 模拟电泳模拟电泳重要的生物数据库重要的生物数据库其他重要数据库其他重要数据库酵母基因组数据库（酵母基因组数据库（SGD）酵母蛋白质数据库（酵母蛋白质数据库（YPD）拟南芥数据库（拟南芥数据库（AtDB）医学数据库（医学数据库（OMI

22、M）线虫数据库（线虫数据库（ACEDB）网上数据库的运用网上数据库的运用ENTREZ 集成检索示意图集成检索示意图Entrez是由NCBI开发和维护的一个集成检索数据系统，允许对pubmed，核苷酸和蛋白质的序列数据库，三维结构信息和图谱信息进行集成访问。四四.生物信息学主要服务内容生物信息学主要服务内容1.PCRPCR引物、测序引物及杂交探针的设引物、测序引物及杂交探针的设计及评价计及评价2.2.DNA DNA，蛋白质序列同源分析及进化树，蛋白质序列同源分析及进化树构建构建3.3.生物大分子二级结构模拟显示及基本生物大分子二级结构模拟显示及基本序列分析序列分析4.有关蛋白质亲疏水性，等电点，

23、抗原性，有关蛋白质亲疏水性，等电点，抗原性，跨膜蛋白，信号肽等分析以及跨膜蛋白，信号肽等分析以及Dot Plot服务服务5.质粒载体构建及克隆策略质粒载体构建及克隆策略6.小型数据库建设及协助实验室进行数据小型数据库建设及协助实验室进行数据管理维护管理维护四四.生物信息学主要服务内容生物信息学主要服务内容7.医学相关的图像、病例统计、分析及小医学相关的图像、病例统计、分析及小型数据库建设型数据库建设8.网上数据库应用辅助：包括序列拉长网上数据库应用辅助：包括序列拉长（扩大实验成果），（扩大实验成果），Blastn/Blastp，NCBI Entrez查询查询(多维查询多维查询)，新序列、，新

24、序列、snip等申报等申报9.蛋白质三维结构初步预测（此为生物信蛋白质三维结构初步预测（此为生物信息学目前研发的焦点，正在探索中，结息学目前研发的焦点，正在探索中，结果可能不十分准确或者不能出结果）果可能不十分准确或者不能出结果）四四.生物信息学主要服务内容生物信息学主要服务内容结束结束 The end！树立质量法制观念、提高全员质量意识。22.9.2622.9.26Monday,September 26,2022人生得意须尽欢，莫使金樽空对月。23:31:3923:31:3923:319/26/2022 11:31:39 PM安全象只弓，不拉它就松，要想保安全，常把弓弦绷。22.9.2623

25、:31:3923:31Sep-2226-Sep-22加强交通建设管理，确保工程建设质量。23:31:3923:31:3923:31Monday,September 26,2022安全在于心细，事故出在麻痹。22.9.2622.9.2623:31:3923:31:39September 26,2022踏实肯干，努力奋斗。2022年9月26日下午11时31分22.9.2622.9.26追求至善凭技术开拓市场，凭管理增创效益，凭服务树立形象。2022年9月26日星期一下午11时31分39秒23:31:3922.9.26严格把控质量关，让生产更加有保障。2022年9月下午11时31分22.9.2623

26、:31September 26,2022作业标准记得牢，驾轻就熟除烦恼。2022年9月26日星期一23时31分39秒23:31:3926 September 2022好的事情马上就会到来，一切都是最好的安排。下午11时31分39秒下午11时31分23:31:3922.9.26一马当先，全员举绩，梅开二度，业绩保底。22.9.2622.9.2623:3123:31:3923:31:39Sep-22牢记安全之责，善谋安全之策，力务安全之实。2022年9月26日星期一23时31分39秒Monday,September 26,2022相信相信得力量。22.9.262022年9月26日星期一23时31分39秒22.9.26谢谢大家！谢谢大家！

展开阅读全文