第二章生物信息学研究方法概述课件.ppt_163文库

资源描述

1、马飞马飞南京师范大学南京师范大学比较基因组学与生物信息学实验室比较基因组学与生物信息学实验室初级层面初级层面中级层面中级层面高级层面高级层面初级层面初级层面基于现有的生物信息数据库和资源，利用成熟的生物信息学工具基于现有的生物信息数据库和资源，利用成熟的生物信息学工具（专业网站、软件）解决生物信息学问题（专业网站、软件）解决生物信息学问题生物信息数据库（生物信息数据库（NCBI、EBI等）等）基因组序列分析、序列比对软件（基因组序列分析、序列比对软件（GCG、BLAST、CLUSTAL等）等）系统发育树构造软件（系统发育树构造软件（PHYLIP、PALM、MEGA等）等）分子动力学模拟软件（

2、分子动力学模拟软件（GROMACS、NAMD等）等）搜集、整理有特色的生物信息学数据集搜集、整理有特色的生物信息学数据集中级层面中级层面利用数值计算方法、数理统计方法和相关的工具，研究生物利用数值计算方法、数理统计方法和相关的工具，研究生物信息学问题信息学问题概率、数理统计基础概率、数理统计基础科学计算基础科学计算基础现有的数理统计和科学计算工具（现有的数理统计和科学计算工具（EXCEL、SPSS、SAS、MATLAB等）等）建立有特色的生物信息学数据库建立有特色的生物信息学数据库高级层面高级层面提出有重要意义的生物信息学问题；自主创新，发展新型方法，提出有重要意义的生物信息学问题；自主创

3、新，发展新型方法，开发新型工具，引领生物信息学领域研究方向。开发新型工具，引领生物信息学领域研究方向。面向生物学领域，解决生物学问题面向生物学领域，解决生物学问题数学、物理、化学、计算科学等思想和方法数学、物理、化学、计算科学等思想和方法建立模型，发展算法建立模型，发展算法自行编程，开发软件，建立网页（自行编程，开发软件，建立网页（Linux系统、系统、C/C+、PERL、数据库技术）数据库技术）http:/rich.yunda.org/test/amphioxusest/http:/rich.yunda.org/test/rg01/index.php （1）、一定的计算能力，包括相应的软、硬

4、设备。要有各种数据库或者）、一定的计算能力，包括相应的软、硬设备。要有各种数据库或者能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网能与国际、国内的数据库系统进行有效的交流。要有发达、稳定的互联网络系统；络系统；（2）、强有力的创新算法和软件。没有算法创新，生物信息学就无法获）、强有力的创新算法和软件。没有算法创新，生物信息学就无法获得持续的发展；得持续的发展；（3）、与实验科学，特别是与自动化的大规模高通量的生物学研究方法）、与实验科学，特别是与自动化的大规模高通量的生物学研究方法与平台技术建立广泛、紧密的联系。这些技术，既是产生生物信息数据的与平台技术建立广泛、紧密的联系。

5、这些技术，既是产生生物信息数据的主要方法，又是验证生物信息学研究结果的关键手段。主要方法，又是验证生物信息学研究结果的关键手段。从事生物信息学研究的人员必须具备多学科交叉的知识。从事生物信息学研究的人员必须具备多学科交叉的知识。对分子生物信息数据库的种类以及某些具体数据库的掌握对分子生物信息数据库的种类以及某些具体数据库的掌握和了解和了解从现有数据库中熟练获得需要的数据信息（尤其是二级数从现有数据库中熟练获得需要的数据信息（尤其是二级数据库）据库）能熟练地进行数据库查询和数据库搜索（数据库查询系统能熟练地进行数据库查询和数据库搜索（数据库查询系统Entrez、SRS；搜索工具；搜索工具BLAS

6、T等）等）数据库技术、互联网技术数据库技术、互联网技术利用成熟的生物信息学工具（专业网站、软件）解决生物信息学问题利用成熟的生物信息学工具（专业网站、软件）解决生物信息学问题基因组序列分析、序列比对软件（基因组序列分析、序列比对软件（GCG、BLAST、CLUSTAL等）等）系统发育树构造软件（系统发育树构造软件（PHYLIP、PALM等等）基因芯片检测分析软件（商业软件基因芯片检测分析软件（商业软件ScanArray、Array-Pro等等）分子动力学模拟软件（分子动力学模拟软件（GROMACS、NAMD等等）随机事件、概率随机事件、概率随机变量、概率分布随机变量、概率分布大数定律、中心极限

7、定理大数定律、中心极限定理几乎用于生物信息学的各个方面几乎用于生物信息学的各个方面“Most of the problems in computational sequence analysis are essentially statistical.”“Biological sequence analysis”样本和统计量（方差、均值样本和统计量（方差、均值）参数估计、假设检验参数估计、假设检验基本的统计分析（方差分析、协方差分析、回归分析）基本的统计分析（方差分析、协方差分析、回归分析）常用统计软件的运用（常用统计软件的运用（SPSS、SAS）几乎用于生物信息学的各个方面几乎用于生物信息学

8、的各个方面符号（如碱基）频率反映具有生物学意义的序列特征，符号（如碱基）频率反映具有生物学意义的序列特征，如内含子剪接位点的发现，如内含子剪接位点的发现，KOZAK规则的发现等规则的发现等核酸组分、氨基酸组分、密码子使用频率核酸组分、氨基酸组分、密码子使用频率k-tuples/k-mers频率分析频率分析权重矩阵权重矩阵分析分析主要用于具有特定生物学意义的序列特征的分析主要用于具有特定生物学意义的序列特征的分析)()|()()|()()|()|(nonsitePnonsitePsitePsitePsitePsitePsiteP volumesassociatedat properties )

9、()|(logsitePsitePThe likelihood that a property value v(of a new structure)is drawn from the splicing site is:Score for the overall likelihood of the query sequence being a site is:P(S|splice site)P(S|background)Say we have a sequence S=S1S2Sn.Then one need to calculateSo to look for a donor site in

10、 the sequence,we might calculate 信息熵信息熵lo giiiHpp 信息的度量：是信息的度量：是信息符号信息符号出现何种出现何种状态状态的一种不确定性程度，信息的的一种不确定性程度，信息的获得要对不确定性进行否定。获得要对不确定性进行否定。生物信息的符号如生物信息的符号如ACGT四种符号，状态空间即其所有可能的排列四种符号，状态空间即其所有可能的排列用于结构预测用于结构预测信息熵信息熵H刻画了由刻画了由pi表示的随机试验结果的先验不确定性，或观察表示的随机试验结果的先验不确定性，或观察到输出时所获得的信息量。到输出时所获得的信息量。适用于具有隐变量的模型和问题，

11、如神经网络模型中的隐节点和适用于具有隐变量的模型和问题，如神经网络模型中的隐节点和HMM模型中的隐状态等模型中的隐状态等用于结构的识别，用于结构的识别，如如Motif识别的识别的MEME方法、方法、HMM中的中的Baum-Welch算法算法经典的统计分析方法经典的统计分析方法主要目的：描述和预测自变量与因变量间的关系主要目的：描述和预测自变量与因变量间的关系聚类分析（群分析）是实用多元统计分析的一个新分支，正处于发展聚类分析（群分析）是实用多元统计分析的一个新分支，正处于发展阶段。理论上尚未完善，但应用十分广泛。实质上是一种分类问题，目的阶段。理论上尚未完善，但应用十分广泛。实质上是一种分类问

12、题，目的是建立一种分类方法，将一批数据按照特征的亲疏、相似程度进行分类。是建立一种分类方法，将一批数据按照特征的亲疏、相似程度进行分类。条件：研究对象总体的类别数目未知，也不知总体样本的具体分类情条件：研究对象总体的类别数目未知，也不知总体样本的具体分类情况况目的：通过分析，选定描述个体相似程度的统计量、确定总体分类数目的：通过分析，选定描述个体相似程度的统计量、确定总体分类数目、建立分类方法；对研究对象给出合理的分类。目、建立分类方法；对研究对象给出合理的分类。(“物以类聚物以类聚”是聚类分是聚类分析的基本出发点析的基本出发点)根据根据DNA芯片获得的基因表达数据进行基因聚类（数据量庞大）芯

13、片获得的基因表达数据进行基因聚类（数据量庞大）蛋白质相互作用网络的分类蛋白质相互作用网络的分类根据不同物种的大分子序列进行相似性比较并构建系统发育树根据不同物种的大分子序列进行相似性比较并构建系统发育树X(1)X(2)X(3)X(4)X(5)GibbonSymphalangusHumanGorillaChimpanzee黑猩猩黑猩猩猩猩猩猩猿猴猿猴长臂猿长臂猿将核苷酸序列看成一个随将核苷酸序列看成一个随机序列，机序列，DNA序列的编码部分序列的编码部分与非编码部分在核苷酸的选用与非编码部分在核苷酸的选用频率上对应着不同的频率上对应着不同的Markov模型。由于这些模型。由于这些Markov模

14、型的统计规律是未知的，模型的统计规律是未知的，而而HMM能够自动寻找出它能够自动寻找出它们隐藏的统计规律。对于们隐藏的统计规律。对于高等生物这样复杂的高等生物这样复杂的DNA序列，序列，HMM必须学习不同必须学习不同的基因结构的信号。的基因结构的信号。隐隐Markov模型模型(HMM)（1）序列比较与搜寻（尤其是多序列比对）序列比较与搜寻（尤其是多序列比对）（2）基因及信号的识别、预测（包括）基因及信号的识别、预测（包括DNA编码与非编码区的识别、真核编码与非编码区的识别、真核基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识别基因剪接位点信号识别、非编码区的转录调控信号识别、信号肽识

15、别）（3）蛋白质二级结构、家族、超家族预测、分类等）蛋白质二级结构、家族、超家族预测、分类等模式识别是在输入样本中寻找特征并识别对象的一种方法。模式识别是在输入样本中寻找特征并识别对象的一种方法。模式识别主要有两种方法，一种是根据统计特征进行识别，另一种是模式识别主要有两种方法，一种是根据统计特征进行识别，另一种是根据对象的结构特征进行识别，而后者常用的方法为句法识别。根据对象的结构特征进行识别，而后者常用的方法为句法识别。在基因识别中，对于在基因识别中，对于DNA序列上的功能位点和特征信号的识别都需序列上的功能位点和特征信号的识别都需要用到模式识别。要用到模式识别。综合运用不同的研究方法综合运用不同的研究方法始终面向生物学问题始终面向生物学问题知识和技能的学习方法知识和技能的学习方法文献的查阅和阅读方法文献的查阅和阅读方法中、英文论文的写作方法中、英文论文的写作方法

展开阅读全文