电子教案与课件：化学信息学.ppt-资源下载-163文库_上传原创PPT模板、课件、文档赚钱

电子教案与课件：化学信息学.ppt

1、1化学模式识别化学模式识别(一一)数据挖掘(Data Mining，DM)是从大量的数据中提取隐含的或隐藏的信息，是一种新的信息处理技术，其目的在于找到外在物理、化学、生物或生理表征与内在结构如化学组成、分子构型、构象、形态等之间的相互关系，并从中提取辅助决策的关键信息。2数据挖掘一般包含以下步骤：3图图 10-1 数数据据挖挖掘全掘全过过程程模式识别中将需作处理的样本集X一般用如下矩阵形式表示：4为了消除量纲和变化幅度不同带来的影响，原始数据可作标准化处理,有关计算公式如下：5 jjijijSxxx （10-2）（10-3）（10-4）其中为所有样本第j个特征的平均值，为所有样本第j个特征

2、的方差，xij为经标准化处理后的数据，各变量权重相同，均值为0，方差为1。主成分分析偏最小二乘法逐步回归分析遗传算法6主成分分析也称主分量分析，是多元统计的一部分重要内容。在统计学中，主成分分析是一种简化数据集的技术。主成分分析的一般目的是对变量降维或对主成分解释。7主成分分析是将数据原来的p个指标作线性组合，作为新的综合指标()。其中是“信息最多”的指标，即原指标所有线性组合中使最大的组合所对应的指标，称为第一主成分；为除外信息最多的指标，即且最大，称为第二主成分；依次类推。8PFFF,211F)var(1F2F1F1F0),cov(21FF)var(2F求主成分的一般步骤如下：1

3、.对样本数据的标准化2.计算相关矩阵 3.求特征值和特征向量4.求主成分（取线性组合）5.定义910 图图 10-2 主成分的空间投影图主成分的空间投影图（PC1是第一主成分，是第一主成分，PC2是第二主成分，是第二主成分，PC3是第是第3主成分）主成分）偏最小二乘法是在20世纪60年代末由Wold提出的，80年代开始应用于化学研究，该方法具有简单稳健、计算量小、预测精度高、无需剔除任何解释变量或样本点、所构造的潜变量较确定、易于定性解释等优点。学测量和数据挖掘中得到广泛应用。11PLS是对每个X 矩阵的潜变量方向进行修改，使它与Y矩阵间的协方差最大，即在原回归方程中删去那些特征值近似为零的项

4、，其X和Y矩阵分别按式10-16和10-17分解为较小的矩阵：12quFUQY （10-16）（10-17）式中：式中：T为为X的得分矩阵，的得分矩阵，为得分向量，为得分向量，P为为X的载荷的载荷矩阵，矩阵，为相应的载荷向量，为相应的载荷向量，E是残差矩阵，是是残差矩阵，是X中无中无法用法用个潜变量个潜变量t反映的部分。反映的部分。U为为Y的得分矩阵，为得分向量，的得分矩阵，为得分向量，Q为为Y的载荷矩阵的载荷矩阵,为相应的载荷向量，为相应的载荷向量，F是残差矩阵，是是残差矩阵，是Y中无法用中无法用个个潜变量潜变量u反映的部分。反映的部分。最佳回归方程：最佳回归方程应该包括所有对因变量作用

5、显著的变量13逐步回归分析法就是从一个预报因子开始，按自变量对因变量作用的显著程度，从大到小地依次逐个地引入回归方程，另一方面是当先引入的自变量由于后面自变量的引入变得不显著时，就将前者从回归方程中剔除。F检验法检验法14相关系数检验法相关系数检验法显著性检验，以确定自变量显著性检验，以确定自变量X与与因变量因变量Y之间确实线性相关。之间确实线性相关。两种常用的两种常用的回回归归方程方程检验检验方法：方法：首先将观测值和拟合值差值的平方和首先将观测值和拟合值差值的平方和(SS)分解分解为回归平方和为回归平方和(SSE)和残差平方和和残差平方和(SSR)，用以，用以下统计量进行检验：下统计量进行

6、检验：（10-18）式中：式中：n为数据组数。当为数据组数。当F值大于一定的临界值值大于一定的临界值时，拒绝原假设，认为因变量与自变量之间是时，拒绝原假设，认为因变量与自变量之间是相关的。相关的。15相关系数相关系数R反映了回归平方和在总平方和中的比反映了回归平方和在总平方和中的比例，即反映了例，即反映了X与与Y之间线性相关的密切程度，之间线性相关的密切程度，|R|愈接近愈接近0，X与与Y之间的线性相关程度愈小，反之间的线性相关程度愈小，反之，之，|R|愈大，愈接近愈大，愈接近1，X与与Y之间的线性相关程之间的线性相关程度愈大。度愈大。16（10-19）对于一个具体问题，只有当|R|大到一定程

7、度时才可以认为X与Y之间有线性相关关系。遗传算法遗传算法(Genetic Algorithms,GA)最早最早由由Holland教授于教授于20世纪世纪70年代创建的。年代创建的。它以达尔文进化论和孟德尔遗传学说为它以达尔文进化论和孟德尔遗传学说为理论基础，通过模拟自然界生物理论基础，通过模拟自然界生物“遗传遗传变异变异适者生存适者生存”的进化过程，对优的进化过程，对优化空间进行随机搜索，从而得到全局最化空间进行随机搜索，从而得到全局最优解。优解。1718图图10-3 遗传算法基本流程遗传算法基本流程遗传算法的具体实施需要以下步骤：遗传算法的具体实施需要以下步骤：染色体的编码、初始化操作、染色

8、体染色体的编码、初始化操作、染色体适应度的计算和遗传操作。适应度的计算和遗传操作。19(1)染色体的编码和形成：直接采用二进染色体的编码和形成：直接采用二进制编码，用制编码，用0代表某个变量未被选中，代表某个变量未被选中，1代表代表选中。染色体的长度为待选变量的个数。选中。染色体的长度为待选变量的个数。(2)染色体适应度的确定：染色体适应度的确定：Hasegawa等人等人提出了用平方预测相关系数作为染色体适应提出了用平方预测相关系数作为染色体适应度，其计算公式为：度，其计算公式为：20其中，yi为实际值，y(-i),pred为用除掉第i个样本的数据建立的模型对yi的预测值，为yi的平均值，h为

9、公式（10-18）获得最大值时的主元个数。(3)确定最佳的主元个数：交叉有效性验确定最佳的主元个数：交叉有效性验证是最常用的确定主元个数的方法，式（证是最常用的确定主元个数的方法，式（10-21）中的最佳主元个数的确定为：如果）中的最佳主元个数的确定为：如果PRESSj/RSSj-10.952，则增加一个主元是，则增加一个主元是有益的。有益的。21(1)用随机方法来初始化种群，指定最大迭代次数用随机方法来初始化种群，指定最大迭代次数、交叉率和变异率；、交叉率和变异率；(2)根据式（根据式（10-19）计算种群各个个体的适应度值）计算种群各个个体的适应度值，再从当前种群中选择出优良的个体，使它们

10、随，再从当前种群中选择出优良的个体，使它们随机两两配对；机两两配对；(3)根据指定的交叉率，对以上各对染色体进行交根据指定的交叉率，对以上各对染色体进行交叉处理；叉处理；(4)根据指定的变异率，对染色体进行变异处理；根据指定的变异率，对染色体进行变异处理；(5)如果循环终止条件满足，则算法结束，否则转如果循环终止条件满足，则算法结束，否则转到第到第(2)步。步。22信号处理的目的就是对数字信息进行准信号处理的目的就是对数字信息进行准确的分析、诊断、编码压缩和量化、快确的分析、诊断、编码压缩和量化、快速传递或存储、精确重构（或恢复）。速传递或存储、精确重构（或恢复）。将信号处理的方法结合到蛋白质

11、序列分将信号处理的方法结合到蛋白质序列分析中，能发挥其特有的信息提取优势，析中，能发挥其特有的信息提取优势，已成为生物信息学研究领域的一个重要已成为生物信息学研究领域的一个重要的发展方向。的发展方向。23信号分成两大类信号分成两大类确知信号和随机信号。确确知信号和随机信号。确知信号具有一定的变化规律，因而容易分析，知信号具有一定的变化规律，因而容易分析，而随机信号无准确的变化规律，需要用统计特而随机信号无准确的变化规律，需要用统计特性进行分析。性进行分析。在工程技术中，一般采用描述随机过程的主要在工程技术中，一般采用描述随机过程的主要平均统计特性的几个函数，包括均值、方差、平均统计特性的几个函

12、数，包括均值、方差、相关函数、频谱及功率谱密度等来描述。相关函数、频谱及功率谱密度等来描述。24若两个随机变量若两个随机变量x和和y相互独立，则相互独立，则 =0，若上述数学期望不为零，则，若上述数学期望不为零，则x和和y必不必不是相互独立的，即它们之间存在着一定的是相互独立的，即它们之间存在着一定的关系。因而定义关系。因而定义称为随机变量称为随机变量x和和y的协方的协方差，记作差，记作COV(x，y)，即：，即：25（10-26）其中其中E表示数学期望表示数学期望设随机变量设随机变量x、y的数学期望和方差都存在的数学期望和方差都存在，则变量，则变量x和和y之间的相关程度常用相关系之间的相关

13、程度常用相关系数数表示：表示：26其中，其中，、，随机变量，随机变量x、y的均值；的均值；、，随机变量，随机变量x、y的方差。的方差。（10-27）设设x(t)是各态历经随机过程的一个样本函数是各态历经随机过程的一个样本函数，x(t+)是是x(t)时移时移后的样本如图后的样本如图10-4所示所示。两个样本的相关程度可以用相关系数来。两个样本的相关程度可以用相关系数来表示。表示。27图图10-4 自相自相关关函函数数若用若用表示自相关函数，其定义为：表示自相关函数，其定义为：28(10-28)自相关函数的性质如下：自相关函数的性质如下：(1)自相关函数为实偶函数，即自相关函数为实偶函数，即

14、=。(2)值不同，值不同，不同，当不同，当=0时，时，值最大，并等于值最大，并等于信号的均方值。信号的均方值。(3)值的限制范围为：值的限制范围为：。(4)当时当时，x(t)和和x(t+)之间不存在内在联系，彼之间不存在内在联系，彼此无关。此无关。(5)周期函数的自相关函数认为同频率的周期函数。周期函数的自相关函数认为同频率的周期函数。对于各态历经随机过程，两个随机信号对于各态历经随机过程，两个随机信号x(t)和和y(t)的互相关函数的互相关函数定义为：定义为：29(10-29)30互相关函数的性质如下：互相关函数的性质如下：(1)互相关函数是可正可负的实函数。互相关函数是可正可负的实函数

15、。(2)互相关函数非偶函数，亦非奇函数，而是互相关函数非偶函数，亦非奇函数，而是 =(3)的峰值不在的峰值不在=0处，其峰值偏离原点的位置处，其峰值偏离原点的位置反映了两信号时移的大小，相关程度最高。反映了两信号时移的大小，相关程度最高。(4)限制范围为：限制范围为：(5)两个统计独立的随机信号，当均值为零时，两个统计独立的随机信号，当均值为零时，=0(6)两个不同频率的周期信号，其互相关函数为零。两个不同频率的周期信号，其互相关函数为零。(7)两个同频率正余弦函数不相关。两个同频率正余弦函数不相关。(8)周期信号与随机信号的互相关函数为零。周期信号与随机信号的互相关函数为零。31随机过程的

16、功率谱密度为：随机过程的功率谱密度为：随机信号的功率谱密度是随机信号的各个样随机信号的功率谱密度是随机信号的各个样本在单位频带内的频谱分量统计均值，是从本在单位频带内的频谱分量统计均值，是从频域描述随机信号的平均统计参量，表示频域描述随机信号的平均统计参量，表示x(t)的平均功率在频域上的分布。的平均功率在频域上的分布。它表示功率信号它表示功率信号x(t)中以角频率中以角频率为中心的单位带为中心的单位带宽内所具有的功率。宽内所具有的功率。（10-30）随机信号的功率谱密度具有以下四个性质：随机信号的功率谱密度具有以下四个性质：（1）功率谱密度为非负值，即功率谱密度大于）功率谱密度为非负值，即功

17、率谱密度大于等于等于0。（2）功率谱密度是）功率谱密度是的实函数。的实函数。（3）对于实随机信号来说，功率谱密度是）对于实随机信号来说，功率谱密度是的偶的偶函数，即函数，即S()=S(-)。（4）功率谱密度可积。功率谱密度曲线下的总）功率谱密度可积。功率谱密度曲线下的总面积（即随机信号的全部功率）等于随机信号的面积（即随机信号的全部功率）等于随机信号的均方值。均方值。32傅立叶变换傅立叶变换(Fourier Transform,FT)是将分析信号在测量的时域变换到频是将分析信号在测量的时域变换到频域，这样分析工作者有可能获得特殊域，这样分析工作者有可能获得特殊的信息以提高信噪比或可使计算能较的

18、信息以提高信噪比或可使计算能较为方便地进行。为方便地进行。33小波变换小波变换(Wavelet Transform,WT)是给出是给出时间域和频率域方面信息的另外一种技术时间域和频率域方面信息的另外一种技术，类似于傅立叶变换，小波变换将测量信，类似于傅立叶变换，小波变换将测量信号分解为一组称之为小波基的基函数，这号分解为一组称之为小波基的基函数，这种小波基函数称为分析小波种小波基函数称为分析小波(analyzing wavelet)。3435图图10-5 常用的小波函数类型常用的小波函数类型小波函数的定义为：设小波函数的定义为：设(t)为一平方可积为一平方可积函数，若其傅立叶变换函数，若其傅立

19、叶变换()满足条件：满足条件：36(10-33)则称则称(t)为一个基本小波或小波母函数。上述条件也称为一个基本小波或小波母函数。上述条件也称为小波函数的可容许条件。将小波母函数为小波函数的可容许条件。将小波母函数(t)进行平移进行平移和伸缩，就可以得到一系列小波基函数：和伸缩，就可以得到一系列小波基函数：a0,bR (10-34)其中其中a和和b分别称为分别称为的伸缩因子和平移因子。的伸缩因子和平移因子。小波变换在蛋白质频谱分析中的应用小波变换在蛋白质频谱分析中的应用小波变换在基因组序列分析中的应用小波变换在基因组序列分析中的应用小波变换在蛋白质序列分析中的应用小波变换在蛋白质序列分析中的

20、应用小波变换在基因芯片数据分析中的应用小波变换在基因芯片数据分析中的应用37K最近邻法最近邻法概率神经网络概率神经网络分类回归树分类回归树助推法助推法人工神经网络人工神经网络支持向量机支持向量机38聚类算法聚类算法决策树算法决策树算法39聚类是一种常见的数据分析工具，其目的是把大聚类是一种常见的数据分析工具，其目的是把大量数据点的集合分成若干类，使得每个类中的数量数据点的集合分成若干类，使得每个类中的数据之间最大程度的相似，而不同类中的数据最大据之间最大程度的相似，而不同类中的数据最大程度的不同。常见的聚类算法主要包括层次聚类程度的不同。常见的聚类算法主要包括层次聚类算法算法(Hierarch

21、ical Clustering Method)、分割聚、分割聚类算法类算法(Partitioning Clustering Method)、基于、基于密度的方法密度的方法(Density-Based Methods)、基于网格、基于网格的方法的方法(Grid-Based Methods)等。等。40常见的决策树算法主要有常见的决策树算法主要有ID3 算法、算法、C4.5算法、算法、CART算法、算法、SPRINT算算法等。法等。41Web挖掘是从挖掘是从Internet网络资源上挖掘有趣网络资源上挖掘有趣的、潜在的、有用的模式及隐藏信息的过的、潜在的、有用的模式及隐藏信息的过程，它是数据挖掘技

22、术应用于网络资源进程，它是数据挖掘技术应用于网络资源进行挖掘的一个新兴研究领域行挖掘的一个新兴研究领域。42图图10-16 Web挖掘分类挖掘分类Web内容挖掘是对内容挖掘是对Web上大量文档的集合上大量文档的集合进行总结、分类、聚类与关联分析来获取进行总结、分类、聚类与关联分析来获取有用信息，有用信息，Web页面的内容主要分为三类页面的内容主要分为三类：无结构的自由文本、半结构的超文本文：无结构的自由文本、半结构的超文本文档和结构化的文档。档和结构化的文档。43Web结构挖掘可对结构挖掘可对Web页面之间的超页面之间的超链结构、页面内部结构和链结构、页面内部结构和Web中的目中的目录路径结构进行挖掘，从中抽取知识录路径结构进行挖掘，从中抽取知识。44Web日志挖掘日志挖掘(web log mining)又称为又称为Web使用记录挖掘，使用记录挖掘，通过分析不同通过分析不同Web站点的站点的访问日志来帮助人们理解访问日志来帮助人们理解Web结构和用户结构和用户的行为，从而改进站点的结构，或为用户的行为，从而改进站点的结构，或为用户提供个性化的服务。提供个性化的服务。Web日志挖掘可分为日志挖掘可分为基于基于Web事物的方法和基于数据立方的方事物的方法和基于数据立方的方法。法。4546

邮箱/手机：
温馨提示：	系统将以此处填写的邮箱或者手机号生成账号和密码，方便再次下载。如填写123，账号和密码都是123。
支付方式：
验证码：	换一换

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？