1、第五章第五章 神经网络控制论神经网络控制论浙江大学电气学院浙江大学电气学院 韦巍韦巍 2015.9 2015.92 引言引言1234 非线性动态系统的神经网络辨识非线性动态系统的神经网络辨识5 神经网络控制的学习机制神经网络控制的学习机制神经网络控制器的设计神经网络控制器的设计n由于神经网络本质上是一个大规模并行分布处由于神经网络本质上是一个大规模并行分布处理的非线性动力学系统,并在更高层次上体现理的非线性动力学系统,并在更高层次上体现出一些人脑的智能行为,为智能控制提供了新出一些人脑的智能行为,为智能控制提供了新途径。途径。n神经网络控制的优越性体现在:神经网络控制的优越性体现在: n神经网
2、络可以处理那些难以用模型或规则描述的过神经网络可以处理那些难以用模型或规则描述的过程或系统。程或系统。 n神经网络采用并行分布式信息处理,具有很强的容神经网络采用并行分布式信息处理,具有很强的容错性。错性。 n神经网络是本质的非线性系统。神经网络是本质的非线性系统。 n神经网络具有很强的信息综合能力。神经网络具有很强的信息综合能力。 n神经网络的硬件实现愈趋方便。神经网络的硬件实现愈趋方便。 一、引言一、引言XUY专家经验控制器动力学系统动力学系统神经网络UYX利用专家经验图3-2-1 导师指导下的神经控制结构图动力学系统神经网络YYUd动力学系统UYYdF-1Y=FU图3-2-2 逆控制器的
3、结构图网络控制器N神经网络N参考模型非线性系统ryecipmceecpyyiu+-图3-2-3自适应网络控制结构图n导师指导下的控制器:导师指导下的控制器:神经网络控制结构的学神经网络控制结构的学习样本直接取自于专家的控制经验习样本直接取自于专家的控制经验。一旦神经一旦神经网络的训练达到了能够充分描述人的控制行为网络的训练达到了能够充分描述人的控制行为时,则网络训练结束时,则网络训练结束一、引言一、引言n逆控制器:逆控制器:如果一个动力学系统可以用一个逆如果一个动力学系统可以用一个逆动力学函数来表示,则采用简单的控制结构和动力学函数来表示,则采用简单的控制结构和方式是可能的方式是可能的XUY专
4、家经验控制器动力学系统动力学系统神经网络UYX利用专家经验图3-2-1 导师指导下的神经控制结构图动力学系统神经网络YYUd动力学系统UYYdF-1Y=FU图3-2-2 逆控制器的结构图网络控制器N神经网络N参考模型非线性系统ryecipmceecpyyiu+-图3-2-3自适应网络控制结构图一、引言一、引言n模型参考自适应网络控制器:模型参考自适应网络控制器:利用神经网络将利用神经网络将线性系统经典的自适应控制设计理论和思想方线性系统经典的自适应控制设计理论和思想方法直接引到非线性系统自适应控制系统中来是法直接引到非线性系统自适应控制系统中来是可能的可能的XUY专家经验控制器动力学系统动力学
5、系统神经网络UYX利用专家经验图3-2-1 导师指导下的神经控制结构图动力学系统神经网络YYUd动力学系统UYYdF-1Y=FU图3-2-2 逆控制器的结构图网络控制器N神经网络N参考模型非线性系统ryecipmceecpyyiu+-图3-2-3自适应网络控制结构图一、引言一、引言n神经内模控制结构神经内模控制结构:系统的实际输出与模型系统的实际输出与模型M M的输出信号差用于反馈的目的。这个反馈信号的输出信号差用于反馈的目的。这个反馈信号通过前向通道上的控制子系统通过前向通道上的控制子系统G G预处理。通常预处理。通常G G是一个滤波器,用于提高系统的鲁棒性。系统是一个滤波器,用于提高系统的
6、鲁棒性。系统模型模型M M和控制器和控制器C C可以由神经网络来实现可以由神经网络来实现一、引言一、引言n前馈控制结构:前馈控制结构:通常单纯的求逆控制结构不能通常单纯的求逆控制结构不能很好地起到抗干扰能力,因此结合反馈控制的很好地起到抗干扰能力,因此结合反馈控制的思想组成前馈补偿器的网络控制结构思想组成前馈补偿器的网络控制结构一、引言一、引言n自适应评价网络是由自适应评价网络是由Barto,Sutten Barto,Sutten 和和AndersonAnderson在在19831983年提出来的。整个学习系统由一个相关的搜索单元和年提出来的。整个学习系统由一个相关的搜索单元和一个自适应评价单
7、元组成,在这个算法中,相关搜索一个自适应评价单元组成,在这个算法中,相关搜索单元是作用网络。自适应评价单元为评价网络。它不单元是作用网络。自适应评价单元为评价网络。它不需要控制系统数学模型,只是通过对某一指标准则需要控制系统数学模型,只是通过对某一指标准则J J的的处理和分析得到奖励或惩罚信号。处理和分析得到奖励或惩罚信号。一、引言一、引言n神经网络的逼近能力神经网络的逼近能力n首先要搞清楚到底什么样的被控系统可以用神首先要搞清楚到底什么样的被控系统可以用神经网络来描述。对于众多的神经网络类型来说经网络来描述。对于众多的神经网络类型来说,要得到一个统一的神经网络逼近理论是不现,要得到一个统一的
8、神经网络逼近理论是不现实的,况且,还有很多神经网络结构的逼近性实的,况且,还有很多神经网络结构的逼近性问题至今尚未得到证明问题至今尚未得到证明n多层前向传播神经网络能够相当好地逼近许多多层前向传播神经网络能够相当好地逼近许多实际问题中的非线性函数。实际问题中的非线性函数。n这一节就要回答这个问题。这一节就要回答这个问题。一、引言一、引言n神经网络的逼近能力神经网络的逼近能力n含有两个隐含层的前向传播神经网络,且神经元激励函数为单调的含有两个隐含层的前向传播神经网络,且神经元激励函数为单调的S S型函数,则此神经网络能够得到合适的逼近精度型函数,则此神经网络能够得到合适的逼近精度n对于在紧凑集中
9、的任何平方可积函数可以通过有限个隐含神经元组对于在紧凑集中的任何平方可积函数可以通过有限个隐含神经元组成的二层前向传播神经网络来逼近,并能达到任意逼近精度。考虑成的二层前向传播神经网络来逼近,并能达到任意逼近精度。考虑具有单个隐含层的前向传播神经网络,其输出属于集合:具有单个隐含层的前向传播神经网络,其输出属于集合:n n其中:其中:x x表示表示n n维输入矢量,维输入矢量, =(1,xT)T; =(1,xT)T;n vj vj 表示隐含层第表示隐含层第j j个神经元到输出层的权值;个神经元到输出层的权值;n wj wj 表示输入矢量到隐含层第表示输入矢量到隐含层第j j个神经元的权值矢量个
10、神经元的权值矢量n j=1,2,.,q j=1,2,.,q; q q为隐含层神经元个数;为隐含层神经元个数;n ( () )为隐含层神经元特性。为隐含层神经元特性。一、引言一、引言n神经网络的逼近能力神经网络的逼近能力n定义定义5-15-1: S: S型函数型函数如果函数如果函数( () ):R R0 0,1 1是非递减函是非递减函数,且满足数,且满足n则称函数则称函数( () )为为 S S型函数。型函数。n定义定义5-25-2: : 距离函数距离函数- -给定的函数空间给定的函数空间S S,设,设f,g,hf,g,hS S。则距离。则距离函数函数满足以下条件:满足以下条件:n . . 正定
11、性正定性(f,g)(f,g)0 0,且仅当,且仅当 f=g f=g 时等号成立;时等号成立;n . . 对称性对称性(f,g)=(f,g)=(g(g,f)f);n . . 三角不等式关系三角不等式关系(f,g)(f,g)(f,h)+(f,h)+(h,g)(h,g)。n定义定义5-35-3: : - -稠密稠密 - - 一个度量空间(一个度量空间(X X,)中的子集)中的子集S S称为是称为是在子集在子集T T上的上的 - -稠密,只有当对于任意一个给定的稠密,只有当对于任意一个给定的00,对所,对所有的有的t tT T,存在一个,存在一个s sS S,有,有 (s,t)(s,t)。一、引言一、
12、引言n神经网络的逼近能力神经网络的逼近能力n定理定理5-15-1: : 若神经元的激励函数若神经元的激励函数( () )是是S-S-型连续函数型连续函数。那么,。那么,( () )在在C C(U U)中是)中是 - -稠密。稠密。n这个定理说明,只要是有限空间中的这个定理说明,只要是有限空间中的连续函数连续函数g(x),g(x),总总存在具有上述存在具有上述神经元特性神经元特性( () )的三层网络的三层网络( () ),使得其使得其输出函数输出函数f(x)f(x)能够以任意精度逼近能够以任意精度逼近g(x)g(x)。n对于非连续函数是否也有类似的神经网络来逼近它呢对于非连续函数是否也有类似的
13、神经网络来逼近它呢?如果能够实现这样的逼近,则非连续函数?如果能够实现这样的逼近,则非连续函数g(x)g(x)应该应该满足什么样的条件?满足什么样的条件?HornikHornik等人在等人在19891989年发表论文中年发表论文中阐明了多层前向传播神经网络可以逼近任意连续函数阐明了多层前向传播神经网络可以逼近任意连续函数或分段连续函数或分段连续函数一、引言一、引言16 引言引言1234 非线性动态系统的神经网络辨识非线性动态系统的神经网络辨识5 神经网络控制的学习机制神经网络控制的学习机制神经网络控制器的设计神经网络控制器的设计n系统建模是神经网络的最早应用。系统建模是神经网络的最早应用。n什
14、么叫系统辨识?什么叫系统辨识?nL.A.ZadchL.A.Zadch曾经下过这样的定义:曾经下过这样的定义:“辨识是在输入和输辨识是在输入和输出数据的基础上,从一组给定的模型中,确定一个与出数据的基础上,从一组给定的模型中,确定一个与所测系统等价的模型所测系统等价的模型”。n使用非线性系统的输入输出数据来训练神经网络可认使用非线性系统的输入输出数据来训练神经网络可认为是非线性函数的逼近问题。为是非线性函数的逼近问题。 n多层前向传播网络能够逼近任意多层前向传播网络能够逼近任意L2L2非线性函数。非线性函数。 二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n系统辨识的三要素:系
15、统辨识的三要素:n模型的选择模型的选择 n输入信号的选择输入信号的选择 n误差准则的选择误差准则的选择 二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n系统辨识的三要素:系统辨识的三要素:n模型的选择模型的选择n神经网络用于系统辨识的实质就是选择适当的神经神经网络用于系统辨识的实质就是选择适当的神经网络模型来逼近实际系统,即网络模型来逼近实际系统,即 为神经网络模型类为神经网络模型类, 为一神经网络。考虑到多层前向传播网络为一神经网络。考虑到多层前向传播网络具备良好的学习算法,本章我们选择多层前向传播具备良好的学习算法,本章我们选择多层前向传播网络为模型类网络为模型类 , 为
16、一能充分逼近实际系统而又为一能充分逼近实际系统而又不过分复杂的多层网络。不过分复杂的多层网络。 二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n系统辨识的三要素:系统辨识的三要素:n输入信号的选择输入信号的选择 n从时域上来看,要求系统的动态过程在辨识时间从时域上来看,要求系统的动态过程在辨识时间内必须被输入信号持续激励,即输入信号必须充内必须被输入信号持续激励,即输入信号必须充分激励系统的所有模态;分激励系统的所有模态;n从频域来看,要求输入信号的频谱必须足以覆盖从频域来看,要求输入信号的频谱必须足以覆盖系统的频谱系统的频谱二、非线性动态系统的神经网络辨识二、非线性动态系统
17、的神经网络辨识n系统辨识的三要素:系统辨识的三要素:n误差准则的选择误差准则的选择 n误差准则是用来衡量模型接近实际系统的标准,它误差准则是用来衡量模型接近实际系统的标准,它通常表示为一个误差的泛函通常表示为一个误差的泛函E Wf e kk()( ( )f e kek ( )( )2二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n 一旦三大要素确定以后,神经网络的辨识就归结为一一旦三大要素确定以后,神经网络的辨识就归结为一个最优化问题。神经网络辨识具有以下五个特点。个最优化问题。神经网络辨识具有以下五个特点。n(1)(1)不要求建立实际系统的辨识格式。不要求建立实际系统的辨识
18、格式。n(2)(2)可以对本质非线性系统进行辨识,而且辨识是通过在网络外可以对本质非线性系统进行辨识,而且辨识是通过在网络外部拟合系统的输入部拟合系统的输入/ /输出,网络内部隐含着系统的特性。因此这输出,网络内部隐含着系统的特性。因此这种辨识是由神经网络本身实现的,是非算法式的。种辨识是由神经网络本身实现的,是非算法式的。n(3)(3)辨识的收敛速度不依赖于待辨识系统的维数,只与神经网络辨识的收敛速度不依赖于待辨识系统的维数,只与神经网络本身及其所采用的学习算法有关,传统的辨识方法随模型参数维本身及其所采用的学习算法有关,传统的辨识方法随模型参数维数的增大而变得很复杂。数的增大而变得很复杂。
19、n(4)(4)由于神经网络具有大量的连接,这些连接之间的权值在辨识由于神经网络具有大量的连接,这些连接之间的权值在辨识中对应于模型参数,通过调节这些权值使网络输出逼近系统输出中对应于模型参数,通过调节这些权值使网络输出逼近系统输出n(5) (5) 神经网络作为实际系统的辨识模型,实际上也是系统的一个神经网络作为实际系统的辨识模型,实际上也是系统的一个物理实现,可以用于在线控制。物理实现,可以用于在线控制。二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n神经网络辨识模型的结构神经网络辨识模型的结构 n前向建模法前向建模法n逆模型法逆模型法二、非线性动态系统的神经网络辨识二、非线
20、性动态系统的神经网络辨识n前向建模法:利用神经网络来逼近非线性系统前向建模法:利用神经网络来逼近非线性系统的前向动力学模型的前向动力学模型 。yN(k+1)=f(y(k),.,y(k-n+1),u(k),.,u(k-m+1) 二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n逆模型法逆模型法n直接法:直接法:逆向建模是最直接的方法是将系统逆向建模是最直接的方法是将系统输出作为网络的输入,网络输出与其期望输输出作为网络的输入,网络输出与其期望输出即系统的输入进行比较得到误差作为此神出即系统的输入进行比较得到误差作为此神经网络训练的信号经网络训练的信号二、非线性动态系统的神经网络辨
21、识二、非线性动态系统的神经网络辨识n逆模型法存在的问题逆模型法存在的问题n 学习过程不一定是目标最优的学习过程不一定是目标最优的,可以采用,可以采用下图所示的实用逆模型法下图所示的实用逆模型法n一旦非线性系统对应关系不是一对一的,那一旦非线性系统对应关系不是一对一的,那么不准确的逆模型可能会被建立么不准确的逆模型可能会被建立二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n非线性系统的前向建模非线性系统的前向建模n辨识的两种结构辨识的两种结构n并行结构并行结构n串行结构串行结构)1(),.,1(),(),1( ),.,1( ),( ) 1( mkukukunkykykyNky)
22、1(),.,1(),(),1(),.,1(),() 1( mkukukunkykykyNky串行结构收敛性较好串行结构收敛性较好二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n对于非线性系统:对于非线性系统:n其中其中 X(k) X(k)、U(k)U(k)、Y(k)Y(k)分别为分别为n n维、维、p p维、维、m m维状态维状态矢量序列矢量序列n神经网络系统辨识的基本思想是利用神经网络的非线神经网络系统辨识的基本思想是利用神经网络的非线性映射特性来逼近动态系统的非线性函数性映射特性来逼近动态系统的非线性函数和和。如如下图所示。下图所示。二、非线性动态系统的神经网络辨识二、非
23、线性动态系统的神经网络辨识n设系统的输入空间为设系统的输入空间为u,u,输出空间为输出空间为g,g,实际系统可以表实际系统可以表示为一个从输入空间到输出空间的算子示为一个从输入空间到输出空间的算子P:P:u ug;g;给定给定一个模型类一个模型类SMSM,设,设P PSMSM,则辨识的目的就是确定一个,则辨识的目的就是确定一个SMSM的子集类的子集类 ,使其中存在,使其中存在 ,且,且P P在给定的准在给定的准则下,则下, 为为P P的一个最佳逼近的一个最佳逼近二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识yyP uP uuNpu ( )( )n讨论讨论非线性动态系统的神经网
24、络辨识非线性动态系统的神经网络辨识的的四种辨识模型四种辨识模型nI InIIIInIIIIIInIVIVn其中其中f f、g g分别为非线性函数。分别为非线性函数。u(u(k k),y(),y(k k)表示在表示在k k时刻的时刻的输入输入- -输出对输出对二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n假定:假定:n(1) (1) 线性部分的阶次线性部分的阶次n n、m m已知;已知;n(2) (2) 系统是稳定的,即对于所有给定的有界输入其输出响系统是稳定的,即对于所有给定的有界输入其输出响应必定也是有界的。反映在模型应必定也是有界的。反映在模型上要求线性部分的特征上要求
25、线性部分的特征多项式多项式 的根应全部位于单位圆内。的根应全部位于单位圆内。n(3) (3) 系统是最小相位系统,反映在模型系统是最小相位系统,反映在模型上要求上要求 的零点全部位于单位圆内。的零点全部位于单位圆内。n(4) u(k-i),i=0,1,.(4) u(k-i),i=0,1,.与与y(k-j),j=0,1,.y(k-j),j=0,1,.可以量测可以量测二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n神经网络的辨识途径有二种:神经网络的辨识途径有二种:n线性部分的参数已知线性部分的参数已知 可可归结为带时滞的多层感知网络模型的学习问题归结为带时滞的多层感知网络模型的
26、学习问题,只是,只是导师学习信号有所不同。导师学习信号有所不同。n线性部分的参数未知线性部分的参数未知 可可归结为带时滞的多层感知网络模型的学习和线性系归结为带时滞的多层感知网络模型的学习和线性系统的参数估计问题统的参数估计问题。二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n对于模型对于模型I I、IIIIn如果如果线性部分已知,系统实际输出线性部分已知,系统实际输出与模型输出(神经网络输出与线性与模型输出(神经网络输出与线性部分输出之和)的差可以用部分输出之和)的差可以用BPBP算法算法来来训练神经网络模型训练神经网络模型)1(),.,1(),()() 1(10mkuku
27、kugikykynii)()1(),.,1(),() 1(10ikunkykykyfkymii二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n对于模型对于模型I I、IIII,如果,如果线性部分线性部分未知。采用改进未知。采用改进的的BPBP迭代学习算法迭代学习算法二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n设线性部分的未知参数用矢量设线性部分的未知参数用矢量表示,非线性部表示,非线性部分的神经网络模型参数用分的神经网络模型参数用W W阵表示阵表示n 针对模型I二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n由于线性模型和非线性模型的期
28、望输出由于线性模型和非线性模型的期望输出Z(l+1)Z(l+1)和和t tpjpj 在这里都是未知的,已知的只是两个模型的在这里都是未知的,已知的只是两个模型的输出之和。而它们的期望值应该是系统在当前时输出之和。而它们的期望值应该是系统在当前时刻刻k+1k+1的实际输出矢量的实际输出矢量y(k+1)y(k+1)值。因此在实际对值。因此在实际对如上算法进行计算时可交替使用如上算法进行计算时可交替使用y(k+1)-yy(k+1)-y2 2(k+1)(k+1)和和y(k+1)-yy(k+1)-y1 1(k+1)(k+1)去近似地代替去近似地代替Z(k+1)Z(k+1)和和t tpjpj n 在初始条
29、件完全未知的情况下可以取:在初始条件完全未知的情况下可以取:n n其中其中为比较大的数字。为比较大的数字。二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n举例举例 5-15-1n考虑以下模型:考虑以下模型:y(k+1y(k+1)=ay(k)+by(k-1)+g(u) =ay(k)+by(k-1)+g(u) 其中其中a=0.3, b=0.6a=0.3, b=0.6 g(u)=u g(u)=u3 3+0.3u+0.3u2 2-0.4u-0.4un试辨识该系统试辨识该系统二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n解:线性部分,采用递推最小二乘学习法解:线性部
30、分,采用递推最小二乘学习法n非线性部分采用前向传播多层神经网络来逼近非线性部分采用前向传播多层神经网络来逼近选择神经网络结构为选择神经网络结构为1,8,4,1, 1,8,4,1, )( ) 1() 1()(1()( ) 1( lllZlKllT1)1()() 1() 1()1()() 1(llPllllPlKT)()1() 1() 1(lPllKIlPT00)0( ba100010)0(=0.2, =0 二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n为了验证辨识效果,采用校验输入信号为了验证辨识效果,采用校验输入信号 :100.2 , 1 , 01002sin)(kkku二
31、、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n对于对于模型模型,可以用一个,可以用一个NNNN来逼近,也可以用来逼近,也可以用两个两个NNNN来逼近。下面考虑第二种情况:来逼近。下面考虑第二种情况:n Nf f 网络用来逼近可分离的非线性函数之一网络用来逼近可分离的非线性函数之一 f()n Ng g 网络用来逼近可分离的非线性函数之二网络用来逼近可分离的非线性函数之二 g()1(),.,1(),()1(),.,1(),() 1(mkukukugnkykykyfky二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n选指标函数选指标函数:n根据根据BP算法的推导思
32、路可得广义误差为:算法的推导思路可得广义误差为:pjLpjpjLpjLpjLpjLpjpjLpjLpjLtoooNettoofNet112111211( )( )( )( )( )( )( )( )()()()pjLpjpjLpjLpjLtoofNet21222( )( )( )( )()()pjrpjrpkrkkjrfNetw1111111( )( )()()()pjrpjrpkrkkjrfNetw2222121( )( )()()()二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识n神经网络系数更新公式为:神经网络系数更新公式为:n在整个算法的计算过程中,交替使用网络的实在
33、整个算法的计算过程中,交替使用网络的实际输出值际输出值opj1(L)和和o opj2(L),使得广义误差信号可,使得广义误差信号可以不断地进行计算和修正,直至最终收敛以不断地进行计算和修正,直至最终收敛二、非线性动态系统的神经网络辨识二、非线性动态系统的神经网络辨识43 引言引言1234 非线性动态系统的神经网络辨识非线性动态系统的神经网络辨识5 神经网络控制的学习机制神经网络控制的学习机制神经网络控制器的设计神经网络控制器的设计n神经元控制器的目的在于如何设计一个有效的神经元控制器的目的在于如何设计一个有效的神经元网络去代替传统控制器的作用,使得系神经元网络去代替传统控制器的作用,使得系统的
34、输出跟随系统的期望输出。为了达到这个统的输出跟随系统的期望输出。为了达到这个目的,神经网络的学习方法就是寻找一种有效目的,神经网络的学习方法就是寻找一种有效的途径进行网络连接权阵或网络结构的修改,的途径进行网络连接权阵或网络结构的修改,从而使得网络控制器输出的控制信号能够保证从而使得网络控制器输出的控制信号能够保证系统输出跟随系统的期望输出。系统输出跟随系统的期望输出。 三、神经网络控制的学习机制三、神经网络控制的学习机制n学习机制分为:学习机制分为:n监督式学习(有导师指导下的控制网络学习监督式学习(有导师指导下的控制网络学习 )n离线学习法离线学习法n在线学习法在线学习法n反馈误差学习法反
35、馈误差学习法n多网络学习法多网络学习法n增强式学习(通过某一评价函数指定下的学习)增强式学习(通过某一评价函数指定下的学习) 三、神经网络控制的学习机制三、神经网络控制的学习机制n1 1、离线学习法、离线学习法 适合静态环境,适合静态环境,网络离线训练中选择的性能指标为网络离线训练中选择的性能指标为u-uu-uc的平方误差极小,这一指标并不能保证系统的最终性能的平方误差极小,这一指标并不能保证系统的最终性能y yd-y-y的平方误差极小的平方误差极小三、神经网络控制的学习机制三、神经网络控制的学习机制2 2、在线学习法:、在线学习法: 找出一个最优控制量找出一个最优控制量u u使得系统输出使得
36、系统输出y y趋于期望趋于期望输出输出y yd。权阵的调整应该使得。权阵的调整应该使得y yd-y-y的误差减少最快的误差减少最快适合模型已知的动态环境适合模型已知的动态环境三、神经网络控制的学习机制三、神经网络控制的学习机制n学习算法:学习算法:n采用最速下降法采用最速下降法 wkwkEwwkyky ky kwkwkyky ky ku ku kwkjijipjijidjijidji()( )( )( )( )( )( )( )( )( )( )( )( )( )1假设系统的假设系统的Jacobian矩阵已知矩阵已知三、神经网络控制的学习机制三、神经网络控制的学习机制n3 3、反馈误差学习法
37、适用于非线性系统线性绝对占优条件下的网络学习适用于非线性系统线性绝对占优条件下的网络学习 三、神经网络控制的学习机制三、神经网络控制的学习机制n4 4、多神经网络学习法(两种)三、神经网络控制的学习机制三、神经网络控制的学习机制n增强式学习增强式学习n当某些被控系统的导师信号无法得到当某些被控系统的导师信号无法得到时,期时,期望输出就没有了。增强型学习就是利用当前望输出就没有了。增强型学习就是利用当前控制是否成功来决定下一次控制该如何走的控制是否成功来决定下一次控制该如何走的学习方式。学习方式。 n修正的办法是对某一成功的行为进行鼓励,修正的办法是对某一成功的行为进行鼓励,而对不成功的行为进行
38、惩罚。而对不成功的行为进行惩罚。 n用神经网络来实现时,用神经网络来实现时, 则可在权值空间进则可在权值空间进行调整。行调整。三、神经网络控制的学习机制三、神经网络控制的学习机制52 引言引言1234 非线性动态系统的神经网络辨识非线性动态系统的神经网络辨识5 神经网络控制的学习机制神经网络控制的学习机制神经网络控制器的设计神经网络控制器的设计四、神经网络控制器的设计四、神经网络控制器的设计n神经网络控制的设计方法有四种:神经网络控制的设计方法有四种:n直接逆模型控制法直接逆模型控制法 n直接网络控制法直接网络控制法n多网络自学习控制法多网络自学习控制法n单一神经元控制单一神经元控制 1 1、
39、直接逆模型控制法:、直接逆模型控制法: 最直观的一种神经网络控制器实现方法,其最直观的一种神经网络控制器实现方法,其基本思想就是假设被控系统可逆,通过基本思想就是假设被控系统可逆,通过离线建模离线建模得到系统的逆模型网络,然后用这一逆网络模型得到系统的逆模型网络,然后用这一逆网络模型去直接控制被控对象去直接控制被控对象u(k)y(k+1)u (k)NZZZZ-1-1-n+1-m神经网络对象+图3-2-27 直接逆控制的训练结构示意图Z神经网络对象u (k)Ny(k+1)y(k+1)d-1-1ZZZ-n+1-m图3-2-28 直接网络逆模型控制的结构示意图训练结构示意图训练结构示意图 四、神经网
40、络控制器的设计四、神经网络控制器的设计四、神经网络控制器的设计四、神经网络控制器的设计n考虑如下单输入单输出系统考虑如下单输入单输出系统:ny(k+1)=f(y(k-1),.,y(k-n+1),u(k),.,u(k-m)ny: 系统的输出变量;系统的输出变量; nu: 系统的输入变量;系统的输入变量;nn:系统的阶数;:系统的阶数;nm:输入信号滞后阶:输入信号滞后阶nf():任意的线性或非线性函数:任意的线性或非线性函数n如果已知系统阶次如果已知系统阶次n、m,并假设系统可逆,则存在函,并假设系统可逆,则存在函数数g(),有:,有:n u(k)=g(y(k+1),.,y(k-n+1),u(k
41、-1),.,u(k-m)四、神经网络控制器的设计四、神经网络控制器的设计n若能用一个多层前向传播神经网络来实现,则网络的输若能用一个多层前向传播神经网络来实现,则网络的输入输出关系为入输出关系为: :n u uN= =(x) (x) n式中:式中:u uN为神经网络的输出,它表示训练完成后神经网为神经网络的输出,它表示训练完成后神经网络产生的控制作用;络产生的控制作用;n 为神经网络的输入输出关系式,它用来逼近被控为神经网络的输入输出关系式,它用来逼近被控系统的逆模型函数系统的逆模型函数g(g() );n X X为神经网络的输入矢量,为神经网络的输入矢量, X=y(k+1),y(k),.,y(
42、k-n+1),u(k-1),.,u(k-m)TX=y(k+1),y(k),.,y(k-n+1),u(k-1),.,u(k-m)Tn将神经网络输入矢量将神经网络输入矢量X X中的中的y(k+1)y(k+1)用期望系统输出值用期望系统输出值y yd(k+1)(k+1)去代替就可以通过神经网络去代替就可以通过神经网络产生期望的控制量产生期望的控制量u u。即:。即:X=yX=yd(k+1),y(k),.,y(k-n+1),u(k-(k+1),y(k),.,y(k-n+1),u(k-1),.,u(k-m)1),.,u(k-m)Tn直接网络控制法直接网络控制法: :直接逆模型控制法由于缺乏学习机制直接逆
43、模型控制法由于缺乏学习机制,且在控制器的设计中又没有考虑到系统本身的输入,且在控制器的设计中又没有考虑到系统本身的输入输出状态,因此,一旦系统运行的环境、参数发生变输出状态,因此,一旦系统运行的环境、参数发生变化时,这类控制器就无法适应了化时,这类控制器就无法适应了。直接网络控制法直接网络控制法是在神经网络的输入端引入了系统的状态信号,并将学在神经网络的输入端引入了系统的状态信号,并将学习机制实时在线地用于网络控制器的调整和改善习机制实时在线地用于网络控制器的调整和改善四、神经网络控制器的设计四、神经网络控制器的设计n以例子来说明设计方法:以例子来说明设计方法:n考虑被控系统考虑被控系统 假设
44、动力学逆模型成立假设动力学逆模型成立 ,即有,即有u(k)=gy(k+1),y(k),y(k-1),y(k-1),u(k-1) u(k)=gy(k+1),y(k),y(k-1),y(k-1),u(k-1) n试用直接网络控制法控制。试用直接网络控制法控制。y ky k y ky ku ky ku kykyk()( ) () () ()( ()( )()()11211111222四、神经网络控制器的设计四、神经网络控制器的设计n解:解:n构造神经网络结构为构造神经网络结构为5,25,12,15,25,12,1。 n期望输出为:期望输出为: ykkkd( )sin. sin21000 26100四
45、、神经网络控制器的设计四、神经网络控制器的设计n该例的直接网络控制结构图为:该例的直接网络控制结构图为:n注意:注意: 这里我们用这里我们用y yd(k+1) (k+1) 代替代替y(k+1), y(k+1), 而而y(k),y(k),仍然用系统实际输出,而不是期望输出仍然用系统实际输出,而不是期望输出四、神经网络控制器的设计四、神经网络控制器的设计wkwkoijijpjpi()( )1pjddyky kdy kdu kyky kykyk( )( )( )( )( )( )()()112322pjpjpjpllljoow()1输出层输出层 隐含层隐含层 四、神经网络控制器的设计四、神经网络控制
46、器的设计n选目标函数:选目标函数:n假设:输出单元层的神经元为假设:输出单元层的神经元为线性单元线性单元、其余层、其余层的神经元为的神经元为SigmoidSigmoid激励元。则学习算法为:激励元。则学习算法为: 取取=0.05=0.05,学习结果,学习结果100次次四、神经网络控制器的设计四、神经网络控制器的设计n当当JacobianJacobian矩阵难以得到时,可以采用矩阵难以得到时,可以采用近似方法:近似方法:n摄动法摄动法 : 代替代替n符号函数法符号函数法:采用符号函数采用符号函数 代替代替n前向神经网络模型法前向神经网络模型法 :采用另一神经网络采用另一神经网络模型来仿真系统的动
47、力学模型模型来仿真系统的动力学模型n多网络自学习控制法多网络自学习控制法 四、神经网络控制器的设计四、神经网络控制器的设计n多网络自学习控制法基本思想是利用逆动力学多网络自学习控制法基本思想是利用逆动力学模型和系统的期望输出模型和系统的期望输出y yd d(k+1)(k+1)去构造一个期去构造一个期望的控制量望的控制量u ud d(k)(k),从而解决了神经控制器,从而解决了神经控制器NcNc在系统模型未知情况下的学习问题。在系统模型未知情况下的学习问题。 四、神经网络控制器的设计四、神经网络控制器的设计u 单一神经元控制单一神经元控制: 适用于适用于单输入单输出单输入单输出系统系统w (t)
48、1w (t)2w (t)nx (t)1x (t)2x (t)nks(t) E环境p (t)iniiitxtwkts1)()()(wi(t+1)= wi(t)+pi(t) 四、神经网络控制器的设计四、神经网络控制器的设计n如设定值如设定值r(t)r(t)、对象输出测量值、对象输出测量值y(t)y(t)等。转换部件的等。转换部件的输出为神经元学习所需的状态,如设定值输出为神经元学习所需的状态,如设定值r(t)r(t)、误差、误差e(t) e(t) 、误差变化、误差变化e(t)e(t)等,控制信号等,控制信号u(t)u(t)由神经元通由神经元通过关联搜索来产生。根据以上模型,采用联想式学习过关联搜索来产生。根据以上模型,采用联想式学习方法,可以得出规范化神经元非模型控制方法:方法,可以得出规范化神经元非模型控制方法:n式中式中x xi i(t) i=1,2, ,n (t) i=1,2, ,n 为神经元的输入状态为神经元的输入状态;K;K为神经为神经元的比例系数;元的比例系数; 为神经元的学习速率。为神经元的学习速率。四、神经网络控制器的设计四、神经网络控制器的设计
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。