1、第第6章章 学习控制学习控制-迭代学习控制迭代学习控制 智能控制基础智能控制基础目录目录6.1 迭代学习控制6.2 增强学习6.1.1 迭代学习控制的基本思想6.1.2 线性时变系统的迭代学习控制6.1.3 一类非线性动态系统的迭代学习控制6.1.4多关节机械手的迭代学习控制6.1.5 迭代学习控制面临的挑战6.1 迭代学习控制迭代学习控制6.1.1 基本思想基本思想 v迭代学习迭代学习(Iterative learning)的基本思想在于的基本思想在于总结人类学习的方法,即通过多次的训练,总结人类学习的方法,即通过多次的训练,从经验中学会某种技能。从经验中学会某种技能。v迭代学习控制是智能控
2、制中具有严格数学描迭代学习控制是智能控制中具有严格数学描述的一个分支。它以极为简单的学习算法,述的一个分支。它以极为简单的学习算法,在给定的时间区间上实现未知被控对象以任在给定的时间区间上实现未知被控对象以任意精度跟踪某一给定的期望轨迹的控制问题。意精度跟踪某一给定的期望轨迹的控制问题。特点特点v控制器在运行过程中不需要辨识系统的参数,控制器在运行过程中不需要辨识系统的参数,属于基于品质的自学习控制。属于基于品质的自学习控制。v这种控制方法特别适用于具有重复运行的场这种控制方法特别适用于具有重复运行的场合。它的研究对诸如机器人那样有着非线性、合。它的研究对诸如机器人那样有着非线性、强耦合、难以
3、建模又需要高精度轨迹控制的强耦合、难以建模又需要高精度轨迹控制的场合是非常有意义的。场合是非常有意义的。6.1.1 迭代学习控制的基本思想6.1.2 线性时变系统的迭代学习控制6.1.3 一类非线性动态系统的迭代学习控制6.1.4多关节机械手的迭代学习控制6.1.5 迭代学习控制面临的挑战6.1 迭代学习控制迭代学习控制6.1.2线性时变系统的迭代学习控制线性时变系统的迭代学习控制 考虑DC伺服驱动控制的速度控制系统。数学模型数学模型v假设电枢电感足够小,而且忽略机械摩擦。假设电枢电感足够小,而且忽略机械摩擦。则系统可以简化为一阶系统。则系统可以简化为一阶系统。ny(t)、v(t)分别表示电机
4、角速度和输入控制电压;nK-力矩系数nTm-电机的时间常数 Tdy tdty tv tKm()()()/求解求解v简化模型简化模型na=(1+AB/K)/Tm;nb=A/KTm。v求解得:求解得:yaybvttaatdvbeyety0)()()0()(迭代学习的引入迭代学习的引入v假设期望速度特性假设期望速度特性 足够光滑,可以由足够光滑,可以由离散数据离散数据来拟合。来拟合。v 则初始控制则初始控制的系统误差为的系统误差为v根据根据v则下一次校正后的输出控制电压可取:则下一次校正后的输出控制电压可取:v tvtb e t1010()()()bvayy(t)y-(t)y(t)e0d0(t)v0
5、tT/0,1,.Nk t),(kyd(t)yd迭代过程迭代过程vtvtb etkkk11()()()e tytytkdk()()()dvbeyetykttakatk)()0()(0)(收敛性分析收敛性分析v对于所有的对于所有的k,取,取;deeadeaetetytydeaetedvabetbvyaetydvabetbvyaetytytytetktatktakkdtktaktktakkatdtktakkatdkdk)()()()()()()()()()0()()()()0()()()()(01)(01)(1101)(101)(110)(0)y(0)y(0)ykd0其中其中可见,前述条件下,迭代学
6、习的过程是收敛的。可见,前述条件下,迭代学习的过程是收敛的。kkTaEdtdtdtteadtteedtatekktttkkktkttatkk0!.)(.)()(0102000222)(0121112Ee tt T max ()00参数的替换参数的替换v对于参数对于参数b预先不知道的情况预先不知道的情况,可以用另一,可以用另一近似值近似值来代替来代替。只要。只要满足以下不等式满足以下不等式:迭代学习公式仍是收敛的迭代学习公式仍是收敛的。v具体证明请见定理具体证明请见定理6-1。111b线性时变系统的一般情况线性时变系统的一般情况 v系统模型系统模型v解解为状态转移矩阵。为状态转移矩阵。()()(
7、)()()y tA t y tB t u ttdutHtgty0)(),()()(R),(rrtH迭代学习公式迭代学习公式其中其中 是一个给定的矩阵函数。是一个给定的矩阵函数。dutHtgtytkk)(),()()(0e tytytkdk()()()utu tt e tkkk1()()()()utu tt e tkkk1()()()()R)(rrt定理定理6-1:收敛性定理:收敛性定理v假设 。若给定的任一初始输入矢量u0(t)在0,T区间内连续。则存在正常数和0使得v范数 定义:vrr的矩阵F=(fij)范数F定义 T0,t1)t()t,t(HI g(0)(0)yrd ,、,.2,1,0k1
8、0ee0k01k )t(emaxesupeiri1tTt0 fmaxFr1jijri1 证明证明 v定义一矢量范数定义一矢量范数v则有:则有:Wwi ri max1FWFWdetHttetttHIdetHttetttHdutHttuttHtgtydutHttuttHtgtytytytektkrktkktkdktkdkdk)()(),()()(),()()(),()()(),()(),()(),()()()(),()(),()()()()()(1011011010v两边同乘两边同乘e-t,并取,并取范数可得:范数可得:)()1(max)()()(maxmax)(max)(),(max)(max1
9、00)(0101010)(001000kTttTtkktkTtTtktTtrTtktTtkeehdeehedeeehteetttHIteeev其中其中v可知可知,所以,总可以选择较大的,所以,总可以选择较大的,使得:使得:v从而保证了从而保证了时,时,。max(,)()max(,)(),000t TrtTIH t tthtH t0011heT()()etk 0k 10状态空间表示状态空间表示 rnRY,U,RX)t(X)t(C)t(Y)t(U)t(B)t(X)t(A)t(Xd)(U)(B)()t()t(C)0(X)t()t(C)t(Yt01nI)0()t()t(A)t(如果矩阵B,C是定常、B
10、C是可逆的,只需满足以下条件:即可满足迭代学习的收敛性。1BCI)t()t,t(HIrr6.1.1 迭代学习控制的基本思想6.1.2 线性时变系统的迭代学习控制6.1.3 一类非线性动态系统的迭代学习控制6.1.4多关节机械手的迭代学习控制6.1.5 迭代学习控制面临的挑战6.1 迭代学习控制迭代学习控制1.问题的提出问题的提出 v考虑一个二阶非线性动力学系统考虑一个二阶非线性动力学系统v可化为一阶微分方程组可化为一阶微分方程组 v简记为:简记为:()(),(),)(),(),)()x tfx tx t tg x tx t t u t1111111)(),(),(0),(),()()()(21
11、1211221tuttxtxgttxtxftxtxtx()(),)(),)()x tf x t tg x t t u tv假设假设xd(t),t0,T是系统的一个状态矢量,且是系统的一个状态矢量,且属于属于R2n有界闭合子集有界闭合子集W。则控制的问题就是。则控制的问题就是寻找分段连续的控制输入寻找分段连续的控制输入uj(t)序列序列,使得系统使得系统的状态的状态xj(t)跟随跟随xd(t),其跟随误差小于某一给,其跟随误差小于某一给定的精度定的精度,即,即 其中其中j表示第表示第j次迭代次迭代。T0,t,|(t)x-(t)x|jd被控系统进行控制的条件被控系统进行控制的条件v系统的运行条件如
12、采样频率、初始的控制结系统的运行条件如采样频率、初始的控制结构是固定的;构是固定的;v系统不确定性时,在时间系统不确定性时,在时间0,T内是重复作业内是重复作业的;的;v函数函数f()、g()满足满足Lipshitz连续;连续;vg(x(t),t)在在t0,T内是齐次和正定函数。内是齐次和正定函数。v函数函数f()、g()满足满足Lipshitz连续,即:连续,即:其中其中(t)、(t)为有界的正函数为有界的正函数,表示欧几表示欧几里德范数,里德范数,定义为:定义为:Lipshitz连续连续 fx t tfxt tt x txt111212(),)(),)()()()g x t tg xt t
13、t x txt111212(),)(),)()()()0supvvAvAvg(x(t),t)在在t0,T内是齐次和正定函数,即内是齐次和正定函数,即满足:满足:00,b2,v,v=a+(2+1/a)(m+m|ud|m)xtx taututaddfjm()()()()()1422dab()1mt Tt max()0)(max0tTtm精度分析精度分析v定理定理(6-3)表明了系统的最大跟踪误差表明了系统的最大跟踪误差与与的大小的大小成正比。因此只要控制序列成正比。因此只要控制序列 在整个时间在整个时间域域0,T内收敛于内收敛于,则系统的跟踪误,则系统的跟踪误差可以达到任意精度。差可以达到任意精度
14、。v这样,系统的轨迹跟踪控制问题就归结为寻这样,系统的轨迹跟踪控制问题就归结为寻求在时间域求在时间域0,T上一致收敛于上一致收敛于 的前的前馈输入控制序列馈输入控制序列的问题了。的问题了。|)()(|tutujfjd)()()(txtxtejdj)(tujf)(tud)(tud)(tujf梯度法梯度法v定义指标函数定义指标函数v应用梯度法我们得到第应用梯度法我们得到第j次次迭代计算的公迭代计算的公式:式:v的取值范围必须满足的取值范围必须满足00 (2-)db-1-(r0+2a/1)=l20(),)gxttj1utugxttrdmjm()(),)011004)/11(132120lpql lq
15、ar)(tud其中其中 p=min(al1,l2);q=(m+mu0)/1 。则新的迭代学习策略是收敛的,则新的迭代学习策略是收敛的,即:即:其中其中 目标函数目标函数定义为:定义为:)()(limtxtxdjj)()(limtutudjfj,0)()()()()(0jTtduuuudbtVtjfdTjfd)()(1tVtVjj)(tVjv定理定理6-5:如果:如果状态误差取:状态误差取:xd(t)-xj+1(t)学习规则改为:学习规则改为:则则 a,b,d的取值满足下列不等式:的取值满足下列不等式:(2+)db-1-2r0=l10 (2+)db-1-(r0+2a/1)=l20 系统收敛。系统
16、收敛。另一种迭代方法的收敛性另一种迭代方法的收敛性04)/11(132120lpql lqarutututfjfjbj11()()()迭代学习控制的特点迭代学习控制的特点v不需要精确的模型参数,只要一些模型的极不需要精确的模型参数,只要一些模型的极限参数;限参数;v对周期性的系统扰动完全可以通过迭代学习对周期性的系统扰动完全可以通过迭代学习来克服,对随机扰动也有较强的抑制能力。来克服,对随机扰动也有较强的抑制能力。v学习控制的结构相当简单,学习的信息只须学习控制的结构相当简单,学习的信息只须利用线性反馈控制量。利用线性反馈控制量。v学习算法的收敛条件非常简单,具有有界的学习算法的收敛条件非常简
17、单,具有有界的不确定性。不确定性。6.1.1 迭代学习控制的基本思想6.1.2 线性时变系统的迭代学习控制6.1.3 一类非线性动态系统的迭代学习控制6.1.4多关节机械手的迭代学习控制6.1.5 迭代学习控制面临的挑战6.1 迭代学习控制迭代学习控制6.1.4多关节机械手的迭代学习控制多关节机械手的迭代学习控制 v固定负载下的机器人迭代学习控制固定负载下的机器人迭代学习控制 v负载经常变化下的机器人轨迹跟踪的迭代学负载经常变化下的机器人轨迹跟踪的迭代学习控制方法习控制方法 机械手动力学方程机械手动力学方程 vD(q):惯量矩阵;惯量矩阵;v :非线性哥氏力和向心力;非线性哥氏力和向心力;v
18、G(q):重力项;重力项;v a:不确定力矩项(包括磨擦力矩等);:不确定力矩项(包括磨擦力矩等);v :各关节的输入力矩。各关节的输入力矩。D q qC q qG qa()(,)()C q q(,)状态方程状态方程v取取)()()()(21tqtxtqtxkkkadDtxGtxtxCDtxtxtxtx112112210)()(),()()()()(迭代学习策略迭代学习策略 epdkvdkkekkketKqtqtK qtqtttutututt()()()()()()()()()()()1qqqqkdkd()()()()00001500050000207000015000080vpKK75.01
19、0次迭代学习控制效果次迭代学习控制效果期望轨迹曲线实际系统响应第一关节第一关节10次迭代学习控制效果次迭代学习控制效果期望轨迹曲线实际系统响应第二关节第二关节10次迭代学习控制效果次迭代学习控制效果期望轨迹曲线实际系统响应第三关节第三关节 负载经常变化下的机器人迭代学习控制负载经常变化下的机器人迭代学习控制 v一种基于知识库的改进迭代学习算法一种基于知识库的改进迭代学习算法 v改进迭代学习算法的目的在于如何尽快地得改进迭代学习算法的目的在于如何尽快地得到准确的前馈补偿力矩到准确的前馈补偿力矩d,当负载发生变化,当负载发生变化时,它的基本思想是利用一组已知的、按一时,它的基本思想是利用一组已知的
20、、按一定规则排列的、与定规则排列的、与d相关的数据库,并通过相关的数据库,并通过推理机制来求得当前负载推理机制来求得当前负载m下准确的前馈补下准确的前馈补偿力矩偿力矩d(m)。v能经过一个周期的运行达到高精度跟踪控制能经过一个周期的运行达到高精度跟踪控制的目的。的目的。6.1.1 迭代学习控制的基本思想6.1.2 线性时变系统的迭代学习控制6.1.3 一类非线性动态系统的迭代学习控制6.1.4多关节机械手的迭代学习控制6.1.5 迭代学习控制面临的挑战6.1 迭代学习控制迭代学习控制6.1.5 迭代学习控制面临的挑战迭代学习控制面临的挑战v向一般系统的推广问题;向一般系统的推广问题;v学习收敛的速率问题;学习收敛的速率问题;v要求初始状态在期望轨迹上;要求初始状态在期望轨迹上;v如果期望轨迹发生变化,学习必须重新进行。如果期望轨迹发生变化,学习必须重新进行。