1、一元函数X.R二元函数xyoR.fD.f.三元函数xyzo.R.fXXI)(xfy ),(yxfz 矩形的面积 S = xy),(zyxfu 长方体体积 V = xyzxRnR.XnnRxxxX),(21f.uRu),()(1nxxfXfu 多元函数及其图形多元函数及其图形1122.nnnetx wx wx w1f()1enetynet211f ()(1)1e(1e)-netnetnetyy12,nxxxx12,phihihihi12,pho hohoho12,qyiyiyiyi12,qyoyoyoyo12,qdddodihwf( ) howhb1,2,kmob211( )( )2qoooed
2、kyo kk12( )( ),( ),( )nkx kx kx kx12( )( ),( ),( )qkd kdkdkod1( )( )1,2,nhihihihikw x kbhp( )f( )1,2,hhho khi khp1( )( )1,2,pohohohyi kw ho kboq( )f( )1,2,ooyo kyi koqohoohoeeyiwyiw( )( )( )phohoohhhohow ho kbyi kho kww211( ( )( )2( ( )( )( )( ( )( )f( )( )qooooooooooood kyo ked kyo k yo kyiyid kyo
3、kyi kk( )ok( )( )oohhoohoeeyik ho kwyiw 1( )( )( )( )( )hihhihnihihhiiihiheehikwhikww x kbhikx kww( )hk( )ok21212111( )( ) )( )2( )( )( )1( )f( ) )( )2( )( )1( )f( ) )( )2( )( )qoohohhhqoohohhqpohohohohhhd kyo keho khi kho khi kd kyi kho kho khi kd kw ho kbho kho khi k11( )( )( )f ( )( )( )f ( )( )q
4、hooohoohqohohhoho kd kyo kyi kwhi kk whi kk 1( )( )( )( )( )hoohhoNNhohoohewkk ho kwwwk ho k ( )ok( )howk( )hk1( )( )( ) ( )( )( ) ( )hihhiihhihNNihihhieehi kw kk x kwhi kwwwk x k2111( )( )2qmookoEdky kmwhohoewe0,此时,此时who0hoewe0who一、无约束优化的古典分析法一、无约束优化的古典分析法 无约束优化问题可表示为 min f (x1, x2, , xn) xiR,i = 1
5、, 2, , n如果令 x = (x1, x2, , xn)T,则无约束优化问题为 min f (x) xRn 关于 f (x): 当 x = (x) 时,f (x) 是一条曲线; 当 x = (x1, x2)T 时,f (x1, x2) 是一个曲面; 当 x = (x1, x2, x3)T 时,f (x1, x2, x3) 是一个体密度(或类位势函数); 当 x = (x1, x2, , xn)T 时,f (x1, x2, , xn) 是一个超曲面。 设函数 f (x) = f (x1, ., xn) 对所有变元都有一阶与二阶连续偏导数,则 称 n 个一阶偏导数构成的 n 维列向量为 f.(
6、x) 的梯度梯度,记作 称满足 f (x0) = 0 的点 x0 为函数 f (x) 的驻驻点点或临界点临界点。T1)(,)()(nxxfxxfxf 称 n2 个二阶偏导数构成的 n 阶对称矩阵为函数 f (x) 的海森海森(Hessian)矩阵,记为 H(x) 或2f (x) : 222212122122122)()()()()()()()(nnnnxxfxxxfxxxfxxxfxxxfxxfxfxH 综上所述,多元函数 f (x) = f (x1, x2, , xn) 的一阶导数是它的梯度 f.(x),二阶导数是它的 Hessian 矩阵 2f (x)。 在最优化方法的讨论中这是两个常用的
7、概念。 定理定理 (最优性条件)设 n 元函数 y = f (x) 对所有变元具有一阶及二阶连续偏导数,则 x0 是 f (x) 极小点的充分条件为f (x0) = 0,2f (x0) 0(正定)而 x0 是 f (x) 极大点的充分条件为f (x0) = 0,2f (x0) 0(负定) 事实上事实上,如果设 x = (x1, , xn)T,则利用多元函数的泰勒展开式,我们有Rxxfxxxfxfxxf)(! 21)()()(02TT000其中 R 为 x 的高阶无穷小,即 R = o| x |2。 于是,当 x0 为函数 f.(x) 的驻点时可以得到于是,当 xi(i = 1, , n)足够小
8、时,上式右端的正负号完全由二次型 xT2f (x0)x 决定,从而完全由 Hessian 矩阵 2f (x) 的正(负)定性决定。 注记注记:微积分中求一元函数和二元函数极值的方法,是这个定理的特例。Rxxfxxfxxf)(! 21)()(02T00二、无约束优化的梯度下降法二、无约束优化的梯度下降法 对于无约束优化问题min f (x) (1) x = (x1, x2, , xn)TRn如果 f (x) 可微,根据古典分析的方法,可利用f (x) = 0 (2)求驻点,然后再利用 Hessian 矩阵 2f.(x) 来判定这些驻点是否极小值点,从而求出无约束优化问题(1)的最优解。 但是,用
9、古典分析的方法求解无约束优化问题(1)实际上是行不通的,这是由于: (1) 实际应用中相当数量的函数 f.(x) 不具有解析性,故非线性方程组 f (x) = 0 无法形成; (2) 即使形成了方程组 f (x) = 0,由于它是一个 n 元非线性方程组,因而求它的解与解决原问题一样地困难; (3) 即使求得了 f (x) = 0 的解 x*,但由于最优性条件不被满足或者难于验证,因此仍无法确定 x* 是否为(1)的解。 例如,有些曲面有许多甚至无穷多极大值和极小值,则无法验证最优性条件。 鉴于上述种种原因,对于(1)的求解,通常采用一些比较切合实际、行之有效的数值算法。最常用的是迭代算法(搜
10、索算法)。 迭代算法迭代算法的基本思想是:从一个选定的初始点 x0Rn 出发,按照某一特定的迭代规则产生一个点列 xk,使得当 xk 是有穷点列时,其最后一个点是(1)的最优解;当 xk 是无穷点列时,它有极限点,并且其极限点是(1)的最优解。 设 xkRn 是某迭代算法的第 k 轮迭代点,而xk+1Rn 是第 k +1 轮迭代点,记xk+1 = xk + k pk这里 kR 称为步长步长,pkRn 称为搜索方向搜索方向。在 k 和 pk 确定之后,由 xkRn 就可以确定 xk+1Rn。 各种不同迭代算法的差别,在于选择 k 和 pk(特别是 pk)的方法不同。 使用最广泛的一类是下降算法下
11、降算法,它每迭代一次都是目标函数值有所下降,即 f (xk+1) 0,并令 k: = 0; 2 计算 pk = f (xk); 3 检验是否满足收敛性判别准则:| pk | 若满足判别准则,则停止迭代,得到点 x* xk,否则进行 4; 4 单变量极值问题的最优解 kR: 5 令xk+1 = xk + k pk;k: = k + 1返回 2。)()(min0kkkkkpxfpxf 例例 用梯度下降法求解 min f (x) = 2x12 + x22。 解解 (1) 取初始点 x0 = (1, 1)T,计算得 p0 = f (x0) = (4x01 , 2x02) T |x1 = 1, x2 =
12、 1 = (4, 2)T由于所以 f (x0 + p0) = 2(1 4)2 + (1 2)2。再求解单变量极值问题:214100px得 0 = 5/18,于是x1 = x0 + 0 p0 = (1/9, 4/9)T (2) 计算得 p1 = f (x1) = (4x11 2x12)|x11 = 1/9, x12 = 4/9 = (4/9, 8/9)T所以)(min000pxf84419111px故再求解单变量极值问题:得 1 = 5/12,于是x2 = x1 + 1 p1 = (2/27, 2/27)T (3) 计算得 p2 = f (x2) = (8/27, 4/27),. 如此继续下去,
13、直到满足收敛准则为止。22119849412)(pxf)(min110pxf 该问题的最优解为 x* = (0, 1)T,f (x*) = 0,如图所示。-10-50510-10-50510050100150200250300 梯度下降法是求解无约束优化问题的最基本的算法,它在最优化方法中占有重要地位。 梯度下降法的优点是计算量小,存储变量少,对初始点要求不高。缺点是:f.(x) 仅仅反映了函数在点 x 处的局部性质,对局部来说是最速的下降方向,但对整体求解过程并不一定使函数值下降的最快;另外,梯度下降法收敛速度慢,特别是在极小值点附近。 梯度下降法适用于寻优过程的前期迭代或作为间插步骤,当接
14、近极值点时宜选用其它收敛快的算法。属于解析型的算法有:梯度法:又称最速下降法。这是早期的解析法,收敛速度较慢。牛顿法:收敛速度快,但不稳定,计算也较困难。共轭梯度法:收敛较快,效果较好。变尺度法:这是一类效率较高的方法。 等等BP网络的训练函数 例一:利用三层BP神经网络来完成非线性函数的逼近任务,其中隐层神经元个数为五个。样本数据:例二利用三层BP神经网络来完成非线性函数的逼近任务,其中隐层神经元个数为五个。样本数据:牛顿法的几何意义牛顿法的几何意义xyx*x00100()()fxxxfxx 1x 2000:()()()Tangent line yf xfxxx1211()()fxxxfx牛
15、顿法也称为切线法牛顿法也称为切线法nRxxf, )(min)()(21)()()()()()(2)()()()(kkTkkTkkxxxfxxxxxfxfx 令0)(x )()()(1)(2)(kkkxfxfxxxxk )1()(:kd雅克比矩阵雅克比矩阵 :雅克比矩阵的定义很广泛,只要是向量间微积分运算过程中所涉及的包含偏微粉的行列式都可以叫雅克比矩阵。如果说的更精确点的话,雅克比矩阵可以认为是两个向量空间中对应的映射关系。想要了解雅克比矩阵首先要了解两个向量空间的关系。及将初始向量空间的基矢量表示为末尾向量空间的基矢量的函数,然后通过求导既可以知道雅克比矩阵的具体形式了。基于蚁群算法神经网络
16、中权 值和阈值的初始化仿真试验6/6/202257网络瘫痪问题网络瘫痪问题 在训练中,权可能变得很大,这会使神经元在训练中,权可能变得很大,这会使神经元的网络输入变得很大,从而又使得其激活函的网络输入变得很大,从而又使得其激活函数的导函数在此点上的取值很小。根据相应数的导函数在此点上的取值很小。根据相应式子,此时的训练步长会变得非常小,进而式子,此时的训练步长会变得非常小,进而将导致训练速度降得非常低,最终导致网络将导致训练速度降得非常低,最终导致网络停止收敛停止收敛 稳定性问题稳定性问题 用修改量的综合实施权的修改用修改量的综合实施权的修改连续变化的环境,它将变成无效的连续变化的环境,它将变成无效的 步长问题步长问题 BP网络的收敛是基于无穷小的权修改量网络的收敛是基于无穷小的权修改量步长太小,收敛就非常慢步长太小,收敛就非常慢步长太大,可能会导致网络的瘫痪和不稳步长太大,可能会导致网络的瘫痪和不稳定定自适应步长,使得权修改量能随着网络的自适应步长,使得权修改量能随着网络的训练而不断变化。训练而不断变化。1988年年Wasserman 此课件下载可自行编辑修改,供参考!感谢您的支持,我们努力做得更好!