1、第第10章章 声源定位声源定位麦克风阵列模型麦克风阵列模型房间回响模型房间回响模型概述概述双耳听觉定位原理及方法双耳听觉定位原理及方法麦克风阵列的声源定位方法麦克风阵列的声源定位方法总结与展望总结与展望10.1概述概述声源定位技术主要是研究系统接收到的语音信号相对于接声源定位技术主要是研究系统接收到的语音信号相对于接收传感器是来自什么方向和什么距离,即方向估计和距离收传感器是来自什么方向和什么距离,即方向估计和距离估计。声源定位是一个有广泛应用背景的研究课题,其在估计。声源定位是一个有广泛应用背景的研究课题,其在军用、民用、工业上都有广泛应用。军用、民用、工业上都有广泛应用。声源定位技术的内容
2、涉及了信号处理、语言科学、模式识声源定位技术的内容涉及了信号处理、语言科学、模式识别、计算机视觉技术、生理学、心理学、神经网络以及人别、计算机视觉技术、生理学、心理学、神经网络以及人工智能技术等多种学科。一个完整的声源定位系统包括声工智能技术等多种学科。一个完整的声源定位系统包括声源数目估计、声源定位和声源增强(波束形成)。目前的源数目估计、声源定位和声源增强(波束形成)。目前的声源定位研究主要分为两类:基于仿生的双耳声源定位算声源定位研究主要分为两类:基于仿生的双耳声源定位算法和基于麦克风阵列的声源定位算法。法和基于麦克风阵列的声源定位算法。应用应用被动声定位器被动声定位器 应用应用Huma
3、noid Robot HRP-2 ICRA 2004Humanoid Robot HRP-2 ICRA 2004应用应用助听器方向性麦克风技术助听器方向性麦克风技术应用应用声相仪声相仪10.2双耳听觉定位原理及方法双耳听觉定位原理及方法人类听觉系统对声源的定位机理主要是由于人的头部以及人类听觉系统对声源的定位机理主要是由于人的头部以及躯体等对入射的声波具有一定的散射作用,以致到达人双躯体等对入射的声波具有一定的散射作用,以致到达人双耳时,两耳采集的信号存在着时间差(相位差)和强度差耳时,两耳采集的信号存在着时间差(相位差)和强度差(声级差)。对于频率较高的声音,还要考虑声波的绕射(声级差)。对
4、于频率较高的声音,还要考虑声波的绕射性能。由于到达两耳处的声波状态的不同,造成了听觉的性能。由于到达两耳处的声波状态的不同,造成了听觉的方位感和深度感,这就是常说的方位感和深度感,这就是常说的“双耳效应双耳效应”。不同方向上的声源会使两耳处产生不同的(但是特定的)不同方向上的声源会使两耳处产生不同的(但是特定的)声波状态,从而使人能由此判断声源的方向位置。总的来声波状态,从而使人能由此判断声源的方向位置。总的来说,利用双耳听觉在水平面内的声源定位要比垂直面内的说,利用双耳听觉在水平面内的声源定位要比垂直面内的声源定位精确得多,后者存在较大的个体差异。声源定位精确得多,后者存在较大的个体差异。1
5、0.2.1 10.2.1 人耳听觉定位原理人耳听觉定位原理人耳可以听到频率在人耳可以听到频率在20Hz-20kHz范围内的声音。人耳听觉范围内的声音。人耳听觉系统有两个重要的特性,一个是耳蜗对于声信号的分频特系统有两个重要的特性,一个是耳蜗对于声信号的分频特性;另一个是人耳听觉掩蔽效应。人耳对声源目标的水平性;另一个是人耳听觉掩蔽效应。人耳对声源目标的水平方位评估相比其垂直仰角而言,则要精确的多。方位评估相比其垂直仰角而言,则要精确的多。在混响环境中,优先效应起到重要作用,它是心理声学的在混响环境中,优先效应起到重要作用,它是心理声学的特性之一。所谓的优先效应,当同一声源的直达声和反射特性之一
6、。所谓的优先效应,当同一声源的直达声和反射声被人耳听到时,听音者会将声源定位在直达声传来的方声被人耳听到时,听音者会将声源定位在直达声传来的方向上,因为直达声首先到达人耳处,即使反射声的密度比向上,因为直达声首先到达人耳处,即使反射声的密度比直达声高直达声高10dB。当将优先效应用在混响环境中识别语音时,。当将优先效应用在混响环境中识别语音时,就产生了哈斯效应。哈斯观察早期反射声时,发现早期反就产生了哈斯效应。哈斯观察早期反射声时,发现早期反射声只要到达人耳足够的早将不会影响语音的识别,相反射声只要到达人耳足够的早将不会影响语音的识别,相反的由于增加了语音的强度而有利于语音的识别。的由于增加了
7、语音的强度而有利于语音的识别。10.2.2 10.2.2 人耳声源定位线索人耳声源定位线索(1)双耳定位线索)双耳定位线索不同方向上的声源会使两耳处产生不同的(但是特定的)不同方向上的声源会使两耳处产生不同的(但是特定的)声波状态,从而使人能由此判断声源的方向位置。在实际声波状态,从而使人能由此判断声源的方向位置。在实际应用中涉及到的定位线索主要有:应用中涉及到的定位线索主要有:ITD、ILD、双耳相位差、双耳相位差(IPD)、双耳音色差()、双耳音色差(Interaural Timbre Difference)以)以及直达声和环境反射群所产生的差别。及直达声和环境反射群所产生的差别。在低中频
8、(在低中频(f5.0kHz时,时,双耳声级差是定位的主要因素,与时间差形成互补。总的双耳声级差是定位的主要因素,与时间差形成互补。总的来说,双耳时间差和声级差涵盖了整个声音频率范围。来说,双耳时间差和声级差涵盖了整个声音频率范围。10.2.2 10.2.2 人耳声源定位线索人耳声源定位线索(2)耳廓效应)耳廓效应耳廓效应的本质就是改变不同空间方向声音的频谱特性,耳廓效应的本质就是改变不同空间方向声音的频谱特性,也就是说人类听觉系统功能上相当于梳状滤波器,将不同也就是说人类听觉系统功能上相当于梳状滤波器,将不同空间方向的声音进行不同的滤波。耳廓具有不规则的形状,空间方向的声音进行不同的滤波。耳廓
9、具有不规则的形状,形成一个共振腔。当声波到达耳廓时,一部分声波直接进形成一个共振腔。当声波到达耳廓时,一部分声波直接进入耳道,另一部分则经过耳廓反射后才进入耳道。由于声入耳道,另一部分则经过耳廓反射后才进入耳道。由于声音到达的方向不同,不仅反射声和直达声之间强度比发生音到达的方向不同,不仅反射声和直达声之间强度比发生变化,而且反射声与直达声之间在不同频率上产生不同的变化,而且反射声与直达声之间在不同频率上产生不同的时间差和相位差,使反射声与直达声在鼓膜处形成一种与时间差和相位差,使反射声与直达声在鼓膜处形成一种与声源方向位置有关的频谱特性,听觉神经据此判断声音的声源方向位置有关的频谱特性,听觉
10、神经据此判断声音的空间方向。空间方向。10.2.2 10.2.2 人耳声源定位线索人耳声源定位线索(3)头相关传输函数)头相关传输函数从某一个方位的声源发出的声信号在到达听者的耳膜之前从某一个方位的声源发出的声信号在到达听者的耳膜之前必然与听者的头部、肩部以及躯干、耳廓发生了反射、折必然与听者的头部、肩部以及躯干、耳廓发生了反射、折射、散射以及衍射等声学作用,其既与声源相对于听者的射、散射以及衍射等声学作用,其既与声源相对于听者的方向有关,也因人体部位形状及大小的不同而存在个体差方向有关,也因人体部位形状及大小的不同而存在个体差异。人体的这些部位对声信号的影响可以统一用一个函数异。人体的这些部
11、位对声信号的影响可以统一用一个函数来表示,即头部相关传输函数来表示,即头部相关传输函数 HRTF。HRTF描述了声波描述了声波从声源到双耳的传输过程,它是综合了从声源到双耳的传输过程,它是综合了 ITD、ILD 和频谱和频谱结构特性的声源定位模型。在自由场情况下,结构特性的声源定位模型。在自由场情况下,HRTF定义定义为:为:00( , , ,)( , , ,)( ,)( , , ,)( , , ,)( ,)LLLRRRP lfHHlfP l fP lfHHlfP l f 10.2.3 10.2.3 声源估计方法声源估计方法对于不同的信号频率,双耳时间差对于不同的信号频率,双耳时间差模型有一定
12、的变化规律,可以用参模型有一定的变化规律,可以用参数化形式表示:数化形式表示: 其中,其中,f是与频率相关的尺度因子。是与频率相关的尺度因子。反转模型就可以得到水平角度反转模型就可以得到水平角度,如下式所示:如下式所示: 上式不能通过普通方法求解方程,上式不能通过普通方法求解方程,可使用切比雪夫序列获得的多项式可使用切比雪夫序列获得的多项式近似,进而获得近似,进而获得g-1的近似表示:的近似表示: (sin)( , )frITDfc1( ,)fcgITDfr351( )2961280 xxxgx10.3麦克风阵列模型麦克风阵列模型麦克风阵列结构就是一定数量的麦克风按照一定空间放置麦克风阵列结构
13、就是一定数量的麦克风按照一定空间放置而构成的麦克风组,也称为麦克风阵列的拓扑结构。麦克而构成的麦克风组,也称为麦克风阵列的拓扑结构。麦克风近场和远场模型的判断公式为:风近场和远场模型的判断公式为:r2L2/ 。近场和远场模型下不同的拓扑结构所构成的导向向量也不近场和远场模型下不同的拓扑结构所构成的导向向量也不相同。不同的导向向量携带的信息也不同,声源近场模型相同。不同的导向向量携带的信息也不同,声源近场模型中所携带的信息不仅有距离、时延,还有声源空间位置;中所携带的信息不仅有距离、时延,还有声源空间位置;而声源远场模型中携带的仅仅是声源的空间位置信息,即而声源远场模型中携带的仅仅是声源的空间位
14、置信息,即方位和俯仰。此外,阵元间距也直接影响声源定位的结果,方位和俯仰。此外,阵元间距也直接影响声源定位的结果,而阵元个数可以适当的提高定位精度。而阵元个数可以适当的提高定位精度。10.3.1 10.3.1 窄带阵列信号处理模型窄带阵列信号处理模型10.3.1 10.3.1 窄带阵列信号处理模型窄带阵列信号处理模型假设麦克风阵由假设麦克风阵由M个全向麦克风组成,信号源的个数为个全向麦克风组成,信号源的个数为P,所有到达阵列的波可近似为平面波。将第一个阵元设为参所有到达阵列的波可近似为平面波。将第一个阵元设为参考阵元,则到达参考阵元的第考阵元,则到达参考阵元的第j个信号为:个信号为:由于信号满
15、足窄带假设条件,则由于信号满足窄带假设条件,则zj(t-)zj(t) ,此时理想情,此时理想情况下第况下第i个阵元接收到的信号可以表示为:个阵元接收到的信号可以表示为: 此时,整个麦克风阵接收到得信号为:此时,整个麦克风阵接收到得信号为: ,1,2,jjtjjs tz t ejP 1Pijijjjx tstnt 1aMiiits ttttXNASN10.3.2 10.3.2 麦克风阵列信号模型麦克风阵列信号模型假设假设P个声源个声源 Sj,M个无差异全向个无差异全向麦克风麦克风 Di。设声源为点源,位置。设声源为点源,位置矢量为矢量为 :当麦克风阵列应用于室外或者大当麦克风阵列应用于室外或者大
16、型会议室等环境时,声源与麦克型会议室等环境时,声源与麦克风阵列相距较远,此时可采用简风阵列相距较远,此时可采用简化的麦克风阵列的远场信号模型。化的麦克风阵列的远场信号模型。时延可表示为:时延可表示为:sincos sinsin cosjjiiiiiSr()/cos/()/ijjijijiSDScDcuDc10.3.2 10.3.2 麦克风阵列信号模型麦克风阵列信号模型1)均匀线阵)均匀线阵均匀线阵是一最简单常用的阵列形式。均匀线阵是一最简单常用的阵列形式。M个阵元等距离排列成个阵元等距离排列成一直线,阵元间距为一直线,阵元间距为d。考虑到声源频率在。考虑到声源频率在1003400Hz之间,之间
17、,因此在空气中波长相应为因此在空气中波长相应为10340厘米。综合考虑空间采样定厘米。综合考虑空间采样定理,阵列尺寸等因素,阵元间距一般为理,阵列尺寸等因素,阵元间距一般为515厘米。厘米。等距线阵的流形矩阵为:等距线阵的流形矩阵为:111222111222111222sincos()/sincos()/sincos()/(1) sincos()/(1) sincos()/(1) sincos()/a,a,a,111 PPPPPPPPPjdcjdcjdcjMdcjMdcjMdceeeeee A10.3.2 10.3.2 麦克风阵列信号模型麦克风阵列信号模型2)均匀圆阵)均匀圆阵均匀圆周阵列简称
18、均匀圆阵(均匀圆周阵列简称均匀圆阵(UCA,Uniform Circular Array),是平面阵列。阵列的有效估计是二维的,能够同时),是平面阵列。阵列的有效估计是二维的,能够同时确定信号的方位角和仰角。确定信号的方位角和仰角。均匀圆阵相对于波达方向的信号的导向向量为:均匀圆阵相对于波达方向的信号的导向向量为:12a, jjjjj MjTjjjjjjeee 10.4房间回响模型房间回响模型在声源定位、信号提取、回波抵消等语音信号处理算法中,在声源定位、信号提取、回波抵消等语音信号处理算法中,建立一个灵活、合理的房间混响模型对算法运行、评估具建立一个灵活、合理的房间混响模型对算法运行、评估具
19、有重要的作用。有重要的作用。Allen和和Berkley在文献中提出的在文献中提出的IMAGE法法是构建房间混响模型最常用的方法之一。是构建房间混响模型最常用的方法之一。常见的房间声学环境仿真方法主要分为波动方程模型、射常见的房间声学环境仿真方法主要分为波动方程模型、射线模型和统计模型三种。线模型和统计模型三种。1 1) 房间模型的意义房间模型的意义2 2) 仿真原理与方法仿真原理与方法麦克风和第麦克风和第i个虚拟声源的距离可表示为:个虚拟声源的距离可表示为:此时,虚拟源到原点的距离为此时,虚拟源到原点的距离为每个虚拟源的延迟点数为每个虚拟源的延迟点数为1 ( 1)( 1)2iiisrmxxi
20、xx 222ijkijkdxyz( )ijkijksdutfc1( 1)( 1)2jjjsrmyyiyy 1 ( 1)( 1)2kkksrmzzizz 2 2) 仿真原理与方法仿真原理与方法定义单位脉冲响应函数定义单位脉冲响应函数 为为影响回响幅度的因素主要有两种:影响回响幅度的因素主要有两种:1)声源到麦克风的距离:幅度系数反比于距离,即)声源到麦克风的距离:幅度系数反比于距离,即2)声波反射个数:如果所有墙壁的反射系数)声波反射个数:如果所有墙壁的反射系数 相同,则墙壁系相同,则墙壁系数数 定义为定义为 则最终的幅度系数为则最终的幅度系数为综上所述,单位脉冲响应综上所述,单位脉冲响应 为为
21、 1,0()0,ijkijkijkuauothers1ijkijkbdijkijkwrrijkijkijkebr( )nnnijkijkin jn knh tae3 3) 麦克风接收信号的模拟麦克风接收信号的模拟获得单位脉冲响应获得单位脉冲响应 后,麦克风接收到的信号为后,麦克风接收到的信号为 此处,此处, hi(t)代表麦克风和声源对建立的脉冲响应,代表麦克风和声源对建立的脉冲响应, pi(t)代表实代表实际的声源信号。际的声源信号。1( )( )*( )niiis th tp t10.5 麦克风阵列的声源定位方法麦克风阵列的声源定位方法基于麦克风阵列的声源定位算法大致可以分为三类:基于基于
22、麦克风阵列的声源定位算法大致可以分为三类:基于可控波束形成器的声源定位算法、基于到达时间差的声源可控波束形成器的声源定位算法、基于到达时间差的声源定位算法和基于高分辨率谱估计的声源定位算法。定位算法和基于高分辨率谱估计的声源定位算法。1)基于最大输出功率的可控波束形成技术:对麦克风阵)基于最大输出功率的可控波束形成技术:对麦克风阵列接收到的语音信号进行滤波、加权求和,然后直接控制列接收到的语音信号进行滤波、加权求和,然后直接控制麦克风指向使波束有最大输出功率的方向;麦克风指向使波束有最大输出功率的方向;2)基于到达时间差的定位算法:首先求出声音到达不同)基于到达时间差的定位算法:首先求出声音到
23、达不同位置麦克风的时间差,再利用该时间差求得声音到达不同位置麦克风的时间差,再利用该时间差求得声音到达不同位置麦克风的距离差,最后用搜索或几何知识确定声源位位置麦克风的距离差,最后用搜索或几何知识确定声源位置;置;3)基于高分辨率谱估计的定向算法:利用求解麦克风信)基于高分辨率谱估计的定向算法:利用求解麦克风信号间的相关矩阵来定出方向角,从而进一步定出声源位置。号间的相关矩阵来定出方向角,从而进一步定出声源位置。10.5.1 10.5.1 基于最大输出功率的可控波束形成算法基于最大输出功率的可控波束形成算法该方法的优点是可以一步完成定位,且在最大似然意义上是该方法的优点是可以一步完成定位,且在
24、最大似然意义上是最优的,同时对不相关的噪声有抑制作用。最优的条件有两最优的,同时对不相关的噪声有抑制作用。最优的条件有两个:个:1)接收到的噪声是加性噪声、彼此互不相关、方差均一)接收到的噪声是加性噪声、彼此互不相关、方差均一且数值不大;且数值不大;2)声源到麦克风距离相等。但是,在实际情况)声源到麦克风距离相等。但是,在实际情况下,存在反射以及复杂的噪声影响,会影响该方法的精度。下,存在反射以及复杂的噪声影响,会影响该方法的精度。10.5.2 10.5.2 基于到达时间差的定位算法基于到达时间差的定位算法基于到达时间差的定位算法的运算量较小,实时性效果比较基于到达时间差的定位算法的运算量较小
25、,实时性效果比较好,而且硬件成本低。基于好,而且硬件成本低。基于TDE的声源定位算法一般要分为的声源定位算法一般要分为两个步骤:第一,先进行时延估计,并确定麦克风阵列中不两个步骤:第一,先进行时延估计,并确定麦克风阵列中不同麦克风对同源语音信号的到达时间差(同麦克风对同源语音信号的到达时间差(TDOA);第二,就);第二,就是根据测定出的是根据测定出的TDOA和各个麦克风的几何位置,通过双曲方和各个麦克风的几何位置,通过双曲方程,来最终确定声源的方位和距离。程,来最终确定声源的方位和距离。时延估计算法的方法有很多,其中广义互相关法运用最为广时延估计算法的方法有很多,其中广义互相关法运用最为广泛
26、。广义互相关法通过求两信号之间的互功率谱,并在频域泛。广义互相关法通过求两信号之间的互功率谱,并在频域内给予一定的加权,来抑制噪声和反射的影响,再反变换到内给予一定的加权,来抑制噪声和反射的影响,再反变换到时域,得到两信号之间的互相关函数。而互相关函数的峰值时域,得到两信号之间的互相关函数。而互相关函数的峰值处,就是两信号之间的相对时延。广义互相关法就是在功率处,就是两信号之间的相对时延。广义互相关法就是在功率谱域对信号进行加权,突出相关的信号部分并抑制受噪声干谱域对信号进行加权,突出相关的信号部分并抑制受噪声干扰的部分,从而使相关函数在时延处的峰值更为突出。扰的部分,从而使相关函数在时延处的
27、峰值更为突出。10.5.2 10.5.2 基于到达时间差的定位算法基于到达时间差的定位算法两麦克风接收到信号的广义互相关函数两麦克风接收到信号的广义互相关函数 可表示为:可表示为:2*121202*121202*12120( )( )( )( )( )( )( )( )( )( )jjjRYYedFFXXedXXed10.5.2 10.5.2 基于到达时间差的定位算法基于到达时间差的定位算法名称广义互相关加权函数 ROTH平滑相干变换(SCOT)互功率谱相位(CSP或PHAT)Eckart加权最大似然加权(ML)HB加权12( )1 1121( )=( )x xG1 12 2121( )=(
28、)( )x xx xGG1 2121( )=( )x xG1 12 212( )( )=( )( )ssn nn nGGG1 22122( )( )=( ) (1( ) )x xG 1 21 12 212( )( )=( )( )x xx xx xGGG10.5.3 10.5.3 基于高分辨率谱估计的定位算法基于高分辨率谱估计的定位算法特征子空间类算法,是现代谱估计最重要的算法之一,通特征子空间类算法,是现代谱估计最重要的算法之一,通过对阵列接收数据作数学分解,划分为两个相互正交的子过对阵列接收数据作数学分解,划分为两个相互正交的子空间:与信号源的阵列流形空间一致的信号子空间,和与空间:与信号
29、源的阵列流形空间一致的信号子空间,和与信号子空间正交的噪声子空间。子空间分解类算法,就是信号子空间正交的噪声子空间。子空间分解类算法,就是利用两个子空间的正交特性,构造出利用两个子空间的正交特性,构造出“针状针状”空间谱峰,空间谱峰,从而大大提高算法的分辨力。子空间分解类算法从处理方从而大大提高算法的分辨力。子空间分解类算法从处理方式上大致可以分为两种:一类是以式上大致可以分为两种:一类是以MUSIC为代表的噪声子为代表的噪声子空间类算法;一类是以旋转不变子空间(空间类算法;一类是以旋转不变子空间(ESPRIT)为代表)为代表的信号子空间类算法。以的信号子空间类算法。以MUSIC为代表的算法包
30、括特征矢为代表的算法包括特征矢量法、量法、MUSIC以及求根以及求根MUSIC法等;以法等;以ESPRIT为代表的为代表的算法主要有算法主要有TAM、LS-ESPRIT以及以及TLS-ESPRIT等。等。10.6 总结与展望总结与展望根据这些新的发展,依然可以进一步进行下面的研究:根据这些新的发展,依然可以进一步进行下面的研究:1)结合定位与增强的方法,对麦克风阵列的实际工作性)结合定位与增强的方法,对麦克风阵列的实际工作性能进行进一步的实验,得到麦克风阵列的工作参数,并对能进行进一步的实验,得到麦克风阵列的工作参数,并对阵列本身的性能与参数的关系进行详细分析。阵列本身的性能与参数的关系进行详细分析。2)改变麦克风阵列的拓扑结构,对更加复杂的拓扑结构)改变麦克风阵列的拓扑结构,对更加复杂的拓扑结构(如二维阵列或三维阵列)进行探讨,甚至对无规则形状(如二维阵列或三维阵列)进行探讨,甚至对无规则形状的拓扑结构进行理论分析与实验证明。的拓扑结构进行理论分析与实验证明。3)对于复杂环境,可使用多组麦克风阵列的协同定位,)对于复杂环境,可使用多组麦克风阵列的协同定位,对各阵列间的信息融合方法进行探讨。对各阵列间的信息融合方法进行探讨。4)利用麦克风阵列与成熟的语音识别系统共同构建功能)利用麦克风阵列与成熟的语音识别系统共同构建功能更丰富的智能拾音系统。更丰富的智能拾音系统。