1、第3章 音频信息的获取与处理 3.1 信号处理的基本术语信号处理的基本术语采样与量化采样长度的选择与频率分辨率 DFT和IDFT小波变换采样和量化 信号的数字化处理包括两个步骤,一个是信号在时间上的离散化,即采样;另一个是幅度上的离散化,即量化。采样也称抽样,是信号在时间上的离散化,即按照一定时间间隔t在模拟信号x(t)上逐点采取其瞬时值。它是通过采样脉冲和模拟信号相乘来实现的t=采样点之间的距离采样和量化量化是对幅值进行离散化,即将振动幅值用二进制量化电平来表示。量化电平按级数变化,实际的幅度值是连续的物理量。具体幅度值用舍入法归到靠近的量化电平上。对模拟信号采样首先要确定采样间隔。如何合理
2、选择t涉及到许多需要考虑的技术因素。过采样信号低采样产生的偏差信号采样定理sfmfsfmfsfmf采样定理证明,不产生频率混叠的最低采采样定理证明,不产生频率混叠的最低采样频率样频率 应为信号中最高频率应为信号中最高频率 的两倍,即即2考虑到计算机二进制表示考虑到计算机二进制表示=(2.564)方式的要求,一般取方式的要求,一般取采样长度的选择与频率分辨率 cfnnffcTtNntnffs1156.21156.2NnTfTTfNm2 采样长度就是采样时间的长短。对周期信号,理论上采集一个周期信号就可以了。实际上,考虑信号平均的要求等因素,采样总是有一定长度的,为了减少计算量,采样长度也不宜过长
3、。信号采样要有足够的长度,不但是为了保证信号的完整,而且是为了保证有较好的频率分辨率。设分析频率为,谱线数为,则频率分辨率为改用采样频率表示式中,=2.56为采样点数,为采样长度。=l/可知,对给定的分析频率,采样长度(由即分辨率越高。可见,频率分辨率是与采样长度呈反比的。在信号分析中,采样点数一般选为,使用较多的有512、1024、2048、4096等。)越大,就越小,DFT和IDFT傅立叶分析是将原始信号分解成不同频率成分的正弦波,将时域信号转变为频域信号的一种数学方法,在信号的分析和处理中有着十分重要的作用对数字信号,需要采用相关的离散化方法,这就是由傅立叶分析得到的离散傅立叶变换DFT
4、,其逆变换表示为IDFT。DFT和IDFT设是连续函数h(t)的N个采样值,则这N个点的宽度为N的DFT定义为IDFT定义为 称为N点DFT的变换核函数 称为N点IDFT的变换核函数1,1,0,10/2NkexXNnNnkjnk1,1,0,110/2NneXNxNkNnkjknNnkje/2Nnkje/2小波变换 一个小波是一个在有限周期内的波形,它的平均值为零。比较正弦波形和小波,正弦信号正是Fourier分析的基础,它没有限定的周期,它可以从负无穷扩展到正无穷,正弦信号是平滑并且是可预知的,小波信号是不规则的并且不对称。图3.3正弦信号和小波信号正弦波小波小波变换傅立叶分析是将信号分解为各
5、种频率的正弦信号,类似地,小波分析是将信号分解为滑动的、与母系小波成比例的各种子波。信号傅立叶变换不同频率的连续正弦子波dtetfwFjwt)()()(F)(tf傅里叶变换的数学表达式为这个变换的结果称为傅里叶系数,它表示为信号被一复指数(复指数可分解为实部和虚部组成的正弦成分)相乘后在所有时间范围内的积分。信号小波变换不同尺度与位置的连续小波)(tfdttpositionscaletfpositionscaleC),()(),(连续小波变换(Continuous Wavelet Transform,CWT)定义为信号被小波关于比例、滑移位置函数在所有时间内的积分。相乘CCCWT的结果包含了许
6、多小波系数,position的函数。每个系数乘以合适的标度和滑移位置小波可得出原始信号不同成分的小波。是scale和)(tf)(t假定小波函数=,当时,小波图形分别如图3-6所示。图3-6 标度因素变化的曲线=1,2,4小波变换小波变换可以使得信号的低频长时特性和高频短时特性同时得到处理,具有良好的局部化性质,能有效地克服傅氏变换在处理非平稳复杂信号时存在的局限性,具有极强的自适应性。由于小波变换能够有效地解决方块效应和基本上解决蚊式噪声,所以小波变换已经成为当今图像压缩编码的主要研究方向。数字音频基础 模拟音频和数字音频 数字音频的文件格式 在多媒体计算机中,存储声音信息的文件格式主要有WA
7、V文件、VOC文件、MIDI 文件、AIF文件、SNO文件及RMI文件等 波形音频波形音频 波形音频是多媒体计算机获得声音最直接、最简便的方式。在这种方式中,通常以麦克风、立体声录音机或CD激光唱盘等作为声音信号的输入源,声卡以一定的采样频率和量化级对输入声音进行数字化,将其从模拟声音信号转换为数字信号(模/数转换),然后以适当的格式存在硬盘上。记录下来的声音重放时,声卡将文件中的数字信号还原成模拟信号(数/模转换),经混音器混合后由扬声器输出。波形文件是Windows所使用的标准数字音频文件,文件的扩展名是.WAV,记录了对实际声音进行采样的数据。优点:在适当的硬件及计算机控制下,使用波形文
8、件能够重现各种声音。主要缺点:是产生的文件太大,不适合长时间记录。VOC文件文件 VOC文件是Creative公司波形音频文件格式,也是声卡使用的音频文件格式。每个VOC文件由文件头块和音频数据块组成。文件头包含一个标识、版本号和一个指向数据块起始的指针。VOC格式音频文件的文件头如下:(1)00H13H字节。文件类型说明。前19个字节包含正文:Creative Voice File。最后是EOF字节(1AH)。(2)14H15H字节。其值为001AH。(3)16H17H字节。文件的版本号。(4)18H19H字节。是一个识别码。由这个代码可以检验其文件是否是真正的VOC文件。MIDI文件文件
9、MIDI音频是多媒体计算机产生声音(特别是音乐)的另一种方式,可以满足长时间音乐的需要。由于MIDI文件记录的不是声音本身,因此它比较节省空间。与波形文件不同的是,MIDI文件(扩展名为.MID)并不对音乐进行采样,而是将每个音符记录为一个数字,MIDI标准规定了各种音调的混合及发音,通过输出装置就可以将这些数字重新合成为音乐。与波形文件相比,MIDI文件要小得多,例如,同样半小时的立体声音乐,MIDI文件只有200KB左右,而波形文件(.WAV)则要差不多300MB。CMF文件文件 CMF文件(creative music file)也是随声卡一起诞生的,是它自带的MIDI文件存储格式。CD
10、音频音频 CD音频是一种数字化声音,以16位量化级、44.1kHz 采样率的立体声存储,可完全重现原始声音,每片CD唱盘能记录约74min这种质量的音乐节目。在多媒体计算机上输出CD音频信号一般有两种途径,一种是通过CD-ROM驱动器前端的耳机插孔输出,另一种使用特殊连线接入声卡放大后由扬声器输出。音频信号的特点 在多媒体系统中,音频信号可分为两类:语音信号和非语音信号。音频信号处理的特点如下:(1)音频信号是时间依赖的连续媒体。因此音频处理的时序性要求很高。如果在时间上有25ms的延迟,就会感到断续。(2)由于人接收声音有两个通道(左耳、有耳),因此为使计算机模拟自然声音,也应有两个声道,即
11、理想的合成声音应是立体声。(3)由于语音信号不仅仅是声音的载体,同时还携带了情感的意向,故对语音信号的处理不仅是信号处理问题,还要抽取语意等其他信息,因此可能会涉及语言学、社会学、声学等。3D音频 随着软、硬件的不断发展,传统的双声道单层面立体声音场,已经不能满足人们的需要。为了得到更好的立体感受和空间感受,科学家借助数字化音频生成了一种全新的声音-模拟3D音频。DirectSound 3D Aureal3D EAX Sensaura IAS 声卡的组成与工作原理 声卡的功能(1)录制、编辑和回放数字声音文件录制、编辑和回放数字声音文件。(2)控制声音源的音量,混合后再数字化(3)记录和回放数
12、字声音文件时进行压缩和解压缩以节省存储语音文件的磁盘空间(4)文语转换与语音识别(5)MIDI接口和音乐合成 声卡的技术指标声卡的技术指标 采样率与量化位采样率与量化位 衡量声卡录制和重放声音质量的主要参数是采样率与量化位(也称为分辨率或解析度),采样率与量化位越大,录制和重放声音质量与原始声音就越接近。FM合成与波形表合成与波形表 FM合成法就是通过正弦波相互调制来模拟真实的乐器声音。这种方法成本较低,但也导致了在游戏或音乐演奏中产生的音效与实际的乐器明显不同。现今声卡的FM合成通常是使用日本Yamaha公司生产的OPL-2(老式声卡上的芯片,也叫做M3812,可合成11种单声道的声音)或O
13、PL-3(也叫做YMF262,可合成11种单声道的声音)合成芯片。较好的声卡采用的是波形表合成技术来实现音乐合成(即所谓的波表卡)。波形表包含有真实乐器声音波形的数字记录,在演奏时将相应乐器的波形记录播放出来。为了与原有的FM合成声卡的兼容性,波表卡上的合成芯片能完成FM合成的所有功能,如Yamaha公司非常流行的OPL-4(可运行为较早的OPL-2和OPL-3芯片编写的所有程序)就是典型的波表合成芯片。兼容性兼容性 外围接口外围接口 音频压缩音频压缩 DSP芯片芯片 软件支持软件支持 声卡的分类声卡的分类 按应用环境分类按应用环境分类 按照声卡的应用环境,声卡基本可以分为DOS/GAME和W
14、indows两种环境。这两种声卡分别以Sound Blaster和Windows Sound System为代表。前者Sound Blaster是 GAME声卡的事实标准,几乎所有的DOS环境下的游戏都支持Sound Blaster。从声卡的技术角度分类从声卡的技术角度分类 从声卡所采用的技术上来看,声卡主要可分为3类:一是DSP技术为基础的声卡。二是全硬件声卡。三是结合一类和二类两种声卡的优点,采用有限可编程控制器,使声卡具有一定能力的自管理功能,又不至于成本太高、复杂的声卡。根据总线的不同分类根据总线的不同分类 根据总线的不同,把声卡分为两大类,一类是ISA声卡,另一类是PCI声卡,由于两
15、种端口不能互相通用,因此在安插声卡时不能插错。主板上的ISA插槽是黑色的,比PCI 槽长,其中的金属簧片也比PCI的宽;PCI插槽呈白色,相对较短,其中的簧片很细,分布密集。当然还可以按照声卡的组成结构分为普通声卡和集成主板的声卡。按照声卡取样分辨率的位数不同,可分为8位声卡、准16位声卡、真16位声卡、32位声卡等。按照声卡功能的不同,可分为单声道声卡、真立体声声卡、准立体声卡等。声卡的组成和布局声卡的组成和布局 MIDI/GAME端口端口I/O接口接口 CD-ROM接口接口 声音处理芯片声音处理芯片 功率放大芯片功率放大芯片 跳线和跳线和SB-link接口接口 声卡的组成I/O接口接口 声
16、卡的工作原理 音频卡的工作原理的主要组成部分声音的合成与处理 混合信号处理器及功率放大器 计算机总线接口和控制器 SPDIF数字音频接口 SPDIF是SONY、PHILPS数字音频接口的简称。就传输载体而言,SPDIF又分为同轴和光纤两种。就传输方式而言,SPDIF分为输出(SPDIF OUT)和输入(SPDIF IN)两种。目前大多数的声卡芯片都能够支持SPDIF OUT。SPDIF在多媒体声卡上应用的优势和不足在多媒体声卡上应用的优势和不足 在目前的家用多媒体声卡上,SPDIF同轴电信号输出主要用来传输Dolby Digital AC-3信号和连接纯数字音箱。光纤输出则主要用来连接MD等数
17、码音频设备,以实现几乎无损的音频录制。SPDIF IN主要应用于传输数字CD信号,也就是让计算机以数字方式播放唱片。SPDIF是传输通道:数字音箱与数字声卡的关系 唱片数字式播放的问题 音频卡的发展和改进 改善声音质量改善声音质量 统一音频卡标准统一音频卡标准 简化安装的即插即用音频卡简化安装的即插即用音频卡 三维环绕立体声三维环绕立体声 全双工声音处理全双工声音处理 与通信技术的结合与通信技术的结合 单一芯片单一芯片 音频编码基础和标准 音频编码的基础音频编码的基础 从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分
18、别从时域和频域来考虑。另外由于语音主要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。时域信息的冗余度时域信息的冗余度(1)幅度的非均匀分布(3)周期之间的相关(2)样本间的相关(4)基音之间的相关(5)静止系数)静止系数(6)长时自相关函数)长时自相关函数 频域信息的冗余度频域信息的冗余度(1)非均匀的长时功率谱密度(2)语音特有的短时功率谱密度人的听觉感知机理人的听觉感知机理(1)人的听觉具有掩蔽效应 声音在不同时间先后发生时,强声使其周围的弱声难以听见的现象称为异时掩蔽。(2)人耳对不同频段的声音的敏感程度不同,通常对低频端较之对高频端更敏感即使是对同样声压级的声音,人耳实际
19、感觉到的音量也是随频率而变化的。(3)人耳对语音信号的相位变化不敏感音频编码的分类音频编码的分类(1)基于音频数据的统计特性进行编码(2)基于音频的声学参数进行参数编码(3)基于人的听觉特性进行编码 音频编码标准 当前编码技术发展的一个重要方向就是综合现有的编码技术,制定全球的统一标准,使信息管理系统具有普遍的互操作性并确保未来的兼容性。国际上,对语音信号压缩编码的审议在CCITT下设的第15研究组进行,相应的建议为G系列,多由ITU发表。算法名称资料率(kb/s)标准应用质量波形编码PCM均匀量化公共网ISDN配音4.04.5(A)(A)64G.711APCM自适应量化DPCM差值量化ADP
20、CM自适应差值量化32G.721SB-ADPCM子带自适应差值量化64G.7225.36.3G.723参数编码LPC线性预测编码2.4保密话声2.53.5混合编码CELPC码激励LPC4.6移动通信4.03.7VSELP向量和激励LPC8语音邮件RPE-LTP长时预测规则码激励13.2ISDNLD-CELP低延时码激励LPC16G.728G.729MPEG多子带感知编码128CD5.0AC-3感知编码音响5.0G.711 本建议公布于1972年,它给出话音信号编码的推荐特性。话音的取样率为8 kHz,允许偏差是5010-6。每个样值采用8位二进制编码,推荐使用A律和律编码。本建议中分别给出了A
21、律和律的定义,它是将13位的PCM按A律、14位PCM按律转换为8位编码。主要用于公共电话网中。G.721 这个建议用于这个建议用于64 kb/s的的A律和律和律律PCM与与32 kb/s的的ADPCM之间的转换。之间的转换。G.722G.722建议的宽带音频压缩仍采用波形编码技术,因为要保证既能适用于话音,又能用于其他方式的音频,只能考虑波形编码。G.722编码采用了高低两个子带内的ADPCM方案,高低子带的划分以4 kHz为界,然后再对每个子带内采用类似G.721建议的ADPCM编码,因此G.722建议的技术方案可以简写为SB-ADPCM(子带自适应差分脉冲码调制)。G.728为了进一步降
22、低压缩的速率,CCITT于1992年制定了G.728标准,使用基于低时延码本激励线性预测编码(LD-CELP)算法,其速率为16kb/s,主要用于公共电话网中。MPEG音频编码标准 MPEG音频编码标准具有可伸缩性,根据采用的压缩因子的不同可以获得不同的音质。MPEG采用分层编码方式,其层次与压缩因子的关系如下表所示 MP3 MP3是MPEG Audio Layer3的缩写,它是一种超级声音文件的压缩方法,具有文件小、音质佳的特点。MPEG是由音频和视频两部分组成的,可以分别进行压缩。MPEG在音频上的压缩可以分为MPEG Layer1、MPEG Layer2 和MPEG Layer3(如表所
23、示)。MP4压缩技术 MP4最初是一种音频格式,使用的是MPEG-2AAC(Advanced Audio Coding,先进音频编码)技术。它的特点是音质更加完美而压缩比更大(15:120:1)。MPEG-2AAC在采样频率为896kHz时可提供148个声道可选范围的高质量音频编码。AAC适用于从比特率为8kb/s单声道的电话语音音质到160kb/s多声道超高质量音频信号范围内的编码,并且允许对多媒体进行编码/解码,增加了诸如对立体声的完美再现、比特流效果音扫描、多媒体控制、降噪等MP3没有的特性,使得在音频压缩后仍能完美的再现CD的音质。MP4的特点 MP4除了采用了先进的音频压缩技术之外,
24、最重要的是,它采用特殊的技术实现了数码版权保护,这是MP3所无法比拟的。由于AAC有版权保护功能,要使自己的播放器支持AAC,除了需要支付一定的版权费或专利费,采用AAC编码音频文件的来源也是个问题,不像MP3那么开放,网上来源极少,这使得MP4推广难度大大增加。目前市场上的MP4多数是多媒体播放器,能够播放AAC的很少,这种播放器其实不算是MP4,本质上是MP3,视频播放只不过是其附件功能。音乐合成音乐合成 自1976年应用调频(FM)音乐合成技术以来,其乐音已经很逼真。1984年又开发出另一种更真实的音乐合成技术波形表合成。目前这两种音乐合成技术都应用于多媒体计算机的音频卡中。一个乐音必备
25、的三要素是:音高、音色和响度。若把一个乐音放在运动的旋律中,它还应具备时值持续时间。这些要素的理想配合是产生优美动听的旋律的必要条件。MIDI规范规范 MIDI是乐器数字接口(Musical Instrument Digital Interface)的英文缩写,是数字音乐/电子合成乐器的统一国际标准。MIDI规范不仅定义了电脑音乐程序、音乐合成器及其它电子音乐设备交换音乐信号的方式,而且还规定了不同厂家的电子乐器与电脑连接的电缆和硬件及设备间数据传输的协议,可用于为不同乐器创建数字声音,能很容易地模拟钢琴、小提琴等传统乐器的声音。相对于保存真实采样数据的声音文件,MIDI文件显得更加紧凑,其文
26、件的大小要比WAV文件小得多 MIDI本身并不能发出声音,它是一个协议,只包含用于产生特定声音的指令,而这些指令则包括调用何种MIDI设备的音色、声音的强弱及持续的时间等。电脑把这些指令交由声卡去合成相应的声音(如依指令发出钢琴声或小提琴声等)。电脑播放MIDI文件时,有两种方法合成声音:FM合成和波表合成。MIDI 规范语音识别语音识别 语音识别技术就是让计算机通过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费
27、电子产品等各个领域。语音识别语音识别 人们对于计算机语音学的研究主要包括以下几个方面:语音编码、语音合成、语音识别、语种识别、说话人识别或说话人确认等。随着计算机处理和存储能力的不断增强,如何把大量信息输入计算机成为日益突出的问题,而语音识别就提供了一种最自然、最方便的方法。随着计算机的普及,越来越多的人在使用计算机,如何给不熟悉计算机的人提供一个友好的人机交互手段,也逐渐引起了人们的重视,而语音识别技术就是其中最自然的一种交流手段。所以,随着计算机技术与应用的发展,语音识别也引起了越来越多人的关注。语音识别的发展和分类 对于机器识别语音的研究,可以追溯到20世纪50年代。1952年美国的Da
28、vis等研究成功了世界上第一个识别10个英文数字发音的实验系统。在20世纪50年代后期,我国也曾经研制出一套“自动语音识别器”,用来识别汉语的10个元音。1960年,Denes 等研究成功了第一个计算机语音识别系统,从此开始了计算机语音识别的正式阶段。进入20世纪70年代之后,语音识别,尤其是小词汇量、特定人、孤立词的识别方面,取得了许多实质性的进展,像线性预测分析技术(LPC)、动态时间规划算法(DTW)、矢量量化技术(VQ)等都已经在语音识别领域得到了广泛的应用。语音识别的发展和分类 从20世纪70年代后期开始,语音识别技术开始沿着3个不同方向来扩展研究领域:特定人向非特定人扩展;孤立词向
29、连接词扩展;小词汇量向大词汇量扩展。在具体的应用系统中,采用了更加复杂的聚类算法,同时也产生了新的基于动态规划的匹配算法。语音识别的发展和分类自20世纪80年代中期以来,新技术的不断出现使语音识别有了实质性的进展。特别是隐马尔可夫模型(HMM)的研究和广泛应用,推动了语音识别的迅速发展,陆续出现了许多基于HMM模型的语音识别系统。其中美国CMU的Sphinx系统被认为是20世纪80年代末至20世纪90年代初的典型代表,该系统在英语的大词汇量非特定人连续语音识别方面能够达到97%的识别率。IBM的Tangora20及后来推出的商业系统 VoiceType 3.0等也具有相当的水准,诸如此类的实际
30、系统还有DRAGON公司的 Dragon Dictate系统等 语音识别的发展和分类 当前,语音识别领域的研究正方兴未艾。在这方面的新算法、新思想和新的应用系统不断涌现。同时,语音识别领域也正处在一个非常关键的时期,世界各国的研究人员正在向语音识别的最高层次应用非特定人、大词汇量、连续语音的听写机系统的研究和实用化系统进行冲刺。可以乐观地说,人们所期望的语音识别技术实用化的梦想很快就会变成现实。语音识别系统的分类 (1)按可识别的词汇量多少,语音识别系统可分为小、中、大词汇量3种。(2)按照语音的输入方式,语音识别的研究集中于对孤立词、连接词和连续语音的识别。(3)按发音人可分为特定人、限定人
31、和非特定人语音识别3种。(4)对说话人的声纹进行识别称为说话人识别。这是研究如何根据语音来辨别说话人的身份、确定说话人的姓名。汉语语音识别系统的应用 1汉语本身的特点对语音识别系统的影响 汉语与西方语言(例如英语)相比,在语音识别方面具有如下的一些优势:(1)汉语是音节性很强的语言,每个字都是以单音节为单位的。汉语一共只有400 多个音节,加上四声后也只有1340个左右,这表明只用很少的识别基元就可以通过组合来覆盖几乎所有的语言现象。(2)汉语音节的构成比较简单和规整,一般是由声母和韵母组成,个别的仅含有韵母。这使得我们根据其组成特点,采用全音节、声韵母或半音节等来作为识别基元的策略都是可行的
32、。(3)汉语是一种有调语言,每个音节发音时间较长,且有较稳定的有调段,这一点对把握连续语音中的语气有很大的帮助。若能够将音调信息加入语音识别系统中,将可以大大提高听写机语言模型分辨同音字词,提高纠错能力。(4)汉语音节的协同发音和音变问题不如英语等其他语种普遍,相对发音较为稳定,这对于声学层面上的识别是很有利的。汉语本身的特点对语音识别系统的影响 与其他西方语言相比,汉语语音识别具有如下一些难点:(1)汉语的同音字太多。常用字为10000左右,而按照有调音节为1340左右来计算,平均每个音节拥有同音字大约为7至8个。中国地域辽阔,各地方言发音差异较大,再加上同一种方言中总是存在着许多发音差异很
33、小的声韵母,这就给声学层识别和语言层纠错带来了不少困难。(2)汉语是一种内涵语言,实际上下文环境甚至语气和语调都对意义的理解起决定性的作用。同时由于汉语的语义单元是词,由于汉语构词法的复杂、词的边界不确定、动词没有明显的时态或单复数变化、对语言处理缺乏提示等,因而决定了语言模型处理的对象具有很高的复杂度。语音识别的应用语音邮件集成数据库输人和询问应用 语音命令和控制应用 习题1数字音频采样和量化过程所用的主要硬件是什么?2目前音频卡具备哪些功能?31984年公布的音频编码标准G.721采用的是什么编码方式?4简述AC-3数字音频编码提供了5个声道的频率范围。5简述MIDI的音乐合成器的原理。6简述音频编码的分类及常用编码算法和标准。