1、数字语音处理及MATLAB仿真 张雪英编著1数字语音处理及数字语音处理及MATLAB仿真仿真太原理工大学信息工程学院太原理工大学信息工程学院 张雪英编著张雪英编著College of Information Engineering, Taiyuan University of Technology 数字语音处理及MATLAB仿真 张雪英编著22课程总括课程总括课程性质课程性质1 课程目的和任务课程目的和任务 2课程重点课程重点 3课程难点课程难点 4数字语音处理及MATLAB仿真 张雪英编著3课程性质课程性质 语音信号处理是通信、电子信息专业的选语音信号处理是通信、电子信息专业的选修课程,主要
2、用于现代通信和电子信息领域,修课程,主要用于现代通信和电子信息领域,其主要前修专业基础课程为信号与系统和数字其主要前修专业基础课程为信号与系统和数字信号处理。信号处理。 数字语音处理及MATLAB仿真 张雪英编著4课程目的和任务课程目的和任务 通过本课程的学习理解语音发声和听觉机理通过本课程的学习理解语音发声和听觉机理及其数字模型;掌握语音信号处理的基本概念、及其数字模型;掌握语音信号处理的基本概念、原理和方法,为以后的学习提供理论依据;掌握原理和方法,为以后的学习提供理论依据;掌握语音信号的短时时域分析和频域分析方法,并且语音信号的短时时域分析和频域分析方法,并且能够用能够用MatlabMa
3、tlab语言编程实现对实际语音信号进行语言编程实现对实际语音信号进行的处理;熟悉语音信号处理的应用领域,并了解的处理;熟悉语音信号处理的应用领域,并了解该领域的新理论、新技术和发展趋势,为今后的该领域的新理论、新技术和发展趋势,为今后的进一步学习和工作打下坚实的基础。进一步学习和工作打下坚实的基础。数字语音处理及MATLAB仿真 张雪英编著5课程重点课程重点 语音信号的产生和语音信号数字模型。短时语音信号的产生和语音信号数字模型。短时能量、平均过零率、自相关的意义,以及这些特能量、平均过零率、自相关的意义,以及这些特征 参 量 在 语 音 信 号 中 的 应 用 , 并 且 会 用征 参 量
4、在 语 音 信 号 中 的 应 用 , 并 且 会 用MATLAB实现。短时频域分析的两种解释以及实现。短时频域分析的两种解释以及实现、实现、LPC的基本原理以及与语音模型的关系、的基本原理以及与语音模型的关系、自适应量化的自适应量化的PCM,自适应预测编码原理以及,自适应预测编码原理以及前馈和反馈的主要区别,另外增量调制中所造成前馈和反馈的主要区别,另外增量调制中所造成的失真以及失真补偿。矢量量化原理、的失真以及失真补偿。矢量量化原理、LBG算算法以及实验法以及实验。 数字语音处理及MATLAB仿真 张雪英编著6课程难点课程难点 语音信号的产生和激励、端点检测和基音周语音信号的产生和激励、端
5、点检测和基音周期的估计、用数学公式来证明短时频谱是如何反期的估计、用数学公式来证明短时频谱是如何反映整个语音信号的频谱的、映整个语音信号的频谱的、LPC方程组解法、自方程组解法、自适应预测编码原理、适应预测编码原理、LBG算法以及实验中的分帧算法以及实验中的分帧和基音周期检测。和基音周期检测。 数字语音处理及MATLAB仿真 张雪英编著7第第1 1章章 绪论绪论1.1 概述概述11.2 语音信号处理的发展语音信号处理的发展21.3 语音信号处理的应用及新方向语音信号处理的应用及新方向31.4 语音信号处理过程的总体结构语音信号处理过程的总体结构41.5 MATLAB在数字语音信号处在数字语音信
6、号处 理中的应用理中的应用 5数字语音处理及MATLAB仿真 张雪英编著8 语音信号处理是一门新兴的边缘学科,是语音语音信号处理是一门新兴的边缘学科,是语音学与数字信号处理两个学科相结合的产物。它和认学与数字信号处理两个学科相结合的产物。它和认知科学、心理学、语言学、计算机科学、模式识别知科学、心理学、语言学、计算机科学、模式识别和人工智能等学科有着紧密的联系。和人工智能等学科有着紧密的联系。 语音信号处理的目的:语音信号处理的目的: 得到某些语音特征参数得到某些语音特征参数以便高效地传输或存储;以便高效地传输或存储; 通过某种处理运算以达到某种用途的要求通过某种处理运算以达到某种用途的要求。
7、 1.1 概述概述 数字语音处理及MATLAB仿真 张雪英编著9 语音信息的交换大致上可以分为三大类:语音信息的交换大致上可以分为三大类: (1)人与人之间的语言通信:)人与人之间的语言通信: 包括语音压缩与编码、语音增强等。包括语音压缩与编码、语音增强等。 (2)第一类人机语言通信问题:)第一类人机语言通信问题: 语音合成,机器讲话、人听话的研究。语音合成,机器讲话、人听话的研究。 (3)第二类人机语言通信问题:)第二类人机语言通信问题:语音识别和理解语音识别和理解 语音识别和理解:人讲话、机器听话的情况。语音识别和理解:人讲话、机器听话的情况。 数字语音处理及MATLAB仿真 张雪英编著1
8、0突破进展突破进展系统论述语言系统论述语言产生的声学理论产生的声学理论语谱图仪问世语谱图仪问世 语谱图语谱图语音,语音合成语音,语音合成1.2 语音信号处理的发展语音信号处理的发展 计算机计算机1贝尔电话贝尔电话的发明的发明 3用声学方法对元音和用声学方法对元音和歌唱进行了研究歌唱进行了研究 2第一个第一个声码器声码器 1876年年1939年年 19世纪世纪60年代年代 420世纪世纪40年代年代 1948年年 67基础研究方面基础研究方面 技术应用领域技术应用领域 5数字语音处理及MATLAB仿真 张雪英编著111.2 语音信号处理的发展语音信号处理的发展 1语音合成语音合成3语音编码语音编
9、码2语音识别语音识别语音编码语音编码数字语音处理及MATLAB仿真 张雪英编著121.2.1 语音合成语音合成 以语言信息压缩、存储为主要目的对语音信以语言信息压缩、存储为主要目的对语音信号数字模型进行研究,同时研究音素、音节、词号数字模型进行研究,同时研究音素、音节、词组与句子的发音规则。最终恢复出自然流畅的语组与句子的发音规则。最终恢复出自然流畅的语音来。例如文语转换系统音来。例如文语转换系统(Text-to-speech)。语音。语音分析与合成将赋予分析与合成将赋予计算机说话计算机说话的功能。也是进行的功能。也是进行话音编码、语音识别研究的基础。话音编码、语音识别研究的基础。数字语音处理
10、及MATLAB仿真 张雪英编著131.2.2 语音编码语音编码 语音编码的目的:语音编码的目的: 在保证一定语音质量的前提下,尽可能降低在保证一定语音质量的前提下,尽可能降低编码比特率,以节省频率资源。编码比特率,以节省频率资源。 数字语音处理及MATLAB仿真 张雪英编著141.2.2 语音编码 语音编码与文本到语音转换两个主要区别语音编码与文本到语音转换两个主要区别 一、前者是人与人之间的话音交流,要保一、前者是人与人之间的话音交流,要保留说话人的声音特征。后者是文本到声音的转换留说话人的声音特征。后者是文本到声音的转换即计算机发声。它可以是标准播音员或其它声音。即计算机发声。它可以是标准
11、播音员或其它声音。 二、前者不仅对压缩率和音质有要求,而二、前者不仅对压缩率和音质有要求,而且要求较低的编、解码延迟。而后者对处理帧长且要求较低的编、解码延迟。而后者对处理帧长没有什么太严格的限制。没有什么太严格的限制。数字语音处理及MATLAB仿真 张雪英编著151.2.3 语音识别语音识别 研究如何使研究如何使计算机能够听懂人类的语言计算机能够听懂人类的语言。以以汉语语音为例:汉语约有汉语语音为例:汉语约有400400个音节,加上声调约个音节,加上声调约12001200个音调节,把这些语音信号的特征存储到计个音调节,把这些语音信号的特征存储到计算机内,并与计算机接收到的汉语发音进行比较,算
12、机内,并与计算机接收到的汉语发音进行比较,找到特征相同的音节或音调节,这个过程就是语找到特征相同的音节或音调节,这个过程就是语音识别。将识别出的音节序列转换成文字,就是音识别。将识别出的音节序列转换成文字,就是语言理解。许多算法将理解过程溶入到识别中来语言理解。许多算法将理解过程溶入到识别中来提高识别的准确性。因此可以将语音识别与理解提高识别的准确性。因此可以将语音识别与理解归入同一类应用。归入同一类应用。 数字语音处理及MATLAB仿真 张雪英编著16 语音识别研究领域包括:语音识别研究领域包括: (1 1)根据对说话人说话方式的要求,可以分)根据对说话人说话方式的要求,可以分为孤立字语音识
13、别系统,连接字语音识别系统以为孤立字语音识别系统,连接字语音识别系统以及连续语音识别系统。及连续语音识别系统。 (2 2)根据对说话人的依赖程度可以分为特定)根据对说话人的依赖程度可以分为特定人和非特定人语音识别系统。人和非特定人语音识别系统。 (3 3)根据词汇量大小,可以分为小词汇量、)根据词汇量大小,可以分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别中等词汇量、大词汇量以及无限词汇量语音识别系统。系统。 数字语音处理及MATLAB仿真 张雪英编著171.3 语音信号处理的应用及新方向 语音技术的应用领域语音技术的应用领域 包括语音识别、说话人的鉴别和确认、语种的鉴包括语音识别、
14、说话人的鉴别和确认、语种的鉴别和确认、关键词检测和确认、语音合成、语音别和确认、关键词检测和确认、语音合成、语音编码等。编码等。 但其中最具有挑战性和最富有应用前景的为但其中最具有挑战性和最富有应用前景的为语音语音识别技术。识别技术。 一:语音信号处理的应用一:语音信号处理的应用数字语音处理及MATLAB仿真 张雪英编著18 1. 说话人识别技术的应用说话人识别技术的应用 安全加密、银行信息电话查询服务安全加密、银行信息电话查询服务 公安机关破案和法庭取证方面公安机关破案和法庭取证方面 在声控应用中,识别输入的语音内容,并根据内容来执行相在声控应用中,识别输入的语音内容,并根据内容来执行相应的
15、动作,这包括了声控电话转换、声控语音拨号系统、声应的动作,这包括了声控电话转换、声控语音拨号系统、声控智能玩具、信息网络查询、家庭服务、宾馆服务、旅行社控智能玩具、信息网络查询、家庭服务、宾馆服务、旅行社服务系统、医疗服务、股票查询服务和工业控制等。服务系统、医疗服务、股票查询服务和工业控制等。数字语音处理及MATLAB仿真 张雪英编著19 1. 说话人识别技术的应用说话人识别技术的应用 在电话与通信系统中,智能语音接口正在把在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的电话机从一个单纯的服务工具变成为一个服务的“提供者提供者”和生活和生活“伙伴伙伴”。 目前
16、,自动口语分析、用户交换机、电话机、目前,自动口语分析、用户交换机、电话机、手机已经包含了语音识别拨号功能,还有语音记事手机已经包含了语音识别拨号功能,还有语音记事本、语音智能玩具等产品也包含了语音识别与语音本、语音智能玩具等产品也包含了语音识别与语音合成功能。人们可以通过电话网络用语音识别口语合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息。对话系统查询有关的机票、旅游、银行信息。数字语音处理及MATLAB仿真 张雪英编著20 2. 语音合成的应用语音合成的应用 公交汽车上的自动报站、各种场合的自动报公交汽车上的自动报站、各种场合的自动报时、自动报警、手机查
17、询服务和各种文本校对中时、自动报警、手机查询服务和各种文本校对中的语音提示、在电信声讯服务:如股票、售后服的语音提示、在电信声讯服务:如股票、售后服务、车站查询等信息;也可用于基于微型机的办务、车站查询等信息;也可用于基于微型机的办公、教学、娱乐等智能多媒体软件,例如语言学公、教学、娱乐等智能多媒体软件,例如语言学习、教学软件、语音玩具、语音书籍等;也可与习、教学软件、语音玩具、语音书籍等;也可与语音合成技术与机器翻译技术结合,实现语音翻语音合成技术与机器翻译技术结合,实现语音翻译等。译等。数字语音处理及MATLAB仿真 张雪英编著21 3. 语音编码的应用语音编码的应用 在移动通信、卫星通信
18、、军事保密通信、信息在移动通信、卫星通信、军事保密通信、信息高速公路和高速公路和IP电话通信中的应用。电话通信中的应用。 在个人移动通信、语音存储、多媒体通信、数在个人移动通信、语音存储、多媒体通信、数字数据网字数据网(DDN)中的应用。中的应用。 未来的未来的ISDN、卫星通信、移动通信、微波接、卫星通信、移动通信、微波接力通信和信息高速公路以及保密电话等中的应用。力通信和信息高速公路以及保密电话等中的应用。数字语音处理及MATLAB仿真 张雪英编著22 二、语音信号处理的新方向二、语音信号处理的新方向 (1)基于语音的信息检索。网络技术及数字图书馆)基于语音的信息检索。网络技术及数字图书馆
19、 技术的发展,基于语音识别的信息检索技术正成为技术的发展,基于语音识别的信息检索技术正成为研究热点。研究热点。 (2)基于语音识别的广播新闻的自动文摘技术的研)基于语音识别的广播新闻的自动文摘技术的研究。由于广播、电视中的发音较为标准规范,在识究。由于广播、电视中的发音较为标准规范,在识别中避免了说话人发音上的不规范,有利于语音识别中避免了说话人发音上的不规范,有利于语音识别系统性能的提高。别系统性能的提高。数字语音处理及MATLAB仿真 张雪英编著23 二、语音信号处理的新方向二、语音信号处理的新方向 (3)VoIP技术。是通过技术。是通过TCP/IP网络,而不是传统的网络,而不是传统的电话
20、网络来传输语音的新的通信方式,通常称之为电话网络来传输语音的新的通信方式,通常称之为IP电话技术。在网络上对压缩的语音数据以数据包电话技术。在网络上对压缩的语音数据以数据包的形式进行传输和识别。的形式进行传输和识别。 (4)语音训练与校正技术。现在越来越多的人希望)语音训练与校正技术。现在越来越多的人希望掌握其他非母语语言,以便方便的进行交流。因此掌握其他非母语语言,以便方便的进行交流。因此语言学习机已成为当今外语学习者的有利工具。语言学习机已成为当今外语学习者的有利工具。数字语音处理及MATLAB仿真 张雪英编著24 二、二、语音信号处理的新方向语音信号处理的新方向 (5)语种识别。是近年来
21、新出现的研究方向,通过)语种识别。是近年来新出现的研究方向,通过分析处理一个语音片断来判别其所属语音的种类,分析处理一个语音片断来判别其所属语音的种类,本质上属于语音识别的研究范畴。本质上属于语音识别的研究范畴。 (6)基于语音的情感处理研究。在人与人的交流中,)基于语音的情感处理研究。在人与人的交流中,除了语音信息外,非语言信息也起着重要的作用。除了语音信息外,非语言信息也起着重要的作用。为了使人机交流更自然、更人性化,基于语音的情为了使人机交流更自然、更人性化,基于语音的情感处理研究也是非常必要的。感处理研究也是非常必要的。数字语音处理及MATLAB仿真 张雪英编著251.4 语音信号处理
22、过程的总体结构语音信号处理过程的总体结构图图1.1 信号处理和加工的一般示意图信号处理和加工的一般示意图信号提取与利用信号提取与利用信号变换信号变换信号表示信号表示观察与测量观察与测量信号源信号源信息加工和处理的一般流程如图信息加工和处理的一般流程如图1.1所示所示 数字语音处理及MATLAB仿真 张雪英编著26语音输入语音输入预处理预处理数字化数字化特征提取特征提取合成合成传输传输参考模式库参考模式库模式匹配模式匹配识别结果识别结果压缩处理压缩处理识别识别训练训练语音识别语音识别解压缩解压缩存储存储语音输出语音输出图图1.2 语音处理过程的结构框图语音处理过程的结构框图语音处理过程的结构框图
23、语音处理过程的结构框图数字语音处理及MATLAB仿真 张雪英编著271.5 MATLAB在数字语音信号处在数字语音信号处理中的应用理中的应用 数字语音信号处理是将数字信号处理与语音学数字语音信号处理是将数字信号处理与语音学相结合,解决现代通信领域中人与人、人与机器之相结合,解决现代通信领域中人与人、人与机器之间的信息交流的学科。间的信息交流的学科。 MATLAB是一种功能强大、效率高、交互性是一种功能强大、效率高、交互性好的计算机高级语言。好的计算机高级语言。 近年来近年来MATLAB已成为学习语音信号处理和已成为学习语音信号处理和进行研究工作的仿真软件工具。进行研究工作的仿真软件工具。 数字
24、语音处理及MATLAB仿真 张雪英编著28 MATLAB在数字语音信号中的几方面应用:在数字语音信号中的几方面应用: (1)通过)通过MATLAB可以对数字化的语音信号进可以对数字化的语音信号进行时频域分析。行时频域分析。 (2)通过)通过MATLAB可以对数字化的语音信号进可以对数字化的语音信号进行估计和判别。行估计和判别。 (3)通过利用)通过利用MATLAB编程对语音信号进行处编程对语音信号进行处理理 本书中的程序实例均用本书中的程序实例均用MATLAB语言编写,供语言编写,供大家上机实践时参考。大家上机实践时参考。数字语音处理及MATLAB仿真 张雪英编著29数字语音信号处理研究内容数
25、字语音信号处理研究内容涉及三方面相互密切配合的任务和课题:涉及三方面相互密切配合的任务和课题:1. 应用应用2. 基础理论和算法基础理论和算法3. 硬件系统硬件系统数字语音处理及MATLAB仿真 张雪英编著30 1. 应用方面应用方面 通信产业起源于通信产业起源于1874年电话的发明。从那时年电话的发明。从那时起,通信产业大致发生了三次重大变革。起,通信产业大致发生了三次重大变革。 (1)第一次变革产生于七十年代初。)第一次变革产生于七十年代初。1972年年CCITT组织公布了第一个语音编码标准组织公布了第一个语音编码标准G.711。即对数即对数PCM编码,由此开始,数字程控交换网络编码,由此
26、开始,数字程控交换网络逐步淘汰了传统的模拟交换传输方式。逐步淘汰了传统的模拟交换传输方式。 数字语音处理及MATLAB仿真 张雪英编著31 (2 2)第二次重大变革产生于八十年代末。)第二次重大变革产生于八十年代末。19881988年年欧共体欧共体1313个国家数字移动特别工作组个国家数字移动特别工作组(GSM)(GSM)制定了制定了采用长时预测规则码激励的编码标准采用长时预测规则码激励的编码标准(13k bps (13k bps RPE-LTP)RPE-LTP)。 19891989年美国蜂窝通信工业协会年美国蜂窝通信工业协会(CITA)(CITA)宣布了宣布了北美数字移动通信话音编码标准北美
27、数字移动通信话音编码标准(8K bps(8K bps矢量和激矢量和激励励VSELP)VSELP)。从而确立了全球范围第二个传输网移。从而确立了全球范围第二个传输网移动通信产业的崛起。动通信产业的崛起。数字语音处理及MATLAB仿真 张雪英编著32 (3)第三次变革发生在世纪之交。以新兴的计算)第三次变革发生在世纪之交。以新兴的计算机因特网为基础的信息高速公路在全世界范围迅机因特网为基础的信息高速公路在全世界范围迅速发展。如何在速发展。如何在INTERNET网上有效地传输话音网上有效地传输话音成为产业界关注的焦点。成为产业界关注的焦点。IP电话将使因特网成为电话将使因特网成为第三个话音通信传输网
28、。目前第三个话音通信传输网。目前IP电话所用的话音电话所用的话音编码标准有编码标准有G.723.1、G.728、G.729等。这些标准等。这些标准各有长短。人们正在努力研究适合各有长短。人们正在努力研究适合IP电话的新的电话的新的编码算法。低延迟、低码率、低复杂性、高音质编码算法。低延迟、低码率、低复杂性、高音质的话音编码算法将是未来的话音编码算法将是未来IP电话网络的奠基石。电话网络的奠基石。 数字语音处理及MATLAB仿真 张雪英编著332. 基础理论和算法方面基础理论和算法方面 从以下方面进行:从以下方面进行: (1)语音产生的机理(发音)和感知机理(听)语音产生的机理(发音)和感知机理
29、(听) 涉及心理学、语音学、语言学、认知学、神经生涉及心理学、语音学、语言学、认知学、神经生理学等。理学等。 (2)将语音作为一种信号来处理)将语音作为一种信号来处理 常用方法常用方法: 数字滤波器(数字滤波器(FIR、IIR);快速付里);快速付里叶变换(叶变换(FFT);); 线性预测编码(线性预测编码(LPC);同态信号);同态信号处理等。处理等。 新的方法:神经网络、矢量量化、子波变换等新的方法:神经网络、矢量量化、子波变换等数字语音处理及MATLAB仿真 张雪英编著343. 硬件方面硬件方面 硬件系统硬件系统主要体现在内存容量和计算速度上。主要体现在内存容量和计算速度上。语 音 信 号 处 理 器 的 运 算 速 度 一 般 为语 音 信 号 处 理 器 的 运 算 速 度 一 般 为1020MIPS(Million Instructions Per Second),有的,有的可达可达50MIPS或或100MIPS, 对语音识别要求的存贮量对语音识别要求的存贮量达到若干达到若干MB。 实时语音语音处理系统的两种实现方式:实时语音语音处理系统的两种实现方式: A. 主从式:主机内插上一块或多块主从式:主机内插上一块或多块DSP处理板。处理板。 B. 脱机工作方式:通用脱机工作方式:通用DSP芯片及辅助芯片构芯片及辅助芯片构成。成。