1、人工智能应用概论课件第5章-智能语音技术PARTPART1 1智能语音技术的概念智能语音技术的概念 创新中国是由中央电视台联合深圳市委宣传部于2018年1月22日推出的一部纪录片,该片主要讲述了最新科技成就和创新精神,用鲜活的故事记录中国伟大的创新实践。这部聚焦前沿科学突破与科技热点,以鲜活故事记录当下中国创新实践的纪录片,还以一种特殊的方式联结科技与人文:利用智能语音和人工智能技术,让已逝的著名配音艺术家李易老师的声音重现荧幕,完成了整部纪录片的配音。这也是全球第一部全篇采用人工智能配音的纪录片。【案例】【案例】1.1 智能语音技术的概念1.1.1 自动语音识别(Automatic Spee
2、ch Recognition,ASR)广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。本书重点介绍语音识别技术(ASR)。自动语音识别是指让机器识别人说出的话,即将语音转换成相应的文本内容,然后根据内容信息执行人的某种意图。自动语音识别又称自动言语识别,这项任务涉及将输入声学信号与存储在计算机内存的词表(语音、音节、词等)相匹配,而匹配个别语词的标准技术则要用输入信号与预存的波形(或波形特征/参数)相比较(模型匹配)。1.1 智能语音技术的概念1.1.2 声纹识别(Voiceprint Recognition,VR)声纹识别,生物识别技术的一种,也称为说话人识别,包括说话人
3、辨认和说话人确认。声纹识别就是把声信号转换成电信号,再用计算机进行识别。不同的任务和应用会使用不同的声纹识别技术,如缩小刑侦范围时可能需要辨认技术,而银行交易时则需要确认技术。声纹识别有两种应用场景:1:1验证(简称验证,Verification),比如显示为女朋友/老婆的电话号打来,接听之后发现声音不是她,那就让人紧张;1:n验证(又称识别,Identification),比如陌生电话打来,对方说一句字面上没有任何意义的老王,是我啊,如果真是熟人,你就能很快辨得TA的身份,如果认为不是,那就有可能是某省的人打来的了。1.1 智能语音技术的概念1.1.3 语音合成(Text to Speech
4、,TTS)语音合成,又称文语转换(Text to Speech)技术,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。1.1 智能语音技术的概念1.1.4 机器翻译源语言-目标语言。产品形态主要有三大类;翻译机、翻译手机和翻译耳机。1.1 智能语音技术的概念1.1.5 对话机器人对话机器人历史悠久,从1966年MIT的精神治疗师机器人ELIZA到现在已有半个世纪。针对用户不同类型的问题,常见的对话机器人有如下几种类型:检索型单轮对话机器人检索型单轮对话机器人:简单问题的提问和回答;知识图谱型机器人知识图谱型机器人:知识图谱型机器人(KG-Bot,也称为问答系统),
5、利用知识图谱进行推理并回答一些事实型问题。任务型多轮对话机器人任务型多轮对话机器人:任务型多轮机器人(Task-Bot)通过多次与用户对话交互来辅助用户完成某项明确具体的任务。闲聊型机器人闲聊型机器人:真实应用中,用户与系统交互的过程中不免会涉及到闲聊成分。闲聊功能可以让对话机器人更有情感和温度。1.1 智能语音技术的概念1.1.6 声学事件检测 声学事件检测是指对连续音频信号流中具有明确语义的片段进行检测与标定的过程。它是机器对环境声音场景进行识别和语义理解的重要基础,并将在未来类人机器人声音环境的语义理解、无人车行车周边环境的声音感知等方面发挥重要的作用。1.2 语音识别发展历程概述 语音
6、识别技术的研究起始于20世纪50年代,由于受到当时计算能力的限制,直到20世纪70年代才出现了一些实验性研究成果。自21世纪以来,语音识别技术取得了许多突破,并得到了广泛的应用。当前,尽管语音识别技术相对成熟,但在大规模语音语料的实时采集与精准标注、特定语种的音素集设计与优化、语音识别的鲁棒性增强等方面依然面临诸多难题。1.2 语音识别发展历程 1952年,美国贝尔实验室的Davis等人率先研制出了一个针对特定人的独立数字识别系统,该系统能够成功识别10个英语数字1956年,Olson和Belar开发出的系统能够识别10个不同音节,1959年Fry和Denes开发的识别系统能够识别9个辅音和4
7、个元音,他们利用模板匹配技术和谱分析技术进一步改善了音素的识别精度。同期,在美国麻省理工学院(MIT)林肯实验室设计的ForgieandForgie元音识别系统利用带通滤波器能够针对非特定人识别10个元音。1.2 语音识别发展历程 20世纪60年代初,Faut和Stevens等人对语音生成的理论方法进行了探索性研究。1962年,东京大学的Doshita和Sakai通过分析语音的过零率识别不同的音素,设计开发了一种硬件实现的音素识别系统,同期,他们推出了对近30年来的语音识别技术产生了巨大影响的三个研究项目。RCA实验室的研究人员Martin提出了基于语音信号端点检测的时间归一化方法和能够解决语
8、音信号非匀速问题的实用方法,显著降低了语音识别得分的变化;Reddy在连续语音识别领域进行的开创性研究在连续语音识别系统领域至今仍处于领先地位。1.2 语音识别发展历程 20世纪70年代,语音识别研究领域又取得了一系列重大突破,孤立词的识别已经成为可能。模板匹配思想和动态规划方法在语音识别中得到了应用,ltakura将低比特率条件下的语音编码的LPC技术应用扩展到了语音识别领域,AT&T贝尔实验室开展了针对非特定人语音识别的实验,生成非特定人模型的技术得到了普遍认同与广泛应用。1.2 语音识别发展历程 20世纪80年代的标志性成果就是统计建模方法,研究重点由模板匹配方法逐步向统计建模方法转变,
9、特别是HMM被广泛应用到语音识别研究中。20世纪80年代中期,HMM模型被世界各国的语音识别研究者所熟悉和采纳,神经网络也成为了一个新的研究方向,该时期对神经网络技术的优点和局限性以及该技术与经典的信号分类方法之间的关系有了深刻的理解,由此促进了神经网络技术在语音识别领域的应用。20世纪80年代后期,人们开始研制大词汇量连续语音识别系统,主要研究成果多得益于美国DAPRA的支持,研究机构主要有CMU、林肯实验室、SRI、MIT和ATT贝尔实验室。1.2 语音识别发展历程 进入20世纪90年代,语音识别研究的成果开始走出实验室,并且达到了商用目的。这一时期的研究热点包括鲁棒的语音识别、基于语音段
10、的建模方法、声学语音学统计模型、隐马尔可夫模型与人工神经网络的结合等,而研究重点集中在听觉模型、讲者自适应、快速搜索识别算法及语言模型。同期,最大似然线性回归(MLLR)、最大后验概率准则估计(MAP)、以决策树状态聚类等算法被提出和应用,进一步提升了系统的性能,由此催生了一批商用语音识别系统,比如DragonSystem公司的Naturally Speaking、IBM公司的ViaVoice、Microsoft公司的Whisper、Nuance公司的NuanceVoicePlatform语音平台、Sun公司的VoiceTone等。在美国DARPA和NIST研究计划的推动下,更多新的语音识别任
11、务被不断尝试并取得了更优的识别性能,当前国外的相关应用系统以Apple公司推出的Siri为龙头。1.2 语音识别发展历程 21世纪以来,语音识别在技术突破和应用研究两方面不断深入。在置信度和句子确认方面提出了针对口语的健壮性语音识别,这些技术对处理复杂的病句非常有效。利用区分性训练技术训练声学模型也取得了显著的效果。在实际应用方面,语音搜索、综合音频和视频的多模态语音识别技术受到广泛关注。随着计算机技术和信号处理技术的快速发展,健壮性语音识别已达到真正意义上的应用,能够实现自由的人机交互。当前,作为人机交互接口的关键技术,自动语音识别已成为信息技术领域最为关注的技术之一,并逐渐形成一个颇具竞争
12、性的新兴高技术产业,自动语音识别系统的实用化水平将成为未来的研究重点。1.3 智能语音的应用场景概述 智能语音技术是最早落地的人工智能技术,也是市场上众多人工智能产品中应用最为广泛的。伴随着人工智能的快速发展,中国在智能语音技术的专利数量持续增长,通过庞大的用户群基础以及互联网系统优势明显,国内智能语音公司已经占据一席之地。智能语音应用的场景非常丰富,并已经成熟地应用在众多领域中。1.3 智能语音的应用场景1.3.1 智能家居 智能家居是以住宅为平台,利用综合布线技术、网络通信技术、安全防范技术、自动控制技术、音视频技术将家居生活有关的设施集成,构建高效的住宅设施与家庭日程事务的管理系统,提升
13、家居安全性、便利性、舒适性、艺术性,并实现环保节能的居住环境。1.3 智能语音的应用场景1.3.2 智能车载 智能车载系统让汽车变得更智能,主要可以实时更新的地图,通过语音识别技术方便导航,以及娱乐功能;实现手机远程控制,让手机和汽车之间无缝对接。1.3 智能语音的应用场景1.3.3 智能客服 智能客服是在大规模知识处理基础上发展起来的一项面向行业应用的,它具有行业通用性,不仅为企业提供了细粒度知识管理技术,还为企业与海量用户之间的沟通建立了一种基于自然语言的快捷有效的技术手段;同时还能够为企业提供精细化管理所需的统计分析信息。1.3 智能语音的应用场景1.3.4 智能金融 智能金融即人工智能
14、与金融的全面融合,以人工智能、大数据、云计算、区块链等高新科技为核心要素,全面赋能金融机构,提升金融机构的服务效率,拓展金融服务的广度和深度,使得全社会都能获得平等、高效、专业的金融服务,实现金融服务的智能化、个性化、定制化。1.3 智能语音的应用场景1.3.5 智能教育 智能教育是指国家实施新一代人工智能发展规划、中国教育现代化2035、高等学校人工智能创新行动计划等人工智能多层次教育体系的人工智能教育。1.3 智能语音的应用场景1.3.6 智能医疗 智能医疗是通过打造健康档案区域医疗信息平台,利用最先进的物联网技术,实现患者与医务人员、医疗机构、医疗设备之间的互动,逐步达到信息化。PART
15、PART2 2语音识别工作原理语音识别工作原理2.1 智能语音工作原理 首先,我们知道声音实际上是一种波。常见的mp3等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如Windows PCM文件,也就是俗称的wav文件。wav文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。2.1 智能语音工作原理 在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为VAD,需要用到信号处理的一些技术。要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗
16、函数来实现。帧与帧之间一般是有交叠的,就像下图这样:图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。图中,每帧的长度为25毫秒,每两帧之间有25-10=15毫秒的交叠。我们称为以帧长25ms、帧移10ms分帧。2.1 智能语音工作原理 分帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取MFCC特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中,这一步有很多细节,声学特征也不止有MFCC
17、这一种,具体这里不讲。至此,声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。2.1 智能语音工作原理接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念:音素音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调。状态状态:这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成3个状态。语音识别是怎么工作的呢?无非是:第一步,把帧识别成状态
18、(难点);第二步,把状态组合成音素;第三步,把音素组合成单词。2.1 智能语音工作原理 图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语音识别的结果也就出来了。2.1 智能语音工作原理 那每帧音素对应哪个状态呢?有个容易想到的办法,看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。比如下面的示意图,这帧对应S3状态的概率最大,因
19、此就让这帧属于S3状态。那这些用到的概率从哪里读取呢?有个叫“声学模型”的东西,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做“训练”,需要使用巨大数量的语音数据。2.1 智能语音工作原理 但这样做有一个问题:每一帧都会得到一个状态号,最后整个语音就会得到一堆乱七八糟的状态号,相邻两帧间的状态号基本都不相同。假设语音有1000帧,每帧对应1个状态,每3个状态组合成一个音素,那么大概会组合成300个音素,但这段语音其实根本没有这么多音素。如果真这么做,得到的状态号可能根本无法组合成音素。实际上,相邻帧的状态应该大多数都是相同的才合理,因为每帧很短。解决
20、这个问题的常用方法就是使用隐马尔可夫模型(Hidden Markov Model,HMM)。这东西听起来好像很高深的样子,实际上用起来很简单:第一步,构建一个状态网络。第二步,从状态网络中寻找与声音最匹配的路径。2.1 智能语音工作原理 这样就把结果限制在预先设定的网络中,避免了刚才说到的问题,当然也带来一个局限,比如你设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径,那么不管说些什么,识别出的结果必然是这两个句子中的一句。那如果想识别任意文本呢?把这个网络搭得足够大,包含任意文本的路径就可以了。但这个网络越大,想要达到比较好的识别准确率就越难。所以要根据实际任务的需求,合理选
21、择网络大小和结构。搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的累计概率最大累计概率最大,这称之为“解码”。2.1 智能语音工作原理这里所说的概率,由三部分构成,分别是:观察概率观察概率:每帧和每个状态对应的概率转移概率转移概率:每个状态转移到自身或转移到下个状态的概率语言概率语言概率:根据语言统计规律得到的概率其中,前两种概率从声学模型中获取,最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要,如果不使用语言模型,当状态网络较大
22、时,识别出的结果基本是一团乱麻。这样基本上语音识别过程就完成了。PARTPART3 3小试牛刀小试牛刀3.1 讯飞输入法带你飞手机安装讯飞输入法,观察该应用有哪些语音相关功能以及操作体验。3.2 腾讯语音识别电脑浏览器访问如下网站,体验腾讯云平台的语音识别能力,观察识别准确率如何。https:/ 4本章小结本章小结【本章小结】【本章小结】本章对智能语音技术的概念、发展历程、技术原理都做了介绍,大家应该对智能语音有一定的了解,但当前,语音识别技术发展迅速,衡量语音识别系统优劣的最直观标准就是识别率,而决定识别率的因素有很多种,如声学模型、语言模型、发音词典、声学模型训练语料的规模、语言模型训练语料的规模及纯净度、字音转换的效率、语音语料的采集环境、发音词典的规模、文本语料的采集领域、识别应用的环境等。本书主要针对其中的关键问题进行研究,例如声学模型的建立、语言模型的建立、模型训练语料的预处理、英语语音识别原型系统的建立等。【讨论】【讨论】1.日常生活中你接触到的具有智能语音功能的应用 或设备有哪些,使用起来效果如何?2.影响语音识别准确率的因素可能有哪些?
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。