1、人工智能技术应用核心课程系列教材数据标注工程概念、方法、工具与案例第5章语音数据标注5.2 语音数据标注概述人工智能技术应用核心课程系列教材5.1 语音数据标注简介5.3 典型开源语音数据标注工具5.4 语音数据标注整体流程 5.5 多样化语音数据标注项目 5.6 本章小结 5.7 作业与练习 随着深度学习算法的发展,智能语音处理技术正在经历革命性的变化,算法、算力、数据成为驱动智能语音处理技术快速发展的三大因素。其中,语音数据资源是智能语音处理技术的基石,只有拥有大规模精准、高质量的语音数据集,智能语音处理技术才会有更好的发展。另一方面,虽然当下的智能语音处理技术在一些业务中有非常好的表现,
2、但依然存在效果不太理想的场景,比如重口音、方言、嘈杂环境、多人同时说话、远场语音等,这不仅需要进一步提升深度学习算法的有效性,还需要设计、获取和生产更多丰富场景下的语音数据资源。在当今互联网时代下,高质量的语音数据集对于语音产业的蓬勃发展起到关键作用,具有重大实用意义。5.1 语音数据标注简介 第5章语音数据标注(1)近些年来,在人工智能发展的浪潮下,智能语音处理领域获得了突破性进展,尤其是在深度学习的不断渗入下,以端到端技术为代表的各种新算法不断出现并应用在实际业务系统中,极大地提升了智能语音处理技术的效果。(2)机器人电话客服系统、智能手机助手、智能音箱等大规模应用在限定场景下已经有比较好
3、的表现。未来的落地场景会越来越多。(3)目前,智能语音处理技术中热门研究方向如下图所示。5.1.1 语音数据标注相关背景5.1 语音数据标注简介 第5章语音数据标注(1)认知语音信号:从物理学角度分析,声音即是以声波形式传播的机械振动,因此,声音的特征取决于声波的属性,日常应用中常见的语音声音特征主要有:音色/音质:指能够区分两种不同声音的基本特征,比如人说话的声音和小提琴的声音。在语音信号处理技术中,人声识别研究常将音色作为重要研究对象;音调:指声音的高低,由声波的频率决定。比如在一般情况下,男声听起来比较低沉,而女声听起来会比较尖锐;音强:指声音的强弱,由声波的振动幅度决定,可简单理解为语
4、音信号波形图中的信号幅度;音长:指声音的长短,由发音时间的长短决定。5.1.2 语音信号基础知识5.1 语音数据标注简介 第5章语音数据标注(2)数字化语音信号:数字化(也可称作离散化)语音信号的功能是将人们发出的语音连续模拟信号转化为计算机方便处理的离散数字信号,该过程涉及以下几个概念,它们都是保存、传输语音数据的关键选项:采样率:指在连续的语音模拟信号上,每秒钟采样的次数,单位为Hz;量化位数:将采样得到的语音信号的幅度值转化为一定范围内的数值,该过程即为量化。量化位数指计算机存储转化后数值的二进制比特数。声音通道数:也称声道数,是指输入或输出信号的通道数,也就是声音录制时的音源数量或回放
5、时相应的扬声器的数量。常见的声道数有单声道、双声道、立体声等。语音编码格式:指按一定格式压缩采样和量化后的数值,从而降低音频的数据量,便于音频数据的存储和传输。常用的编码格式有PCM(WAV)、MP3等。5.1.2 语音信号基础知识5.1 语音数据标注简介 第5章语音数据标注第5章语音数据标注5.1 语音数据标注简介人工智能技术应用核心课程系列教材5.2 语音数据标注概述5.3 典型开源语音数据标注工具5.4 语音数据标注整体流程 5.5 多样化语音数据标注项目 5.6 本章小结 5.7 作业与练习 语音数据标注任务具有不同的形式,大致可从以下不同纬度考察它们的特点:(1)按照智能应用场景,可
6、划分为智能家居、智能会议、智能客服、智能车载等;(2)按照语音信号处理研究方向,可划分为语音识别、语音合成、说话人识别、情感识别、语音分离等;(3)按照音源与拾音器之间的距离,可划分为近场语音、远场语音;(4)按照语音时长,可划分为短语音、长语音;(5)按照难度等级,可划分为简单、中等、高难度;(6)按照口音,可划分为普通话、方言、带地方口音的普通话等。除此之外,小语种、外语相关的语音数据标注任务则需要有相应专业背景的专业人士来完成,这也加大了标注任务的难度。5.2.1 标注任务分类5.2 语音数据标注概述第5章语音数据标注在语音数据标注的过程中,需对这些异常数据加以鉴别并挑选出来,保证标注数
7、据的整洁性。常见的语音异常现象包括以下几种:(1)丢帧:在语音录制过程中,由于音频设备的问题而表现出的发音卡顿,比如语音段中某0.1秒内突然没有声音,0.1秒过后语音又恢复正常,此现象称为“丢帧”;(2)切音:在语音录制过程中,由于过早结束或过晚开始录制导致个别字被截断而表现出的发音不完整,此现象称为“切音”,切音示意图如下;5.2.2 常见数据异常5.2 语音数据标注概述第5章语音数据标注(3)吞音:在说话人发音时,由于个别字的声母或韵母未完全发音而表现出的发音不完整,此现象称为“吞音”;(4)喷麦:在说话人发音时,由于距离麦克风太近而表现出的录入语音不清晰,听起来有明显噗噗的声音,此现象称
8、为“喷麦”;(5)重音:在说话人发音时,语音中出现两个或多个说话人,他们的音量大小相近且有大段重叠,无法分清主次,此现象称为“重音”;(6)空旷音:在录制过程中,由于周围环境较为空旷而表现出来的发音中带有回音,此现象称为“空旷音”;(7)混响:混响是另一种常见的声学场景。与回声不同,混响是语音经多次反射、折射后叠加而成的声音。通常情况下,上述情况下的异常语音数据会被认定为无效语音。5.2.2 常见数据异常5.2 语音数据标注概述第5章语音数据标注(1)语音段落截取:对于多段落的长语音,比如演讲语音、会议记录等,标注人员需要从中截取出多个语音小段,对切开的每个语音小段,进行分开标注。在截取语音段
9、时需注意以下事项:考虑语义连贯性,以说话人的一整句为单位进行截取。若一整句的时长超过8秒,也可以截取成分句。根据经验,每个语音小段平均在5-6秒左右;每个时间边界的最佳位置应在语音波形图的最低点;不同说话人的语音分开截取到不同的语音小段;截取的语音小段前后尽量保留0.2至0.3秒的静音段,若本身没有这么长时间的静音则不强求;尽可能截取没有突发噪音的语音段,可以为了避开突发噪音,而缩短语音前后的预留静音时间,但不能出现切音的情况;只有一个字表示应答的(如嗯、哦、对),不用单独分割成独立语音段;若说话人第一遍读错句子,停顿后又重复朗读一遍该句子,则只截取朗读正确的句子即可。5.2.3 基本标注规范
10、5.2 语音数据标注概述第5章语音数据标注(2)有效语音判定:在语音数据标注时,不合格的无效语音段必须加以说明和丢弃。判定一段语音为无效语音的情况有:该段语音是用规定之外的语言朗读的,比如规定是用印度英语朗读,而实际却是用中式英语朗读的;整段语音段没有说话人的语音,只含有噪声或者静音(可视为无声音);语音段中含有很强的背景噪音,以至于覆盖掉说话人的声音;说话人的声音极小而导致无法听清语音内容;说话人语速过快而导致发音不清楚或吞音;说话人发音时一字一顿,每个停顿时间超过1秒;说话人发音时语气夸张,故意怪里怪气地朗读;语音段存在切音、吞音、丢帧、喷麦、重音等异常;语音段存在影响语音清晰度的空旷音、
11、混响等异常。5.2.3 基本标注规范5.2 语音数据标注概述第5章语音数据标注(3)语音内容转写:语音数据标注的重中之重即语音内容的转写。语音内容转写的基本原则为“所听即所写”,即转写文本必须与说话人发音内容完全一致。具体规范包含以下几个方面:词汇:转写的词汇必须和听到的语音完全一致,不能多字、少字、错字;感叹词:在转写语音中出现的感叹词时应使用其标准拼写格式,如“呃、啊、嗯、哦、唉、呐”等,要按照正确发音进行转写;数字:所有数字应根据实际发音转写为文本,绝不能写成阿拉伯数字;英文:语音中的英文发音应转写成相应的汉字或英文,根据不同情况而定;标点符号:陈述句用“。”,疑问句用“?”,感叹句用“
12、!”等;其他符号:如果存在除标点符号意外的其他符号,要根据发音转写成对应汉字或英文;噪音:有些情况下,除了需要转写语音内容之外,也需要标识语音段中含有的噪音情况,一般有分为四类(NSPT)。5.2.3 基本标注规范5.2 语音数据标注概述第5章语音数据标注(4)说话人属性标注:对于语音合成、说话人识别等语音研究而言,说话人信息也是非常重要的特征,因此,有些语音数据还需要对说话人的信息加以标识,比如说话人的性别、年龄、口音等。若语音段含有多个说话人的声音,则需要分别标注所有说话人的以上属性,并标注说话人身份信息,如记为“speaker 1”、“speaker 2”等。5.2.3 基本标注规范5.
13、2 语音数据标注概述第5章语音数据标注第5章语音数据标注5.2 语音数据标注概述人工智能技术应用核心课程系列教材5.3 典型开源语音数据标注工具5.6 本章小结 5.4 语音数据标注整体流程 5.5 多样化语音数据标注项目 5.1 语音数据标注简介5.7 作业与练习 语音学软件Praat,是一款跨平台的多功能语音学专业软件,主要用于对数字化的语音信号进行分析、标注、处理及合成等实验。目前,Praat已经成为世界上实验语音学、语言学、语言调查、语言处理等相关领域的研究人员普遍使用的软件。下图是利用Praat软件进行语音数据标注的界面图。5.3.1 Praat语音学软件5.3 典型开源语音数据标注
14、工具第5章语音数据标注本部分以数据堂数加加语音数据标注平台为样例进行讲解。数加加语音数据标注平台的操作界面图如下图所示。5.3.2 语音数据标注平台5.3 典型开源语音数据标注工具第5章语音数据标注在该标注平台中,执行语音数据标注任务的基本框架由8个子模块组成,它们分别是:(1)语音数据展示模块:如下图所示,该模块以时域波形图的形式刻画了待标注语音数据的能量分布,上方的时间刻度指示着语音段的时间维度。在该模块,标注人员可以参照时间刻度与语音能量分布选取特定的语音时段,点击被选波形区域即可播放该时段的语音。5.3.2 语音数据标注平台5.3 典型开源语音数据标注工具第5章语音数据标注(2)语音数
15、据标注统计模块:如下图所示,该模块不仅显示了本条语音的总时长信息,而且实时统计并显示了正在进行中的语音数据标注情况,包括标注为有效语音段的总时长、标注为无效语音段的总时长、未标注语音内容的总时长。(3)语音播放控制模块:如下图所示,该模块主要包括播放/暂停、快进、快退三大功能选项,除此之外,该模块还提供了语音播放速度调控、语音时域波形缩放控制功能。5.3.2 语音数据标注平台5.3 典型开源语音数据标注工具第5章语音数据标注(4)属性标注模块:如下图所示,该模块可根据具体标注任务的要求设计待标注属性及其展示形式,不同任务可能具有不同的样式。(5)语音内容转写模块:如下图所示,标注人员通过倾听待
16、标注段落的语音、鉴别说话人的发音内容并按照文本数据标注章节所述语音内容转写规则书写出规范的语音内容转写文本。5.3.2 语音数据标注平台5.3 典型开源语音数据标注工具第5章语音数据标注(6)标注时段检索模块:如下图所示,该模块可辅助标注人员更为快捷地搜索、定位已标注语音段落,它支持分段式检索、位置搜索与条件搜索。(7)标注信息综合模块:如下图所示,该模块用于显示已标注语音段落的所有内容,它综合了语音段落的时长信息、属性标注结果、内容转写结果等。5.3.2 语音数据标注平台5.3 典型开源语音数据标注工具第5章语音数据标注(8)标注进度控制模块:一般而言,标注人员需要对大批量的语音数据进行语音
17、数据标注,该模块即负责数据标注的进度控制,如下图所示。(9)半自动化语音数据标注模块:当标注数据量较大时,半自动标注方式可以采用训练好的模型对目标数据进行检测,进而大幅减少标注人员标注量。5.3.2 语音数据标注平台5.3 典型开源语音数据标注工具第5章语音数据标注第5章语音数据标注5.2 语音数据标注概述人工智能技术应用核心课程系列教材5.4 语音数据标注整体流程 5.3 典型开源语音数据标注工具5.6 本章小结 5.5 多样化语音数据标注项目 5.1 语音数据标注简介5.7 作业与练习 本节以多人自然对话语音数据标注项目为例,介绍语音数据标注流程。语音识别、语音合成等智能语音处理技术在单一
18、说话人、发音规范、背景噪音良好的情况下已经具有较为突出的表现,然而,当前阻碍智能语音处理技术实用化的一大困难即是复杂条件下性能降低的问题。在实际生活场景中,自然发音、口音、复杂噪声、声音混叠等现象随处可见,另一方面,随着深度学习技术的发展,数据对于训练模型的影响越来越重要,因此,生产复杂场景下的智能语音数据无论对于学术研究还是对于企业开发,均具有重大意义。多人自然对话语音数据即是在单一说话人朗读类数据的基础上增加难度,对应于实际生活中的会议、小组讨论、聚会等场景,为复杂场景下的语音识别、说话人识别、性别检测等智能语音处理技术的研究提供重要的数据支撑。5.4.1 项目背景与意义5.4 语音数据标
19、注整体流程 第5章语音数据标注语音数据标注是语音数据产品生产流程中的一个环节,总的来说,语音数据产品生产包含了从语音采集到数据交付的各个环节,各个环节之间相辅相成、紧紧相扣。如下图所示,语音数据产品生产过程具体包括语音采集、数据预处理、语音数据标注、数据质检与数据交付模块。5.4.2 语音项目整体规程5.4 语音数据标注整体流程 第5章语音数据标注(1)语音采集模块:利用移动互联网的发展,发挥广大群众的智慧,通过个人智能手机对各类人工智能相关的底层数据进行大规模采集;(2)数据预处理模块:对采集的数据进行严格的把关,才能有效提高后续质量。数据清洗、信息脱敏是常见的数据预处理方法;(3)语音数据
20、标注模块:多类型、大体量的样本空间及高质量数据是人工智能技术精度的重要保障,语音数据标注是语音数据产品生产流程中的关键环节;(4)数据质检模块:在语音采集、语音数据标注环节,根据严格制定的通用质检点的特征来检查数据质量的过程即为数据质检。(5)数据交付模块:数据交付是语音数据产品生产的最后一个环节,在完成语音数据的生产后需准备齐全的说明文档与规范化的数据存储格式。5.4.2 语音项目整体规程5.4 语音数据标注整体流程 第5章语音数据标注(1)分析待标注语音数据:经过语音采集与数据预处理环节,已经生成大规模的多人自然对话型语音数据。这些待标注语音数据为在相对安静的环境下、说话人统一采用标准普通
21、话的发音方式所录制而成的,语音数据为由2至5人组成的小组就某一话题展开的自由对话,围绕每一话题展开的自然对话的平均时长约为30分钟左右。语音数据的数据量、说话人性别分布、年龄分布、地域分布均符合在其应用场景下的机器学习和模型训练的需要;(2)制定标注说明规则:根据项目背景、意义及数据应用场景,按照该领域的专业常识,从机器学习算法的角度出发,制定满足机器学习模型训练的标注规则。5.2.3为通用语音数据标注规则,具体项目会有所改动。在本项目中,若语音涉及说话人的手机号、银行卡号、身份证号、家庭住址等敏感信息,则出现这些具体内容的句子判定为无效语音段,并需要记录错误类型为“含敏感信息”。5.4.3
22、语音数据标注过程详情5.4 语音数据标注整体流程 第5章语音数据标注(3)设计语音数据标注平台:在进行语音数据标注前,必须根据项目特点设计更易操作、更高效的语音数据标注平台。该任务中待标注语音数据具有说话人众多、对话内容自由、语音时长较长、背景噪音小等特点,这决定了在设计与之配合的语音数据标注平台时,需考虑更为全面、详细的标注方式:在该标注任务中,语音段落截取是首要的重点工作,需严格按照5.2.3规范(尤其是多人交谈可能发生的语音重叠情形)将长语音截取成多段待标注语音段。在属性标注模块,除了判断该段语音段是否有效之外,还需对说话人的角色、性别属性加以标识。在该任务中,由于待标注语音数据时长较长
23、、数据量偏大,考虑借助语音端点检测算法、语音识别算法、角色识别算法及性别检测算法预先对待标注语音进行有效语音段截取、语音预识别、角色预判定、性别预判定,标注人员可根据预判定结果进行准确鉴别与转写语音内容。5.4.3 语音数据标注过程详情5.4 语音数据标注整体流程 第5章语音数据标注(3)设计语音数据标注平台:配置好的标注平台界面如图所示。5.4.3 语音数据标注过程详情5.4 语音数据标注整体流程 第5章语音数据标注(4)开展语音数据标注任务:在开展语音数据标注任务时,需首先利用语音端点检测、语音识别、角色识别、性别检测等模型预先判定待标注语音数据的标注结果,继而将待标注语音数据及预标注结果
24、上传至半自动标注平台。在标注前,还需对标注人员进行相关任务培训,包括标注平台的使用方法、标注任务的目的、标注内容和标准。(5)标注结果质量检查:该环节的目的在于确保数据标注的结果具有价值,符合应用场景。在标注结果质量检查中,如果根据通用质检点的特征判断出语句的一部分出现了以下标注错误:错误标注,有效错误等,则认定这句话为错误标注语句。标注准确率的计算公式为:标注准确率=1-(错误的标注语句数/全部标注语句数)一般来说,若对标注结果的准确率要求比较高,则标注结果的句正确率应该在97%(含)以上。5.4.3 语音数据标注过程详情5.4 语音数据标注整体流程 第5章语音数据标注(6)标注结果输出:语
25、音数据标注的结果包含语音标签的时间位置和标签的具体内容(例如转写内容、说话人信息、噪声等)。标注文件的输出格式为TXT文件或其他通用的输出格式,其中文件应包含详细的标签信息,如下图所示。在交付数据时,完整的交付内容包括:原始数据、标注结果、说明文档、关于标注数据的Metadata(包括描述原始数据的元信息)。此外,交付的数据最好以规范的存储结构保存,如下为多人对话类语音数据存储结构:5.4.3 语音数据标注过程详情5.4 语音数据标注整体流程 第5章语音数据标注第5章语音数据标注5.2 语音数据标注概述人工智能技术应用核心课程系列教材5.5 多样化语音数据标注项目 5.3 典型开源语音数据标注
26、工具5.4 语音数据标注整体流程 5.6 本章小结 5.1 语音数据标注简介5.7 作业与练习(1)智能家居儿童语音标注:智能家居行业是人工智能在生活服务领域的重要落地场景,也是我们感知人工智能落地最深的行业之一。特别地,由于成年人的工作等原因,导致这些智能家居产品更多的是服务于常在家里的儿童和老人。儿童吐字不清、发音不流畅等问题是当前影响智能家居语音产品性能的一大问题,因此,大量的智能家居场景下的儿童语音标注数据对于提升语音产品性能具有关键作用。(2)智能音箱语音数据标注:智能音箱作为音箱的升级产物,是用户通过语音进行网上各类行为的一个重要工具,比如点播歌曲、上网购物,或是了解天气预报,它也
27、可以对智能家居设备进行控制,极大地方便了用户的各类操作。而国内市场很多小厂商的智能音箱并不“智能”,对于用户的指令,并不能很好的响应。而其中所欠缺的就是对用户指令的理解,首要的就是用户语音识别。这也就需要标注人员对大量的真实用户语音进行加工,转写为对应的文本内容,进而不断训练和优化智能音箱的语音识别算法,达到更优的识别率。5.5 多样化语音数据标注项目 第5章语音数据标注(3)智能家居语音拼音标注:拼音标注也是语音数据标注的一种形式。语音拼音标注的目的是为整个数据库提供准确的、逐字的拼音记录。拼音记录的顺序与音频文件的时序一致,音频信号及其他语音特征用特殊符号标注。语音数据标注人员在有参照文本
28、的情况下将听到的语音文件译成拼音。每一条音译结果包含一组拼音序列及其他特殊标注符号等。(4)演讲语音数据标注:在实际生活中,与会议记录、课堂讨论等场景不同,有些应用场景比如演讲场景的语音数据是混有噪音的长段语音。这类数据的特点是语音说话比较自然,时长较长,对于这类数据进行语音数据标注是一项非常浩大的工程。5.5 多样化语音数据标注项目 第5章语音数据标注第5章语音数据标注5.2 语音数据标注概述人工智能技术应用核心课程系列教材5.6 本章小结 5.3 典型开源语音数据标注工具5.4 语音数据标注整体流程 5.5 多样化语音数据标注项目 5.1 语音数据标注简介5.7 作业与练习 本章围绕语音数
29、据标注任务,分析了语音数据标注产业目前的背景及研究意义,介绍了在开始执行该任务前需了解及掌握的语音学基本知识,接着重点说明了执行该任务时需谨记、遵守的规则与规范,具体示范了如何利用开源工具执行语音数据标注任务,详细说明了语音数据产品生产的过程及语音数据标注在其中发挥的重要作用。总而言之,语音数据标注任务是一项非常考验细心、耐心、专注力以及知识储备等多方位能力的工作,对标注人员提出了较高的要求,需要标注人员在熟知概念与规范的前提下,勤加练习。5.4 本章小结 第5章语音数据标注第5章语音数据标注5.2 语音数据标注概述人工智能技术应用核心课程系列教材5.7 作业与练习 5.3 典型开源语音数据标
30、注工具5.4 语音数据标注整体流程 5.5 多样化语音数据标注项目 5.1 语音数据标注简介5.6 本章小结 1用于描述声音的有哪些特征?其中,男女声音具有显著区别的特征是什么?在讲话时使用扩音器后哪个特征会产生明显变化?2什么是数字化语音信号?为什么要数字化语音信号?在数字化语音信号的过程中会涉及哪些概念?请举例说明你遇到过哪些语音数据格式。3可视化语音信号的方式有哪些?它们的区别是什么?4常见的语音异常现象有哪些?5语音内容转写的基本原则是什么?6什么情况下需要标识噪音?习题:7可用于语音数据标注的方式有哪些?8在本书的语音数据标注平台示例中,它的基本框架包含几个模块?分别是什么?9在半自动语音数据标注平台中,常见的可以提供给标注人员参考价值的技术有哪些?10语音数据产品生产的流程包含哪些环节?习题:
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。