1、第7章 语音识别:让机器言听计从课后习题答案一、考考你1.语音识别技术主要包括语音信号处理、 C 、声学模型、语言模型和解码搜索五个关键要素。A.采用频率B.分频技术C.特征提取D.模型训练2.深度神经网络与基本神经网络的区别是 C 。A.输入层节点数不同B.输出层节点数不同C.隐含层个数不同D.激活函数不同3.卷积神经网络的主要特点是具有 C 。A.池化层B.全连接层C.卷积操作D.多层隐含层4.卷积神经网络的池化层的本质是 D 。A.提取特征数据B.提高模型泛化能力C.过滤到不必要数据D.对数据进行一个缩小5.关于EasyDL错误的说法是 C 。A.可定制高精度AI模型B.自定制模型可迭代
2、训练C.只用于语音识别模型的定制D.几乎零基础就可以上手使用二、亮一亮1.请简述语音识别的过程。语音识别过程的步骤如下。(1) 把一段语音进行采集转换成数字信号,然后进行预加重、分帧和滤波处理,分成若干小段;(2) 按FBank特征或MFCC特征进行特征提取工作,为声学模型提供合适的特征向量;(3) 利用声学模型计算每一个特征向量在声学特征上的得分;(4) 利用语言模型计算该声音对应的可能词组序列的概率;(5) 根据已有的词典,对词组序列进行解码,得到最有可能的文本表示。2.什么是深度神经网络?什么是卷积神经网络?两种有何异同?深度神经网络:神经网络模型包括多个神经网络层,如卷积层、全连接层、
3、LSTM(long short term memory)等,每一层又包括很多神经元,通常超过三层的非线性神经网络都可以被称为深度神经网络。卷积神经网络:深度神经网络中,如果输入层向量有n个,假设隐藏层数目与输入层一样,那么输入层到隐藏层的权重参数有n*n个,还不考虑后面其它隐藏层的参数,这样参数就太多了,模型根本无法训练,因此就需要减少参数以加快训练速度,在20世纪60年代,Hubel和Wiesel在研究大脑皮层中用于局部敏感和方向选择的神经元是发现其独特的网络结构可以有效地降低反馈神经网络的复杂性,继而提出了卷积神经(Convolutional Neural Network,CNN),其结构
4、如下所示,即通过卷积层的卷积操作大大减少输入层原始数据的计算量,这就是卷积神经网络的由来。三、帮帮我1.利用百度智能云创建一个语音识别应用,来识别本地的一个短语音文件。提示:1)使用命令pip3 install baidu-aip安装AipSpeech模块。2)创建一个AipSpeech的客户端对象client。3)调用client的自动语音识别方法asr将本地语音文件发送到服务器,并对返回的数据进行解析从而得到语音识别结果。请访问相关技术指南页面 参考代码如下:from aip import AipSpeech # 定义常量,你在百度智能云上申请的应用获取appKey和appSecretAP
5、P_ID = 你的 App IDAPI_KEY = 你的 API KeySECRET_KEY = 你的 Secret Key # 初始化AipSpeech对象aipSpeech = AipSpeech(APP_ID, API_KEY, SECRET_KEY)# 读取文件def get_file_content(filePath): with open(filePath, rb) as fp: return fp.read() # 识别本地文件#请求说明:#1. 原始语音的录音格式目前只支持评测 8k/16k 采样率 16bit 位深的单声道语音#2. 压缩格式支持:pcm(不压缩)、wav、amr#3. 系统支持语言种类:中文(zh)、粤语(ct)、英文(en)。result=aipSpeech.asr(get_file_content(audio.pcm), pcm, 16000, lan: zh,)#打印识别结果print(result)2.针对案例2出现的识别错误现象,增加相应的音频文件和标注文本,对自训练模型进行迭代训练,然后上线重新调用,最后观察自制语音识别系统的识别结果是否有明显改善。参考答案:参考教材中案例2的操作步骤。