解析深度学习:语音识别实践课件.pptx

上传人(卖家):晟晟文业 文档编号:4256837 上传时间:2022-11-23 格式:PPTX 页数:60 大小:4.30MB
下载 相关 举报
解析深度学习:语音识别实践课件.pptx_第1页
第1页 / 共60页
解析深度学习:语音识别实践课件.pptx_第2页
第2页 / 共60页
解析深度学习:语音识别实践课件.pptx_第3页
第3页 / 共60页
解析深度学习:语音识别实践课件.pptx_第4页
第4页 / 共60页
解析深度学习:语音识别实践课件.pptx_第5页
第5页 / 共60页
点击查看更多>>
资源描述

1、解析深度学习:语音识别实践作者及译者简介01Part One作者及译者简介术语缩写02Part One术语缩写符号03Part One符号 1 简介04Part One1 简介011.1.1 人类之间的交流1.1.2 人机交流1.1 自 动 语 音 识 别:更 好 的 沟 通 之 桥02 1.2 语音识别系统的基本结构031.3.1 第一部分:传统声学模型1.3.2 第二部分:深度神经网络1.3.3 第三部分:语音识别中的DNN-HMM混合系统1.3.4 第四部分:深度神经网络中的特征表示学习1.3.5 第五部分:高级的深度模型1.3 全书结构第一部分 传统声学模型05Part One2 混合

2、高斯模型第一部分 传统声学模型2.2 高斯分布和混合高斯随机变量2.4 采用混合高斯分布对语音特征建模2.1 随机变量2.3 参数估计3 隐马尔可夫模型及其变体3.1 介绍3.2 马尔可夫链3.3 序列与模型3.4 期望最大化算法及其在学习HMM参数中的应用3.5 用于解码HMM状态序列的维特比算法3.6 隐马尔可夫模型和生成语音识别模型的变体3 隐马尔可夫模型及其变体3.3 序列与模型3.3.1 隐马尔可夫模型的性质3.3.2 隐马尔可夫模型的仿真3.3.3 隐马尔可夫模型似然度的计算3.3.4 计算似然度的高效算法3.3.5 前向与后向递归式的证明3 隐马尔可夫模型及其变体3.4 期望最大

3、化算法及其在学习HMM参数中的应用3.4.1 期望最大化算法介绍3.4.2 使用EM算法来学习HMM参数Baum-Welch算法3 隐马尔可夫模型及其变体3.5 用于解码HMM状态序列的维特比算法3.5.1 动态规划和维特比算法3.5.2 用于解码HMM状态的动态规划算法3 隐马尔可夫模型及其变体3.6 隐马尔可夫模型和生成语音识别模型的变体3.6.1 用于语音识别的GMM-HMM模型3.6.2 基于轨迹和隐藏动态模型的语音建模和识别3.6.3 使用生成模型HMM及其变体解决语音识别问题第二部分 深度神经网络06Part One4 深度神经网络4.2 使用误差反向传播来进行参数训练4.1 深度

4、神经网络框架4.3 实际应用4 深度神经网络4.2 使用误差反向传播来进行参数训练4.2.1 训练准则4.2.2 训练算法4 深度神经网络4.3 实际应用4.3.1 数据预处理4.3.2 模型初始化4.3.3 权重衰减4.3.4 丢弃法4.3.5 批量块大小的选择4 深度神经网络4.3 实际应用4.3.6 取样随机化4.3.7 惯性系数4.3.8 学习率和停止准则4.3.9 网络结构4.3.10 可复现性与可重启性5 高级模型初始化技术5.1 受限玻尔兹曼机5.2 深度置信网络预训练5.3 降噪自动编码器预训练5.4 鉴别性预训练5.5 混合预训练5.6 采用丢弃法的预训练5.1.1 受 限

5、玻 尔兹 曼 机 的 属 性5.1.2 受 限 玻 尔兹 曼 机 参 数 学 习 第三部分 语音识别中的深度神经网络隐马尔可夫混合模型07Part One6 深度神经网络隐马尔可夫模型混合系统6.2 CD-DNN-HMM的关键模块及分析6.1 DNN-HMM混合系统6.3 基于KL距离的隐马尔可夫模型6 深度神经网络隐马尔可夫模型混合系统6.1 DNN-HMM混合系统6.1.1 结构6.1.2用CD-DNN-HMM解码6.1.3 CD-DNN-HMM训练过程6.1.4 上下文窗口的影响6 深度神经网络隐马尔可夫模型混合系统6.2 CD-DNN-HMM的关键模块及分析6.2.1 进行比较和分析的

6、数据集和实验6.2.2 对单音素或者三音素的状态进行建模6.2.3 越深越好6.2.4 利用相邻的语音帧6.2.5 预训练6.2.6 训练数据的标注质量的影响6.2.7 调整转移概率7 训练和解码的加速7.1 训练加速7.2 加速解码7 训练和解码的加速7.1 训练加速7.1.1 使用多GPU流水线反向传播7.1.2 异步随机梯度下降7.1.3 增广拉格朗日算法及乘子方向交替算法7.1.4 减小模型规模7.1.5 其他方法7 训练和解码的加速7.2 加速解码7.2.1 并行计算7.2.2 稀疏网络7.2.3 低秩近似7.2.4 用大尺寸DNN训练小尺寸DNN7.2.5 多帧DNN8 深度神经网

7、络序列鉴别性训练8.1 序列鉴别性训练准则8.2 具体实现中的考量8.3 噪声对比估计8 深度神经网络序列鉴别性训练8.1 序列鉴别性训练准则8.1.1 最大相互信息8.1.2 增强型MM I8.1.3 最小音素错误/状态级最小贝叶斯风险8.1.4 统一的公式8 深度神经网络序列鉴别性训练8.2 具体实现中的考量8.2.1 词图产生8.2.2 词图补偿8.2.3 帧平滑8.2.4 学习率调整8.2.5 训练准则选择8.2.6 其他考量8 深度神经网络序列鉴别性训练8.3 噪声对比估计8.3.1 将概率密度估计问题转换为二分类设计问题8.3.2 拓展到未归一化的模型8.3.3 在深度学习网络训练

8、中应用噪声对比估计算法第四部分 深度神经网络中的特征表示学习08Part One9 深度神经网络中的特征表示学习9.1 特征和分类器的联合学习9.4 特征的鲁棒性9.2 特征层级9.3 使用随意输入特征的灵活性9.5 对环境的鲁棒性9.6 缺乏严重信号失真情况下的推广能力 100%73%68%44%21%15%9.4.1 对说话人变化的鲁棒性9.4.2 对环境变化的鲁棒性9.5.1 对噪声的鲁棒性9.5.2 对语速变化的鲁棒性10 深度神经网络和混合高斯模型的融合10.1.1 使用Tandem和瓶颈特征的GMM-HMM模型10.1.2 DNN-HMM混合系统与采用深度特征的GMM-HMM系统的

9、比较1 0.1 在 G M M-H M M 系 统 中 使 用由 D N N 衍 生 的 特 征 10.4 多流语音识别10.2.1 识别错误票选降低技术(ROVER)10.2.2 分段条件随机场(SCARF)10.2.3 最小贝叶斯风险词图融合10.2 识别结果融合技术 10.3 帧级别的声学分数融合11 深度神经网络的自适应技术201711.1 深度神经网络中的自适应问题01201811.2 线性变换02201911.3 线性隐层网络03202011.4 保守训练04202111.5 子空间方法05202211.6 DNN说话人自适应的效果0611 深度神经网络的自适应技术11.2 线性变

10、换11.2.1 线性输入网络11.2.2 线性输出网络11 深度神经网络的自适应技术11.4 保守训练11.4.1 L2正则项11.4.2 KL距离正则项11.4.3 减少每个说话人的模型开销11 深度神经网络的自适应技术11.5 子空间方法11.5.1 通过主成分分析构建子空间11.5.2 噪声感知、说话人感知及设备感知训练11.5.3 张量11 深度神经网络的自适应技术11.6 DNN说话人自适应的效果11.6.1 基于KL距离的正则化方法11.6.2 说话人感知训练第五部分 先进的深度学习模型09Part One12 深度神经网络中的表征共享和迁移ADBC12.2 多语言和跨语言语音识别

11、12.3 语音识别中深度神经网络的多目标学习12.4 使用视听信息的鲁棒语音识别12.1 多任务和迁移学习12 深度神经网络中的表征共享和迁移12.1 多任务和迁移学习12.1.1 多任务学习12.1.2 迁移学习12 深度神经网络中的表征共享和迁移12.2 多语言和跨语言语音识别12.2.1 基于Tandem或瓶颈特征的跨语言语音识别12.2.2 共享隐层的多语言深度神经网络12.2.3 跨语言模型迁移12 深度神经网络中的表征共享和迁移12.3 语音识别中深度神经网络的多目标学习12.3.1 使用多任务学习的鲁棒语音识别12.3.2 使用多任务学习改善音素识别12.3.3 同时识别音素和字

12、素(graphemes)13 循环神经网络及相关模型13.1 介绍13.6 循环神经网络的对比分析13.5 结合长短时记忆单元(LSTM)的循环神经网络13.2 基本循环神经网络中的状态-空间公式13.3 沿时反向传播学习算法13.4 一种用于学习循环神经网络的原始对偶技术13 循环神经网络及相关模型13.7 讨论13 循环神经网络及相关模型13.3 沿时反向传播学习算法13.3.1 最小化目标函数13.3.2 误差项的递归计算13.3.3 循环神经网络权重的更新13 循环神经网络及相关模型13.4 一种用于学习循环神经网络的原始对偶技术13.4.1 循环神经网络学习的难点13.4.2 回声状

13、态(Echo-State)性质及其充分条件13.4.3 将循环神经网络的学习转化为带约束的优化问题13.4.4 一种用于学习RNN的原始对偶方法13 循环神经网络及相关模型13.5 结合长短时记忆单元(LSTM)的循环神经网络13.5.1 动机与应用13.5.2 长短时记忆单元的神经元架构13.5.3 LSTM-RNN的训练13 循环神经网络及相关模型13.6 循环神经网络的对比分析13.6.1 信息流方向的对比:自上而下还是自下而上13.6.2 信息表征的对比:集中式还是分布式13.6.3 解释能力的对比:隐含层推断还是端到端学习13.6.4 参数化方式的对比:吝啬参数集合还是大规模参数矩阵

14、13.6.5 模型学习方法的对比:变分推理还是梯度下降13.6.6 识别正确率的比较14 计算型网络114.1 计算型网络14.2 前向计算14.3 模型训练14.6 循环连接14.5 卷积神经网络14.4 典型的计算节点14 计算型网络114.4 典型的计算节点14.4.1 无操作数的计算节点14.4.2 含一个操作数的计算节点14.4.3 含两个操作数的计算节点14.4.4 用来计算统计量的计算节点类型14 计算型网络114.6 循环连接14.6.1 只在循环中一个接一个地处理样本14.6.2 同时处理多个句子14.6.3 创建任意的循环神经网络15 总结及未来研究方向15.1 路线图15.2 技术前沿和未来方向15 总结及未来研究方向15.1 路线图15.1.1 语音识别中的深度神经网络启蒙15.1.2 深度神经网络训练和解码加速15.1.3 序列鉴别性训练15.1.4 特征处理15.1.5 自适应15 总结及未来研究方向15.1 路线图15.1.6 多任务和迁移学习15.1.7 卷积神经网络15.1.8 循环神经网络和长短时记忆神经网络15.1.9 其他深度模型15 总结及未来研究方向15.2 技术前沿和未来方向15.2.1 技术前沿简析15.2.2 未来方向感谢聆听

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(解析深度学习:语音识别实践课件.pptx)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|