基于深度学习的单通道语音分离开题报告课件.pptx_163文库

资源描述

1、基于深度学习的单通道语音分离研究生学位论文开题报告选题背景及意义01研究现状02主要研究内容和基本方案03研究计划与要求05目录已具备的科研条件040101：课题名称基于深度学习的单通道语音分离课题来源：导师国家自然科学基金项目选题背景01语音在漫长的人类历史中一直充当最重要的信息交流方式之一。自20世纪以来，随着信息科学技术的不断发展，语音不再局限于人和人之间短距离交流的场景，而是拓展至更复杂的领域，由此催生了语音技术的发展。语音技术主要有两种应用场景语音技术主要有两种应用场景，第一种是利用电话、手机等设备的人和人之间的远距离语音通话，第一种是利用电话、手机等设备的人和人之间的远距离语音通话

2、，而第二种则是随着计算机和互联网技术发展，而逐渐出现的智能设备的而第二种则是随着计算机和互联网技术发展，而逐渐出现的智能设备的人机语音输入和交互。人机语音输入和交互。选题背景01 尽管语音输入在这些场景有着极大的优势，但是在实际应用中，目标说话但是在实际应用中，目标说话人的语音通常处于复杂的声学环境中，受到各种其他信号的干扰，包括自人的语音通常处于复杂的声学环境中，受到各种其他信号的干扰，包括自然界的风声雨声和动物叫声、机器运行噪声、回声混响，然界的风声雨声和动物叫声、机器运行噪声、回声混响，以及其他说话人以及其他说话人的语音等（主要研究内容分离两个人混合语音）的语音等（主要研究内容分离两个人

3、混合语音）。人类在先天进化和后天适应的过程中，能够对这些干扰信号进行过滤，并关注于想收听的语音。但是机器不行。选题背景01但是对于机器就必须设计一套有效的语音分离系统，用于克服干扰信号的影用于克服干扰信号的影响。否则，对于语音通话，收听者需要花费更多精力过滤干扰信号，影响使响。否则，对于语音通话，收听者需要花费更多精力过滤干扰信号，影响使用体验，甚至可能错听和漏听重要信息，而对于人机语音输入，干扰信号会用体验，甚至可能错听和漏听重要信息，而对于人机语音输入，干扰信号会严重降低智能设备的识别性能使其对人类的命令产生错误的识别结果，严重降低智能设备的识别性能使其对人类的命令产生错误的识别结果，进而

4、做出错误的反馈。因此，克服干扰信号的影响并分离出目标语音，对于语音技术的实际应用有着重要的地位。选题意义01 在语音通话中，在语音通话中，多数情况下麦克风采集的原始目标语音信号会被其他信号干扰，在民用领域，说话人在商场、餐厅、车站和会议厅等公共场所在民用领域，说话人在商场、餐厅、车站和会议厅等公共场所的语音通常会被背景噪声干扰，影响收听者的听感和理解准确度。在公安的监测侦听领域在公安的监测侦听领域，犯罪嫌疑人在通话时通常会小心谨慎，使其声音尽可能地隐匿于周围的环境噪声中，提高监测难度。而在军用领域，而在军用领域，坦克、飞机等驾驶员的通话语音一般会被发动机产生的巨大噪音所淹没，而军事通信对语音内

5、容异常敏感，因此需要保证收听内容尽可能准确无误。另一方面，在人机语音输入和交互中，另一方面，在人机语音输入和交互中，智能设备通常在各种复杂的声学环境中使用，比如智能音箱在接收比如智能音箱在接收用户语音指令时常常会被客厅的电视机声音或其他人的语音等无关用户语音指令时常常会被客厅的电视机声音或其他人的语音等无关声音所干扰，使得识别率下降，声音所干扰，使得识别率下降，从而做出错误的反馈影响使用体验，此时就需要语音识别对采集的原始语音信号做前端处理语音分离，提高识别率。在法庭和会议等场所，以及智能手机的语音助手中，以及智能手机的语音助手中，语音分离同样作为语音转写或识别系统的预处理模块，将各声源信号预

6、先分离，改善后端系统的识别结果。选题意义01研究现状02计算机听觉场景分析：计算机听觉场景分析：Wang等人提出了计算听觉场景分析（Computational Auditory Scene Analysis,CASA）方法利用人工设计的频域分割和组合规则，将每将每个幅度谱的时频域单元以时频域掩蔽的形式划分给各声源个幅度谱的时频域单元以时频域掩蔽的形式划分给各声源，从而实现目标语音和干扰信号的分离。非负矩阵分解：非负矩阵分解：基于非负矩阵分解的语音分离方法，假设语音信号和干扰信号的幅假设语音信号和干扰信号的幅度谱可以各自用一组信号基表示，通过数据驱动的方式学习到目标语音和干扰语音度谱可以各自用一

7、组信号基表示，通过数据驱动的方式学习到目标语音和干扰语音信号各自的信号基后，信号各自的信号基后，在分离阶段再利用这些训练好的信号基对混合语音进行分解，提取目标语音的权重分量并重构出目标语音。基于深度学习：可以利用其有效的网络模型和庞大的数据量对干扰信号与目标语音基于深度学习：可以利用其有效的网络模型和庞大的数据量对干扰信号与目标语音间的复杂依赖关系进行建模与训练，间的复杂依赖关系进行建模与训练，进而提升其对不同种类信号的泛化能力，所以能够取得优于传统方法的分离性能。对于语音分离任务我们通常的处理流程如下图所示。我们首先需要一个混合的语音信号，这个混合语音信号通常包含两到三个人的语音信号。然后，

8、对于时频域的语音分离我们需要将时域的语音信号进行短时傅里叶变换（STFT），将时域信号转换为时频域信号。为什么需要进行STFT，对于时频域的信号特征更容易提取，更容易去做一些语音特征提取的操作对于时频域的信号特征更容易提取，更容易去做一些语音特征提取的操作，例如MFCC等。此外，对于经过STFT 的时频域信号很容易的通过逆傅里叶变换（iSTFT）恢复为时域信号。同时，频域本质是把信号分解到每个子带空间上，每个空间里面性质稳定，可频域本质是把信号分解到每个子带空间上，每个空间里面性质稳定，可以理解为频率恒定。以理解为频率恒定。因此，这解释了为什么一开始大家在做语音分离任务是都是在时频域上进行的。

9、基于频域的语音分离基于频域的语音分离直接对时域语音信号的波形点进行操作，而对于时域的语音分离我们搭建一个encoder-decoder 的端到端的模型即可。基于时域语音分离（基于时域语音分离（20192019年出现年出现）主要研究内容03MFCC:mel频率倒谱系数频率倒谱系数主要研究内容03CMVN:CMVN:倒谱均值方差归一化倒谱均值方差归一化已具备的科研条件0401学习了语音处理课程，并阅读了大量的英文的相关文献，有一定的理论基础。02目前正在学习深度学习，搭建了基于pytorch的深度学习框架，并能成功运行代码。有一定的实验结果。研究计划与要求05阅读国内外文献，掌握相关理论知识，关注语音分离的前沿动态，并自己动手写代码。撰写并投递期刊文章，总结阶段性学习成果提出自己的创新点，进行合理改进。进行实验，分析实验结果和数据。撰写毕业论文，总结研究生阶段的学习和研究成果。2019年12月-2020年02月2020年03月-2020年06月2020年07月-2020年09月2021年01月-2021年04月继续上一阶段的工作，用新的网络结构改进，进行实验，写文章进行投递。2020年10月-2020年12月

展开阅读全文