多媒体应用技术4音频采集编辑合成语音识别课件.ppt

上传人(卖家):三亚风情 文档编号:3338787 上传时间:2022-08-21 格式:PPT 页数:17 大小:181KB
下载 相关 举报
多媒体应用技术4音频采集编辑合成语音识别课件.ppt_第1页
第1页 / 共17页
多媒体应用技术4音频采集编辑合成语音识别课件.ppt_第2页
第2页 / 共17页
多媒体应用技术4音频采集编辑合成语音识别课件.ppt_第3页
第3页 / 共17页
多媒体应用技术4音频采集编辑合成语音识别课件.ppt_第4页
第4页 / 共17页
多媒体应用技术4音频采集编辑合成语音识别课件.ppt_第5页
第5页 / 共17页
点击查看更多>>
资源描述

1、本节内容本节内容v音频采集音频采集v噪音噪音MIDI音乐音乐v语语音识别技音识别技术术v语语音合音合成技术成技术v降噪操作降噪操作v变变速变调操作速变调操作v回声效果回声效果v淡淡入淡出入淡出v混混音效果格式转换音效果格式转换v方法:方法:vwindows自带录音机进行采集自带录音机进行采集vAudition软件录制软件录制v手机录制手机录制噪音噪音v音高和音强变化混乱、听起来不谐和的声音音高和音强变化混乱、听起来不谐和的声音是由发音体不规则的振动产生的,从物理学是由发音体不规则的振动产生的,从物理学的角度来看:噪声是发声体做无规则振动时的角度来看:噪声是发声体做无规则振动时发出的声音。发出的

2、声音。噪声的分类和产生噪声的分类和产生v白噪声是指一段声音中的频率分量的功率白噪声是指一段声音中的频率分量的功率在整个可听范围(在整个可听范围(020KHZ)内都是均匀)内都是均匀的。是一种无规噪声,瞬时值是随机变化的。是一种无规噪声,瞬时值是随机变化的。具有连续的噪声谱,包含有各种频率的。具有连续的噪声谱,包含有各种频率成分的噪声。频率能量的分布是均匀的。成分的噪声。频率能量的分布是均匀的。噪声的分类和产生噪声的分类和产生v粉红噪声的频率分量功率主要分布在中低粉红噪声的频率分量功率主要分布在中低频段。在一定的范围内音频数据具有相同频段。在一定的范围内音频数据具有相同或类似的能量。或类似的能量

3、。噪声的分类和产生噪声的分类和产生v褐色噪声的频率分量功率主要集中在低频褐色噪声的频率分量功率主要集中在低频段。段。vMIDI乐器数字接口乐器数字接口v(MusicalInstrumentDigitalInterface)是一个工业标准的电子通信协定,为是一个工业标准的电子通信协定,为电子电子乐器乐器等演奏设备(如等演奏设备(如合成器合成器)定义各种音)定义各种音符或弹奏码,容许电子乐器、电脑、手机符或弹奏码,容许电子乐器、电脑、手机或其它的舞台演出设备彼此连接,调整和或其它的舞台演出设备彼此连接,调整和同步,得以实时交换演奏数据同步,得以实时交换演奏数据Midi音乐的合成音乐的合成vMIDI

4、产生的方法:频率调制合成法,波表合成产生的方法:频率调制合成法,波表合成法法vMIDI播放的方法:计算机根据按键音量节奏等播放的方法:计算机根据按键音量节奏等指令合成还原出乐器声音指令合成还原出乐器声音vMIDI音乐的特点:文件小,可编辑性强,处理音乐的特点:文件小,可编辑性强,处理语音的能力和效果差。语音的能力和效果差。v30minMIDI音乐音乐200kWAV音乐音乐300M3.6 语音识别技术语音识别技术v1.语音识别的基本原理语音识别的基本原理语音识别系统的实现主要分为三大阶段:语音识别系统的实现主要分为三大阶段:v连续语言信号的预处理连续语言信号的预处理v特征提取特征提取v模式匹配模

5、式匹配v2.语音识别系统的类型语音识别系统的类型v 按照输入方式可分为三种:孤立字(词)、连接按照输入方式可分为三种:孤立字(词)、连接词以及连接语音的识别。词以及连接语音的识别。v 按照发音者可分为特定人、限定人和非特定人语按照发音者可分为特定人、限定人和非特定人语音识别系统三种。音识别系统三种。v 根据可识别的词汇量多少可分为小词汇量、中等根据可识别的词汇量多少可分为小词汇量、中等词汇量、大词汇量以及无限词汇量语音识别系统。词汇量、大词汇量以及无限词汇量语音识别系统。v3.语音识别技术的应用语音识别技术的应用v 教育应用教育应用v 信息处理与电子商务领域的应用信息处理与电子商务领域的应用v

6、 消费娱乐产品的应用消费娱乐产品的应用v3.常见语音识别技术常见语音识别技术v百度:百度的语音识别技术研究项目,名为百度:百度的语音识别技术研究项目,名为“Deep Speech”。据介绍,在噪音较大的背。据介绍,在噪音较大的背景下,百度语音识别技术的正确率高于谷歌景下,百度语音识别技术的正确率高于谷歌10%。v中国科技大学中国科技大学:科大讯飞公司在语音识别技术科大讯飞公司在语音识别技术上占有优势地位,该公司已经推出了成熟的上占有优势地位,该公司已经推出了成熟的语音输入法等产品。语音输入法等产品。v三星语音引擎三星语音引擎3.7 语音合成语音合成3.7.1语音合成的概念语音合成的概念语音合成

7、包含两种可能实现的途径。语音合成包含两种可能实现的途径。v一种是录音重放模式,使机器再生一个预先存一种是录音重放模式,使机器再生一个预先存入的语音信号,采用数字存储技术。入的语音信号,采用数字存储技术。v另一种可能是采用数字信号处理的方法。另一种可能是采用数字信号处理的方法。按照人类语言功能的不同层次,语音合成可分按照人类语言功能的不同层次,语音合成可分为三个层次:为三个层次:v从文字到语音的合成从文字到语音的合成v从概念到语音的合成从概念到语音的合成v从意向到语音的合成从意向到语音的合成语音数据的存储形式可分为两大类:语音数据的存储形式可分为两大类:v波形存储波形存储v参数存储参数存储 3.

8、7.2文语转换技术文语转换技术语音合成系统包括三个主要的组成部分:语音合成系统包括三个主要的组成部分:v文本分析模块:让计算机认识文字,和文本分析模块:让计算机认识文字,和词语,进而知道怎么发音词语,进而知道怎么发音v韵律生成模块:音节的声调、语气、停韵律生成模块:音节的声调、语气、停顿、发音长短顿、发音长短v声学模块声学模块:根据要求让计算机发声:根据要求让计算机发声声音素材的基本操作实例声音素材的基本操作实例v1.降噪处理降噪处理v2.回声效果回声效果v3.变速变调效果变速变调效果v4.拨号声效果拨号声效果v5.混音效果混音效果v6.淡入淡出效果淡入淡出效果v7.音频文件的类型转换音频文件的类型转换

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(多媒体应用技术4音频采集编辑合成语音识别课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|