1、音響信号処理特論音響信号処理特論音響信号処理基礎音響信号処理基礎雑音抑圧雑音抑圧奈良先端科学技術大学院大学情報科学研究科音情報処理学講座猿渡洋(2011年6月17日)音声?音声信号特徴音声信号特徴 人間口発言語構造信号 基本周波数:男性平均125 Hz 女性平均250 Hz 構造:長時間平均的800 Hz平坦,800 Hz以上-10 dB/oct傾斜比較的 低周波数帯域集中信号実環境音声処理我耳音声信号我耳音声信号 口発原音声信号,空気媒体伝達,耳()到達 伝送際様変形加実環境変形要因 加法性変形:環境騒音,妨害話者 乗法性変形:室内残響(室内伝達関数),受音系装置音響歪 他変形:実環境発話状
2、態変化(Lombard効果)乗法性変形反射残響歪実環境変形要因原音声信号雑音加法性変形雑音等干渉)(ts)(fH)(tn)(ts?)()()(IFFT)(tntsfHts我実際受取信号加法性変形雑音特性 尺度:信号対雑音電力比(SN比)種類:計算機雑音,自動車雑音,話声,音楽実環境雑音 静:4550 dBA 広:6070 dBA 走行自動車内:6575 dBA 機:90 dBA以上dB)(E)(Elog10SNR2210tnts加法性変形(contd)1 m離場所音声信号 普通強発声会話音声(男性):66 dB 普通強発声会話音声(女性):63 dB実環境SNR 静:3025 dBA 広:15
3、5 dBA 走行自動車内:100 dBA 機:-15 dBA以下一般75 dB以上発声常実環境雑音意識必要乗法性変形残響空間伝達特性 尺度:残響時間(音停止-60 dB減少時間)尺度:波形歪(源波形変形雑音SNR)尺度:歪(振幅上SNR)実環境残響時間例 自動車内 :80100 msec 通常室内(小):300 msec以上 会議室:700 msec以上:2000 msec以上一般、部屋各壁吸音率小体積大部屋残響時間長、音声影響大変形変形波形変形他変形(発話状態変化)Lombard効果 雑音,過度残響,発話者発声音声自身変形現象具体的変形例 第一上昇 第二下降 傾変化 母音継続長長実環境変形音
4、声例原音声加法性変形 白色雑音SNR20 dB 白色雑音SNR0 dB 有色雑音SNR0 dB乗法性変形 壁一次反射 残響時間400 msec 残響時間900 msec 残響時間2500 msec加法性乗法性変形 白色雑音(SNR=20 dB)残響時間900 msec実環境信号処理加法性変形対処理 櫛形 乗法性変形対処理 正規化 逆 適応 MINT法1入力,装置規模小多点入力,装置規模大1入力,装置規模小多点入力,装置規模大基本原理:雑音定常利用,非音声区間信号雑音特徴量推定,雑音混音声特徴量雑音成分取除Noisy SpeechSilence DetectionNoiseEstimationS
5、t-DFTAnalysisAmplitudePhaseSt-IDFTOutput Speech(contd)具体的信号処理:時刻 雑音混信号,真音声信号,雑音信号時観測信号以下与窓位置m表短時間分析上関係周波数領域以下書)(ty)(ts)(tn)()()(tntsty),(),(),(mfNmfSmfY(contd)本方法以下信号推定行 雑音信号定常仮定,振幅入力推定雑音減算 位相関,入力信号使用方法推定出力信号)(ty),(arg/1|),(|E|),(|),(mfYjmemfNmfymfS|),(|EmfNm:非音声区間推定雑音,:減算調節一般2程度,1 or 2(contd)本方法利点
6、構造単純 定常雑音抑圧効果大本方法問題点課題 雑音抑圧発声 音声非音声区別 非定常雑音対処 減算調節決定例原音声雑音付加音声(SNR=0 dB,白色雑音)回復処理音声櫛形基本原理:音声周期的波形(周波数領域構造持)利用,音声基本周波数F0推定,雑音混音声信号対F0成分(整数)強調構造構成F0音声雑音観測信号周波数特性F0櫛形F0出力信号櫛形(contd)本方法利点 音声構造陽利用 非定常雑音程度対応可能本方法問題点課題 基本周波数雑音中推定 櫛形調節 構造持子音回復基本原理:本(主参照)用意主音声雑音観測,参照雑音観測仮定同時刻雑音参照受音,主雑音混音声差引 際,参照主伝達特性適応的同定適応使
7、用(contd)構成図:AdaptiveFilterOutput SpeechSpeechNoisePrimaryMicrophoneReference Microphone)(ts)()p(tn)()()p(tnts)()r(tn)()p(tn)(te)(ts伝達経路異注意)()r(tn)()p(tn(contd)具体的信号処理:主信号,音声信号成分,雑音信号以下成立参照雑音信号適切主信号減算,誤差算出)(ty)(ts)()p(tn)()()()p(tntstyT)r()r()r()r(T)r(T0)r()(.,),1(),(,)(.,),1(),0(where)()()()()(Ttntn
8、tnThhhtyihitntyteTinhnh)(teh(contd)音声信号雑音信号,相関無仮定,誤差以下与関最小化,最適係数以下得)(ts)()p(tn)r()p(T)r()r(TT2)p(22)r(T)p(2)(E,)(Ewhere2)(E)(E)()(E)(EndnnRhdRhhnhtntntstntsteJ)()r(tnJJh)opt(h)1(1)opt(dRh(contd)式(1)用最適係数求,音声信号無時間観測推定必要,LMS(Least Mean Square)法準最適係数逐次推定関瞬時勾配)()p(tnJhh 実際上困難場合多d)2()(2)()(2)()r(2nhhtete
9、tete(contd)LMS法式(2)瞬時勾配誤差期待値代用最急降下法適用,以下更新式得,回目反復値表,式(1)比,式(3)推定,多少揺真値収束知)3()(2)r(1nhhtejjjjj(contd)本方法利点 適応的雑音完全消去 式(3)使非定常移動雑音程度対応可能本方法問題点課題 式(1)用場合無音区間推定必要 式(3)収束性問題 参照配置大依存基本原理:本拡張多点受音処理系構成 複数並呼。空間選択性持,音声源方位到来信号強調雑音源抑圧可能 指向特性(空間対形成利得分布),性能評価図示歴史第一次大戦中軍第一次大戦中軍使用音響装置使用音響装置From“Array Signal Process
10、ing”,D.Johnson両耳音源方位同定両耳音源方位同定(生物自身持)(生物自身持)音源方位音源方位聞耳立聞耳立信号処理技術進歩発展構造基本構造:多数素子規則的配列各素子後段接続各素子出力総和素子配列形態,特性変化性能可変FilterFilterFilterMicrophoneArray OutputNoiseSpeech種類加算型:目的信号到来方位鋭指向特性形成 例:Delay and Sum(遅延和)Filter and Sum 等減算型:雑音到来方位指向特性死角形成 例:死角制御型 適応型 等構造単純性能対装置規模優秀加算型基本原理:目的信号同相化,到来方位(目的方位;look di
11、rection)呼鋭指向性形成 目的方位以外,低利得形成,雑音混入防目的方位以外形成利得目的音目的音低低雑音抑雑音抑圧可能圧可能遅延和設計例設計条件:目的方位0度,一様素子荷重係数使用 素子数8,素子間隔5 cm等間隔直線低周波数鋭指向特性形成困難低周波数鋭指向特性形成困難劣化 8 kHz指向特性(8素子5 cm間隔)(0方向)以外大形成波長対素子間隔広生折返歪呼加算型性能限界周波数幅周波数幅低周波数帯域狭構成困難 50width波長長(一様荷重係数場合)周波数周波数高周波数帯域避困難素子間隔波長/避素子間隔条件高低周波数帯域使用素子密(対策)大量(長増)並必要加算型音声回復例原音声残響無場合
12、 単一 遅延和残響場合(残響時間400 msec)単一 遅延和8素子,cm間隔音声雑音-50減算型基本原理:各素子出力雑音方位関同相化,後,全素子重和0加算,素子間雑音成分減算 上記処理,指向特性上,雑音方位鋭死角形成意味目的音目的音雑音死角雑音死角適応型基本原理:雑音到来方位事前知無,出力最小規範,指向特性最適化,限素子,効率的雑音抑圧可能 素子荷重係数最適化適応理論用,目的方位歪目的方位利得一定保拘束条件最適化行拘束条件付最適化問題帰着適応型構造AdaptiveFilterMicrophoneArray OutputNoiseSpeechAdaptiveFilterAdaptiveFilt
13、er目的方位利得一定保誤差信号最小適応型指向特性例1雑音数少残響少場合 雑音死角形成雑音抑圧減算型自動形成目的音目的音雑音死角雑音死角適応型指向特性例2雑音数少残響大場合 必雑音死角形成,雑音残響成分併総和0指向特性形成目的音目的音雑音雑音雑音雑音残響残響 適応型指向特性例3雑音数大残響大場合 死角形成,残響打消,低抑圧,組合雑音除去目的音目的音雑音雑音2雑音雑音1適応型特徴利点 加算減算型少数素子,効率的雑音抑圧行出来 目的音存在時間与,雑音方位与環境応雑音最適抑圧出来 雑音残響成分存在,総和最小化雑音全体除去環境加算減算型中最適自動選択組合適応型特徴(contd)問題点課題 素子数以上死角
14、形成,素子数以上雑音抑圧不可能 目的音無音区間情報必要 雑音方位幅持場合,室内残響影響大場合,抑圧性能劣化 拘束条件付最小化問題帰着LMS使用動的環境変化対逐次更新不可能Griffith-Jim型適応用解決Griffith-Jim型適応構造K-MicrophoneArray OutputK-1 chAdaptiveFilter目的方位信号成分含K-1 ch信号誤差信号最小Phase Compensation0K12主主参照参照Griffith-Jim型適応原理1主単純加算型 部分雑音混入一方,参照,隣信号間減算,目的音成分除去(K-1 ch変換)次,K-1 ch適応入力,主減算行主,参照差誤差
15、信号見,最小化LMS最適化行Griffith-Jim型適応原理2拘束条件付問題LMS使?目的音(適応中無音)目的音(適応中無音)雑音受音雑音受音主主目的方位死角目的方位死角主同主同構成構成参照参照主参照差単純最小化目的方位無歪最小化適応型音声回復例雑音混合音声GJ型適応回復音声4素子,4.2 cm間隔音声雑音50音v処理欠点w音源到来方位推定必要w適応無音区間推定必要w素子位置変動対応w素子誤差事前補正必要?遅延和型:素子係数指向特性制御適応型:雑音到来方向指向特性適応目的音目的音雑音同時雑音同時拾拾目的音目的音指定指定雑音観測雑音観測時間必要時間必要死角死角Blind Source Sepa
16、ration(BSS)複数音源信号混合観測場合、観測信号音源信号推定技術 目的音方位無音区間情報不要 素子位置特性情報不要 特性誤差頑健動作独立成分分析(ICA)基BSS J.Cardoso,1989 C.Jutten,1990 (高次無相関化)P.Comon,1994(ICA言葉定義)A.Bell et al.,1995(infomax定式化)独立成分抽出:複数確率信号混合観測系列,統計的独立個確率過程分解抽出特徴:独立性無相関性厳尺度,確率信号同士確率密度構造問情報幾何学呼独立無相関、無相関独立必成立互独立既知Human 2Human 1Microphone 1Microphone 2Ob
17、served signal 1Observed signal 2Source 2Source 1音源信号推定音源信号推定)()()()(111111txtxtstsAAAALKLKLK線形混合過程混合行列音源信号観測信号分離過程分離信号分離行列)()()()(111111txtxWWWWtytyLKLKLK独立?関数関数最適化最適化 s1(t)x2(t)x1(t)s2(t)ST-DFTfX1(f,t)fX2(f,t)fY1(f,t)fY2(f,t)比較ST-IDFTy1(t)y2(t)耳()接近強音源,時間-周波数領域抽出手法 s1(t)x2(t)x1(t)s2(t)ST-DFTfX1(f,t
18、)fX2(f,t)fY1(f,t)fY2(f,t)比較ST-IDFTy1(t)y2(t)耳()接近強音源,時間-周波数領域抽出手法v利点 比較高速v欠点 音源信号間重無 前提条件(性)必要v欠点 分離音歪生12s1(t)s2(t)2.04 m2.02 m1.50 mLoudspeakers(Height:1.17 m)Microphones(Height:1.17 m)ReverberationTime:200 ms4.25 m0.58 m4.25 m0.74 mReverberation200 msSourcesSpeech/Stationary Noise(3 seconds)Sampli
19、ngfrequency8 kHzFilterlengthBinary mask:512 tapsICA:1024 tapsSource DOA(1,2)(-60,60),(-60,0),(0,60)Initial filterNBF steered to(-15,15)Evaluation scoreSignal to Noise Ratio dBSource:(-60,60)Source:(-60,0)Source:(0,60)Signal to Noise Ratio dBBinary maskHO-ICAHO-ICA+Binary maskProposedSO-ICAObserved s
20、ignal 全12通話者組合平均値音声認識評価(音声音声)Word Accuracy%Binary MaskICAICA+BMProposed BSS4040454550505555606065657070757580808585音源方位音源方位=(-40,30)=(-40,30)音源方位音源方位=(-40,10)=(-40,10)各種従来法提案法提案法提案法提案法各種従来法大語彙音声認識評価(JNAS、JULIUS(PTM)認識、音響)本実験16 kHz取扱v理論脱却!v音声波長(数数)(50cm)考、理論同。v反射無、残響音声v残響無視理論淘汰!?v研究死谷v残響無視机上理論立素晴理論!残響成分面倒誤差意図的残響無視実験、従来法優。!実機実験公表(学会発表)残響環境、理論通従来優性能出。実環境残響対策今後課題。今後困!最初残響理論入。v音声音響処理、特残響強意識理論立v装置誤差考慮入理論淘汰!?v素子誤差予想以上大(通常3 dB程度、温度湿度過敏)。v1素子場合問題動、素子数多誤差成弱。v実際環境、手動不可能v万能技術無。TPO合信号処理!v音声通話系音声認識系要求異v分?雑音除去重視、目的音歪軽視型(応用音声認識)雑音除去軽視、目的音歪重視型(応用音声通話)v万能目指演算量増、目的特化高精度化化目指
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。