使用位置资讯于中文连续语音辨识课件.ppt_163文库

资源描述

1、使用位置資訊於中文續語音辨使用位置資訊於中文續語音辨邱炫盛,羅永典,陳韋豪,陳柏琳國立台灣師範大學資訊工程研究所 2大綱語言模型之研究文件主題相關語言模型混合主題式語言模型機率式潛藏語意分析位置相關語言模型位置性N詞模型位置性機率式潛藏語意分析模型之比較實驗結果與分析結論與未來展望 3語言模型之研究語言模型代表自然語言規則或語意，可應用於各種自然語言處的域中語言模型於語音辨輔助解決聲學上的混淆，限制辨結果符合人語言風格使用不同資訊之語言模型詞相關語言模型詞別相關語言模型語句結構相關語言模型文件主題相關語言模型 4文件主題相關語言模型混合主題式語言模型透

2、過結合不同主題之語言模型呈現語料中不同主題性的詞分布訓練階段以文件為單位，將訓練語料根據不同的主題分群，然後分別對每一份具有相同或相似主題的語料訓練語言模型辨階段結合不同主題之語言模型，並於辨過程中調整權重KkkiiikiiiMIXMwwwPwwwP11212,|,|5文件主題相關語言模型(續)機率式潛藏語意分析透過隱藏的主題，表示詞與文件(歷史詞序列)的關係訓練階段最大化訓練語料相似度估測辨階段最大化歷史詞序列相似度估測為一詞袋(Bag of Words)模型，需與N模型結合線性插補kiTwP|KkHwkkiiiPLSAiMTPTwPHwwP1|iHwkMTP|iiPL

3、SAiigramNiiHwwPHwwPHwwP|1|6位置相關語言模型詞位置資訊第一段主要是主播的開場白或是一些接詞第二段則是主要新聞事件的內容，包含一些內容詞第三段也是新聞的內容或是一些承接前幾段的說法第四段則是新聞報導的結束及記者名字等第一與第四段較具有明顯特性，而中間段落則因為是新聞事件則較無規律結構化的文件之中，會有位置的資訊可以使用，如果文件群有相似的文件結構，可以收集其統計資訊第一段：您、公布、宣布、轉到、鏡頭、下面、專題報導、晚安、接下來第二段：蠻、大概、米酒、那麼、我、我們、念書、了解、裡面、珊瑚第三段：比方說、譬如說、上面、或者、大概、老師、身分、裡面、小孩子第

4、四段：公視、編譯、採訪、瑤、蕙、綾、諭、煌、保羅第一到第四段：就是說、這樣子、這邊 7位置相關語言模型(續)位置性N詞模型使用結構化文件之位置資訊訓練階段將位置相同的文件段落合併成新的文件集，接著分別針對新的文件集訓練N 詞模型辨階段於詞圖重計分階段，比較歷史詞序列與第一名(Top 1)序列的長度，判斷目前欲辨詞的段落，使用固定位置之語言模型直接使用結合之位置性N詞模型，並線上調整權重以三模型為例SjjiiijiiiLwwwPwwwPPOS11212,|,|8位置相關語言模型(續)位置性機率式潛藏語意分析同時使用位置及主題資訊訓練階段最大化訓練語料相似度估測辨階段最大化

5、歷史詞序列相似度估測與亦可由歷史詞序列與第一名(Top 1)序列決定為一詞袋(Bag of Words)模型，需與N模型結合jkiLTwP,|,11KkjkiHwkSjHwjiiPosPLSALTwPMTPMLPHwwPiiiHwkMTP|iHwjMLP|iHwjMLP|9模型之比較混合主題式語言模型與位置性N詞模型混合主題式語言模型需要額外的分群技術，根據文件的主題做分群，每一群由許多相似的文件所組成，訓練不同主題之語言模型位置性N詞模型需要相似的文件結構，根據文件的段落做分割，再將同一段落收集起來，訓練不同段落之語言模型模型複雜度相同，皆為，為分群或分段數SVnS 10模型

6、之比較(續)機率式潛藏語意分析與位置性機率式潛藏語意分析模型複雜度機率式潛藏語意分析位置性機率式潛藏語意分析位置性機率式潛藏語意分析可視為兩層主題之機率式潛藏語意分析HTTVHLTLTV 11實驗設定語音特徵異質性線性鑑別分析配合最大相似度線性轉換做為語音特徵，並使用倒頻譜正規化法聲學模型訓練集為公視廣播新聞2001,2002年，約25.5小時最大化相似度及最小化音素錯誤訓練語言模型背景語言模型語料為中央通訊社新聞2001,2002年，約八千萬詞語言資訊調適語料為公視廣播新聞2001,2002年轉寫文字，約一百萬詞測試語料公視廣播新聞2003年，發展集1.5小時，評估集

7、1.5小時辨實驗進行於詞圖重計分階段，相關參數設定於發展集調整至最佳後再用於評估集 12實驗結果混合主題式語言模型主題數字錯誤率(%)語言複雜度119.23434.46219.12388.00319.06385.90419.17384.26818.95377.641618.80372.26位置性N詞模型段落數字錯誤率(%)語言複雜度119.23434.46219.08392.48319.11397.32419.08399.67819.19408.541619.35423.13混合主題式語言模型隨主題數增加效果變好，位置性N詞模型於段落數為2時結果最佳可能原因為主題經過分群技術，每一群更相似，而

8、段落僅是初步地平均分段，仍有不一致的可能 13實驗結果(續)機率式潛藏語意分析主題數字錯誤率(%)語言複雜度819.76563.701619.77554.073219.60545.146419.71539.6112819.55533.29位置性機率式潛藏語意分析字錯誤率(%)主題數81632位置219.7619.5719.63319.7319.6819.68419.6919.7519.68語言複雜度主題數81632位置2555.97546.27538.733547.90544.28537.774552.22554.66557.70機率式潛藏語意分析隨主題數增加效果變好位置性機率式潛藏語意分析與機率式潛藏語意分析效果相似 14結論與未來展望本論文主要探討詞位置資訊，詞在文件中的位置資訊可視為文件的樣式我們提出了位置相關語言模型，如位置性N詞模型與位置性機率式潛藏語意分析，將位置資訊整合至現有的模型，如N詞模型和機率式潛藏語意分析等未來可嘗試整合詞位置資訊於其他資訊相關語言模型，如詞主題混合模型等，或是探討詞於不同層次的位置資訊，如語句，段落等謝謝各位敬請指教

展开阅读全文