1、使用位置資訊於中文續語音辨使用位置資訊於中文續語音辨邱炫盛,羅永典,陳韋豪,陳柏琳國立台灣師範大學資訊工程研究所 2大綱 語言模型之研究 文件主題相關語言模型 混合主題式語言模型 機率式潛藏語意分析 位置相關語言模型 位置性N詞模型 位置性機率式潛藏語意分析 模型之比較 實驗結果與分析 結論與未來展望 3語言模型之研究 語言模型 代表自然語言規則或語意,可應用於各種自然語言處的域中 語言模型於語音辨 輔助解決聲學上的混淆,限制辨結果符合人語言風格 使用不同資訊之語言模型 詞相關語言模型 詞別相關語言模型 語句結構相關語言模型 文件主題相關語言模型 4文件主題相關語言模型 混合主題式語言模型 透
2、過結合不同主題之語言模型呈現語料中不同主題性的詞分布 訓練階段 以文件為單位,將訓練語料根據不同的主題分群,然後分別對每一份具有相同或相似主題的語料訓練語言模型 辨階段 結合不同主題之語言模型,並於辨過程中調整權重KkkiiikiiiMIXMwwwPwwwP11212,|,|5文件主題相關語言模型(續)機率式潛藏語意分析 透過隱藏的主題,表示詞與文件(歷史詞序列)的關係 訓練階段 最大化訓練語料相似度估測 辨階段 最大化歷史詞序列相似度估測 為一詞袋(Bag of Words)模型,需與N模型結合 線性插補kiTwP|KkHwkkiiiPLSAiMTPTwPHwwP1|iHwkMTP|iiPL
3、SAiigramNiiHwwPHwwPHwwP|1|6位置相關語言模型 詞位置資訊 第一段主要是主播的開場白或是一些接詞 第二段則是主要新聞事件的內容,包含一些內容詞 第三段也是新聞的內容或是一些承接前幾段的說法 第四段則是新聞報導的結束及記者名字等 第一與第四段較具有明顯特性,而中間段落則因為是新聞事件則較無規律 結構化的文件之中,會有位置的資訊可以使用,如果文件群有相似的文件結構,可以收集其統計資訊第一段:您、公布、宣布、轉到、鏡頭、下面、專題報導、晚安、接下來第二段:蠻、大概、米酒、那麼、我、我們、念書、了解、裡面、珊瑚第三段:比方說、譬如說、上面、或者、大概、老師、身分、裡面、小孩子第
4、四段:公視、編譯、採訪、瑤、蕙、綾、諭、煌、保羅第一到第四段:就是說、這樣子、這邊 7位置相關語言模型(續)位置性N詞模型 使用結構化文件之位置資訊 訓練階段 將位置相同的文件段落合併成新的文件集,接著分別針對新的文件集訓練N 詞模型 辨階段 於詞圖重計分階段,比較歷史詞序列與第一名(Top 1)序列的長度,判斷目前欲辨詞的段落,使用固定位置之語言模型 直接使用結合之位置性N詞模型,並線上調整權重 以三模型為例SjjiiijiiiLwwwPwwwPPOS11212,|,|8位置相關語言模型(續)位置性機率式潛藏語意分析 同時使用位置及主題資訊 訓練階段 最大化訓練語料相似度估測 辨階段 最大化
5、歷史詞序列相似度估測與 亦可由歷史詞序列與第一名(Top 1)序列決定 為一詞袋(Bag of Words)模型,需與N模型結合jkiLTwP,|,11KkjkiHwkSjHwjiiPosPLSALTwPMTPMLPHwwPiiiHwkMTP|iHwjMLP|iHwjMLP|9模型之比較 混合主題式語言模型與位置性N詞模型 混合主題式語言模型 需要額外的分群技術,根據文件的主題做分群,每一群由許多相似的文件所組成,訓練不同主題之語言模型 位置性N詞模型 需要相似的文件結構,根據文件的段落做分割,再將同一段落收集起來,訓練不同段落之語言模型 模型複雜度相同,皆為,為分群或分段數SVnS 10模型
6、之比較(續)機率式潛藏語意分析與位置性機率式潛藏語意分析 模型複雜度 機率式潛藏語意分析 位置性機率式潛藏語意分析 位置性機率式潛藏語意分析可視為兩層主題之機率式潛藏語意分析HTTVHLTLTV 11實驗設定語音特徵 異質性線性鑑別分析配合最大相似度線性轉換做為語音特徵,並使用倒頻譜正規化法聲學模型 訓練集為公視廣播新聞2001,2002年,約25.5小時 最大化相似度及最小化音素錯誤訓練語言模型 背景語言模型語料為中央通訊社 新聞2001,2002年,約八千萬詞 語言資訊調適語料為公視廣播新聞2001,2002年轉寫文字,約一百萬詞 測試語料 公視廣播新聞2003年,發展集1.5小時,評估集
7、1.5小時辨實驗進行於詞圖重計分階段,相關參數設定於發展集調整至最佳後再用於評估集 12實驗結果混合主題式語言模型主題數字錯誤率(%)語言複雜度119.23434.46219.12388.00319.06385.90419.17384.26818.95377.641618.80372.26位置性N詞模型段落數字錯誤率(%)語言複雜度119.23434.46219.08392.48319.11397.32419.08399.67819.19408.541619.35423.13混合主題式語言模型隨主題數增加效果變好,位置性N詞模型於段落數為2時結果最佳可能原因為主題經過分群技術,每一群更相似,而
8、段落僅是初步地平均分段,仍有不一致的可能 13實驗結果(續)機率式潛藏語意分析主題數字錯誤率(%)語言複雜度819.76563.701619.77554.073219.60545.146419.71539.6112819.55533.29位置性機率式潛藏語意分析字錯誤率(%)主題數81632位置219.7619.5719.63319.7319.6819.68419.6919.7519.68語言複雜度主題數81632位置2555.97546.27538.733547.90544.28537.774552.22554.66557.70機率式潛藏語意分析隨主題數增加效果變好位置性機率式潛藏語意分析與機率式潛藏語意分析效果相似 14結論與未來展望 本論文主要探討詞位置資訊,詞在文件中的位置資訊可視為文件的樣式 我們提出了位置相關語言模型,如位置性N詞模型與位置性機率式潛藏語意分析,將位置資訊整合至現有的模型,如N詞模型和機率式潛藏語意分析等 未來可嘗試整合詞位置資訊於其他資訊相關語言模型,如詞主題混合模型等,或是探討詞於不同層次的位置資訊,如語句,段落等謝謝各位敬請指教