中文文字语音文件中类专有名词撷取及其可能应用之初步研究An课件.ppt_163文库

资源描述

1、中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究An Initial Study on Named Entity Extraction from Chinese Text/Spoken Documents and Its Potential Applications指導教授：李琳山博士共同指導：陳信希博士研究生：劉禹吟簡介本論文處理的類專有名詞類別包含人名、地名與組織名。類專有名詞辨識是希望在文件中標註出正確的類專有名詞邊界與類別。語音文件中的類專有名詞辨識：l在有語音辨識錯誤的語音文件中找出類專有名詞出現處l有助於語音摘要、語音問答、和語音對話系統的處理類專有名詞類別舉例人名(P

2、ER)托尼布萊爾陳水扁、馬市長地名(LOC)胡志明市、中山堂鶯歌、七堵赴美、中日關係組織名(ORG)聯合國安理會台灣積體電路製造股份有限公司中油、台塑美國國務卿鮑爾在華府外籍記者中心表示.綱要文字文件中類專有名詞辨識語音文件中類專有名詞辨識類專有名詞辨識衍生之應用結論文字文件中的類專有名詞辨識類別語言模型法派樹式規則法文字文件中類專有名詞辨識-類別語言模型法的概念類別的種類：l人名類別、地名類別、組織名類別、辭典中詞彙每一個詞各自是一個類別若辭典中有|V|個詞彙，則總共的類別數有|V|+3個基本概念：給定中文句子S，W為S的可切分詞串，C為W對應的類別，利用維特比搜尋找出滿足P(C,W)

3、最大的最佳詞序列W*和W*對應的最佳類別序列C*,arg max(,)arg max(|)()C WC WC WP C WP W C P C11212113()(.)(|)(|,)(|,)(/|,)mmiiimmiP CP ccP csP ccsP c ccPscc111(|)(.|.)(|)mmmiiiP W CP wwccP w c類別前後文模型類別生成模型各種類別語言模型的機率估計各種類別生成模型估計l人名類別 (字元二連語言模型)中國人名、外國人名分成兩種機率模型例：李小龍l巢狀類別 (類別二連語言模型)地名、組織名例：宜蘭清水公園l一般詞彙類別每一個辭典中詞彙各自是一個類別生

5、詞網紀錄各類別候選詞於詞網上，並記錄其生成機率一般詞彙、人名類別、地名類別、組織名類別l正向動態規劃(維特比搜尋)從句首至句尾對每一個候選詞計算到該位置為止，滿足p(c,w)最大的最佳路徑，紀錄最佳分數及回溯指標l反向回溯找出最佳的詞序列及對應的類別序列從句尾中有最高路徑分數的候選詞開始回溯至句首(3)反向回溯(2)正向維特比搜尋 c*,w*=max p(c*)*p(w*|c*)(1)建構詞網演算法運作流程處理句子：台北市中正紀念堂是為了紀念蔣中正先生一般詞網示意圖市中紀正念堂是為了紀北台念蔣中先生正34657891011122113 14 1517 1816台北中正紀念紀念堂紀念蔣

6、中正先生中正(p)紀念(p)紀念堂(p)堂是(p)堂是為(p)紀念(p)蔣中(p)蔣中正(p)紀念蔣(p)台北(l)台北市(l)正紀念堂(l)中正紀念堂(l)市中正紀念堂(l)北市中正紀念堂(l)台北市中正紀念堂(l)一般詞彙類別每個詞的生成機率皆為1。如：p(紀念|紀念)=1計算人名類別的生成機率。如：p(紀念|人名)=P(紀|)*p(念|紀)*p(|念)生成機率計算:做內部維特比搜尋內部維特比搜尋，得出最佳類別序列和最佳最佳機率機率為了最佳類別路徑最佳類別路徑(C*):LOC 是是為了為了紀念紀念 PER 先生先生最佳詞路徑最佳詞路徑(W*)：台北市中正紀念堂台北市中正紀念堂是是為

9、派樹式類專有名詞抽取:使用整篇文章所包含的樣式統計資訊及該樣式所有出現過的前後文幫助抽取類專有名詞金門縣長縣長陳水在昨天呼籲昨天呼籲兩岸，陳水在表示表示，陳水在當初擔任臺北縣鶯歌鎮鎮的陶瓷，鶯歌有許多賣精美陶瓷的店家，要到到鶯歌遊玩遊玩的民眾可以搭乘遊戲橘子集團集團高階人事異動，對於遊戲橘子跨足研發領域，遊戲橘子旗下旗下的產品多數是以代理自韓國為主，遊戲橘子董事長董事長劉柏園表示縮寫類專有名詞尤以娛樂、財經、體育、科技新聞居多，使用單純類別語言模型法較難偵測出。派樹式規則法-派樹式類專有名詞抽取概念派樹：是一種很有效率的資料結構，在資訊檢索的領域使用很多建構派樹：將處理的文章中每一個語意片

10、段中的後部字串(suffix string)加入派樹中l正向派樹、反向派樹優點：可以容易地獲得任意字串在整篇文章中的出現頻率及所有前後文l統計值(左右相連詞變異度)可判斷詞的邊界完整性l前後文字串可以用來判斷類別sYZX1X2RC1RC2RC3LC3LC2LC1X:陳水在X1:陳水在X2:在水陳Y:陳水Z:在水RC1:陳水在說*RC2:陳水在強調*RC3:陳水在昨天呼籲*LC1:在水陳長縣門金*LC2:在水陳，*LC3:在水陳當*正向派樹可以容易地查詢字串的所有後文(RC)反向派樹可以容易地查詢字串的所有前文(LC)正向派樹：S=今天在總統府Suffix strings:今天在總統府天在總統府

11、在總統府總統府統府府反向派樹：S=府統總在天今Suffix strings:府統總在天今統總在天今總在天今在天今天今今派樹式規則法-派樹式類專有名詞抽取流程對整篇文章建構正向及反向派樹估計候選字串的邊界完整性選擇證據分數最高分且超過門檻值的類別檢驗字串內部及外部前後文資訊記錄各類別證據分數抽取出的類專有名詞槽(,)|max()(,)|max()cbLCcbRCfwLCt andtf wf wRCt andtf w內部特徵：內部特徵：人名：人名機率是否大過門檻值地名、組織名：內部是否有關鍵詞(隊、鄉)外部特徵：外部特徵：人名：頭銜、發言動詞地名：重要前後文(抵達、飛往，地區、附近、市)組織名：重

12、要前後文(大廠、廠商，公司)組合特徵：組合特徵：搭配內部及外部特徵對各類別記錄證據分數。(詳述於論文中)處理派樹中出現頻率=tf 的字串興農：AORG兄弟：AORG天母球場:LOC使用字串的前後文變異統計值做抽詞繼續判斷候選字串可能的類專有名詞類別w=馬英=九f(w,)/f(w)=tb，則 w=馬英可能不是一個邊界完整的詞一次輸入一個句子派樹式規則法系統架構單篇文件斷詞與特性標註人名辨識巢狀類專有名詞辨識類專有名詞的結合單字詞類專有名詞辨識派樹式類專有名詞抽取抽取出的類專有名詞槽快取類專有名詞槽類專有名詞重要相關詞彙列表輸出標註類專有名詞的句子一般辭典LOC PERAPERLOCALOC*C

13、ontent Word*LOC_KEYORG PERAPERLOCALOCORGAORG*Content Word*ORG_KEY組成結構及邊界判定(STOP,LOC_LEFT_CONTEXT_KEY)人名機率門檻值限制及邊界判定(STOP,TITLE,PER_SPOKEN_VERB)斷詞法：後向最大匹配與特性標註LOC LOC*ORG ORG*ORG-LOC ORG聯合國安理會大陸上海中國的中、日本的日等。中美關係，日韓代表，中、韓、日三方。SCNE patternSCNE*co-occur pattern 美總統布希、日相、英首相布萊爾、美代表、以代表 SCNE title 美方、日方、美

14、軍、伊軍、中方美重申、美發表、從派樹中查詢整篇文章中是否出現過澳洲、澳門、澳大利亞、澳國，若有，則澳字單獨出現時可能是地名，如：澳代表輸入整篇文章文字文件類專有名詞辨識實驗-測試語料測試語料：lMUC-7(Message Understanding Conference-7)的MET-2(Multilingual Entity Task)測試語料，為大陸簡體字、火箭發射相關新聞共100則類專有名詞統計量評分方法：l精確率、回收率lF-測量=(2*精確率*回收率)/(精確率+回收率)類別出現次數人名174地名750組織名377文字文件類專有名詞辨識實驗結果訓練語料：台灣雅虎網路新聞8天份，1萬多

15、篇的自動標註新聞訓練語料：大陸人民日報一個月的自動標註類專有名詞新聞CED電子辭典、已知各類專有名詞列表CED電子辭典派樹式類專有名詞抽取、類專有名詞暗示詞列表、經驗法則詞網中只加入結尾有關鍵詞的巢狀類別候選詞句子中所有子字串都當成可能的巢狀類別候選詞並加入詞網中派樹式規則法表現最好類別語言模型法會受到訓練語言模型優劣影響好壞類別語言模型法只偵測結尾有關鍵詞的巢狀類別結果較好語音文件中的類專有名詞辨識轉寫文件直接辨認結合關鍵詞辨識可信度分數門檻值限制結合時間與主題同質的類專有名詞匹配語音文件中類專有名詞辨識-測試語料News98 2002年9月份200則語音新聞經由時間同質調適語料做語言模型調

16、適的語音辨識結果l音節辨識率較字元辨識率高許多測試語料中類專有名詞統計量字元辨識率音節辨識率87.99%93.42%類別出現次數人名315地名457組織名500轉寫文件直接類專有名詞辨識實驗結果類別語言模型法:73.00派樹式規則法:80.01當成基礎結果轉寫文件直接類專有名詞辨識-結果觀察直接辨識的問題：l將辨識錯誤處當成對的類專有名詞例子：郭塘又缺少運動的婦女 (過糖)導致精確率降低l辨識錯誤的類專有名詞無法回收例子：立委甚至會帶領 (沈智慧)導致回收率降低提出方法：結合關鍵詞辨識可信度分數門檻值提出方法：結合時間與主題同質的類專有名詞匹配PER:沈智慧ORG:立法院郭字辨識錯誤“甚至

17、會”是辨識錯誤結合關鍵詞辨識可信度分數門檻值限制語音辨識信心測量，以CM(confidence measure)代表人名：l當中國人名姓氏或外國人名首字沒有重要前後文一同出現時(頭銜、發言動詞)，可信度必須大過門檻值tkey，才當成可能的候選詞l例：(過糖)地名、組織名：l當結尾關鍵詞(市、廠、鄉)可信度大過門檻值tkey 時，才當成可能的候選詞如何設定關鍵詞可信度門檻值(tkey)呢？先對可信度分數大小做觀察結合關鍵詞可信度門檻值限制CM(郭)tkey?則詞網中不加入此中國人名候選詞塘又乏缺運郭婦的動女郭塘缺乏運動婦女直接辨認法:PER 又缺乏運動的婦女郭塘又缺乏運動的婦女

18、最佳輸出結果中每個詞可信度分數計算詞圖(word graph)中節點辨識可信度分數計算：l詞圖中每一個節點的可信度分數，是將經過該節點的所有路徑事後機率相加而得最佳輸出結果(1-best)的每個詞的可信度分數計算：l在詞圖中將時間點有重疊且候選詞一樣的節點可信度分數相加得到l為了避免在詞圖中找不到對應最佳輸出的路徑，通常會建構較龐大的詞圖詞圖大小與可信度的關係：l詞圖愈大保留的候選詞就愈多，每個候選詞的路徑機率會被分散掉，使得可信度分數平均而言會變小。關鍵詞辨識可信度分數門檻值估計-可信度分數排序觀察 (200則開發集)辨識正確詞的可信度有10%只在0.01以下可信度值偏小設的可信度門檻值不

19、宜太高類別語言模型法-結合關鍵詞辨識可信度分數門檻值實驗結果辨識可信度門檻值設得愈高，表示要求的精確率愈高，然而回收率可能下降加入可信度分數門檻值有可能得到較好的F-測量(73.00 73.41)派樹式規則法在可信度門檻值0.01時也可得到較好的F-測量(80.01 80.09)If CM(W關鍵詞)tkey，表示可能為辨識錯誤，不當成可能的類專有名詞候選詞繼續處理結合時間與主題同質的類專有名詞匹配(幫助回收率增加)時間同質新聞語料庫時間同質新聞語料庫及類專有名詞庫時間與主題同質類專有名詞庫單篇語音文件錯誤修正後的類專有名詞標註語音文件發音相似度矩陣發音辭典文字文件類專有名詞辨識器資訊檢索結合

20、類專有名詞匹配的類專有名詞辨識使用TF*log(IDF)計算出語音文件與各篇純文字文件的文件向量相似度找出最相似的前20篇且相似度大於0.2的文字文件後端前處理2002年9月份雅虎奇摩網路新聞，可透過網路抓取每篇文字新聞中的類專有名詞都已經自動抽取出來了。如：文件No.1.PER 陳金鋒ORG 洛杉磯道奇隊 LOC 美國美國總統布希間表示不惜雖然堅稱國務卿鮑爾在眾議院談伊拉克問題文件No.56相似度0.6PER 鮑爾 3ORG 眾議院 2PER 布希 7 PER 布萊爾 1LOC 美國 3文件No.12相似度0.5LOC 伊拉克 6PER 布希 3ORG 參議院 2美國(loc)總統布希(

22、希 7 LOC 美國 3文件No.124相似度0.5LOC 伊拉克 4ORG 蓋達組織 2 PER 賓拉登 2PER 布希 3單篇語音文件時間與主題同質類專有名詞庫美國總統布希間表示不惜雖然堅稱國務卿鮑爾在眾議院談伊拉克問題尋找可匹配處字元完全匹配音節完全/近似匹配匹配到的候選詞做類別生成機率調適(|,)(1)(|)(|)cachecachecachecacheP w c cP w cP w c匹配處的處理類別語言模型法-時間與主題同質的類專有名詞匹配惜雖堅然稱不國總布統希美示表間美國總統表示美國布希布希間P(美國|LOC)=(1-cache)P(美國|loc)+cache P(美國|loc

24、來的好(cache=0.6時最好)回收率隨著cache提升類別語言模型法結合關鍵詞可信度分數門檻值、字元完全匹配及類別生成機率調適實驗結果(F-測量)希望精確率與回收率都能提升關鍵詞可信度分數門檻值:If CM(W關鍵詞)tkey,表示可能為辨識錯誤，不當成可能的類專有名詞候選詞繼續處理tkey類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果(F-測量)字元完全匹配最好的結果為:cache=0.6,tkey=0.1F-測量從 73.0078.42放鬆匹配條件至音節近似匹配時，我們固定cache=0.6,tkey=0.1，研究字元修正信心分數門檻值tcorrect在不

25、同設定下的結果CM(不惜)tcorrect則加入”布希”至詞網tcorrect=0.6時，tsyll_sim=2.0時，F-測量進步到79.50類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果(語音辨識率)語音字元辨識率也從87.99提升到88.17類別語言模型法結合關鍵詞可信度分數門檻值、音節匹配及類別生成機率調適實驗結果觀察音節完全匹配時最好的設定下：類專有名詞F測量:從73.00 79.50 語音字元辨識率:從87.99 88.17結合時間與主題同質的類專有名詞匹配-派樹式規則法非類別語言模型法的統計式解歧異，因此，以設定快取語言模型的機率門檻值(tcache

26、)作為匹配的限制惜雖堅然稱不惜雖堅然稱不布希根據匹配特徵限制：音節相似度=tsyll_sim CM(不惜)tcache 音節完全/近似匹配布希最好的設定為：關鍵詞可信度門檻值 tkey=0.01快取語言模型門檻值 tcache=0.2音節近似匹配 tsyll_sim=1.7字元修正信心分數門檻值 tcorrect=0.6F-測量：80.01 80.93語音字元辨識率：87.99 88.16(|)cachecacheP w ct語音文件中類專有名詞辨識最佳設定結果比較結合關鍵詞可信度分數門檻值及時間與主題同質的類專有名詞匹配l關鍵詞可信度分數門檻值提高精確率l時間與主題同質的類專有名詞匹配提高回

27、收率l兩者結合使用可同時提高精確率與回收率l類別語言模型法：tkey=0.1,cache=0.6,tsyll_sim=2.0,tcorrect=0.6時，F-測量 73.0079.50 l派樹式規則法：tkey=0.01,tcache=0.2,tsyll_sim=1.7,tcorrect=0.6時,F-測量 80.0180.93類專有名詞辨識衍生之應用自動建立類專有名詞索引之資訊檢索系統網際網路語音問答系統類專有名詞辨識衍生之應用-自動建立類專有名詞索引之資訊檢索系統幫助使用者瞭解新聞語料庫中重要的資訊，並提供使用者檢索的詞彙類專有名詞辨識衍生之應用-網際網路語音問答系統問問題Google共檢

28、索出2750篇檢索詞重寫(Query Reformulation)將檢索出來的網頁摘要(Snippet)做類專有名詞辨識(選取前N篇)可能答案排序可用語音合成方式唸出最可能的答案結合語音輸入、語音合成，以自然語言在網路上做問答，並以類專有名詞辨識淬取出重要的資訊，在未來是一個發展趨勢結論文字文件中類專有名詞辨識l類別語言模型法：在有優值語言模型的情形下，解歧異功能最好不容易處理無關鍵詞結尾的巢狀類別l派樹式規則法：可抽出許多無關鍵詞的類專有名詞在新聞領域測試語料中可以達到很好的效果l統計式的類別語言模型法及派樹式規則法各有優劣處語音文件中類專有名詞辨識l結合關鍵詞可信度分數門檻值限制及時間與主題同質的類專有名詞匹配可以同時增加精確率與回收率，F-測量可以進步許多做了類專有名詞辨識後的語音文件可以幫助瀏覽、建構索引、實作問答等系統，對於語音摘要也能帶來幫助謝謝各位

展开阅读全文