1、中中 英英 雙雙 語語 知知 識識 本本 體體 與與 領領 域域 檢檢 索索 簡簡 介介黃居仁中央研究院語言學研究所籌備處92年3月26日後後 設設 資資 料料 雙雙 語語 標標 記記 及及 中中 英英 雙雙 語語 對對 應應 查查 詢詢 工工 作作 營營大綱n 前言n語言座標的具體內容n語意網:前瞻將來的網際網路n 語言的知識本體:任一語言中的詞義關係是完整知識體系的經緯n結語:知識運籌的基底架構前言前言:知識的運籌知識的運籌是網路使用的共同目標n知識的運籌是網路(資訊)使用者的共同目標,也是知識產業的基礎。n知識的運籌包括:搜尋,擷取,理解;以至於流通,加值,與獲利n知識的運籌的挑戰在於跨
2、越不同語言,不同時代,不同社會背景,不同知識範疇,不同概念等鴻溝。前言:語言是訊息的載體與知識的表徵結構n語言是訊息的載體:溝通包括了訊息的傳遞與知識的接收n語言是知識的表徵結構:語言是個人知識與天下知識間的媒介-a knowledge-based lexicalist view前言:前言:語言座標語言座標 提供了知識運籌的基本架構n讓不同來源的典藏知識內容,可以轉換成互通的(inter-operable)訊息。n以知識本體(ontology)為互通訊息的表達方式,是下一代語意網(Semantic Web)中不可或缺的基礎架構。n我們的語言座標,是以台灣通用的中文為出發點。前言:語言座標解答數
3、位典藏的What and HownWhat:典藏的內容知識與訊息n文本的知識內容是語言或文字nHow:知識與訊息表達的方式n非文本知識的表達與傳遞使用語言與文字最不受媒介所限,也最方便人的理解語言座標之一語言座標之一-跨語言資訊轉換n中英雙語檢索中文與其他語言轉換為長程目標。採用了詞彙網路(WordNet)的架構,為國際間詞彙知識庫通用的架構。有了英文對譯詞後,可經由EuroWordNet等網路上開放的資料庫,對應到20幾種語言。語言座標之二語言座標之二-語言資訊與概念架構(知識本體)的連結n連結使用SUMO為上層共用知識本體nSUMO:Suggested Upper Merged Ontol
4、ogyn可以由每個詞查到該詞在概念架構上的歸屬。n利用知識本體架構作知識內容分類與簡單推理如哺乳動物為溫血SUMO:Suggested Upper Merged Ontology nAn Upper Ontology created under IEEE Standard Upper Ontology Working Group.nMaintained and Accessible on web athttp:/ nProvides interface to English words through WordNet,as well as inference in 5 languagesn由本
5、計畫協助建構的中文介面即將完成Upper Ontology vs.Domain Ontologyn(Upper)Ontology:各領域,各典藏通用的知識架構,是跨領域/跨典藏知識內容交換與處理的基礎 E.g.SUMOnDomain Ontology:個別領域特有的知識結構,E.g.SUMO virus domain ontologyDomain Ontology(Cont.)nThe EMELD Domain Ontology of Linguistic Conceptshttp:/emeld.org/tools/ontology.cfmhttp:/emeld.douglass.arizon
6、a.edu:8080/searchindex.html E-MELD:Electronic Metastructure for Endangered Language Data 語言座標之三語言座標之三詞義的區分與詞義關係的連結n同一個詞可能有好幾個意義n稱之為詞義(Sense)n英文的bank可以是銀行,或河岸等;n中文的機關可以指機構組織,也可以指害人的陷阱等。n詞與詞之間有複雜的語意關係。n因而產生了許多的替帶說法與推論判斷.n喜歡籃球,是喜歡這個運動,而非喜歡這個球體。n電腦速度很快。Vs.CPU(中央處理器)速度很快。n詞彙網路提供了多重詞義與詞義關係的檢索。語言座標之四語言座標之四
7、使用領域n詞語因領域不同而有不同的用法與用法。不同領域也常有不同的概念架構。n領域之區分粗細不同,無法窮盡。n領域的定義因使用目的而產生。n語言座標提供了部分的領域標記檢索,以及回饋機制,讓使用者可以貢獻更多的領域標記。n領域的使用,可藉詞彙在不同領域(包括時代,區域,學門等)辭典中的分佈判定。國小課本中出現的詞彙與用法,屬於基本詞彙。語意網:前瞻將來的網際網路電腦也能看懂語意網Semantic Web一種新的網路內容形 式,能讓電腦理解其中的語意,勢必帶來新一波網路革命!科學人2002八月號46-56頁Scientific American,May 2001語意網將成為下一代的網際網路Ber
8、ners-Lee,Tim,James Hendler and Ora Lassila.The Semantic Web.Scientific American.August 2001.本文的主要作者伯納李正是網際網路的發明人。他對網路未來發展的宣告不可忽視。網路上的知識典藏如何因應?從全球資訊網到語意網全球資訊網仍只是人們交換文件的載體,其中的資訊是機器不能自動運用的。如果我們針對電腦,增加專門提供給電腦閱讀的網頁,我們就可把現有的網路轉換成語意網。電腦如何閱讀語意?n利用RDF(資源描述架構)與URI(通用資源標誌碼)連結到相關網頁/資源n藉超連結找到關鍵詞後n藉知識本體(Ontology)
9、定義關鍵詞,並做邏輯推理知識本體(Ontology)n對任一網頁/資源知識內容及資訊架構的描述與定義n以RDF(或類似語言)寫成的文件,清楚定義概念間的關係和推理的邏輯規則請注意資訊學中把ONTOLOGY當成知識/訊息的基底架構;與哲學中本體論的原定義大不相同我們關心的問題之一語意網將會使用什麼語言?Http:/www.w3.org/2001/swHttp:/www.SemanticWeb.orgHttp:/答案 甲English當然是英文,因為英文本來就是WWW上最廣泛使用的語言可是:十年後的網路與中文處理n朱邦復先生的宏願:九億農民上網n微軟研究院自然語言組經理周明的預測:五億中國人上網n
10、個人的預測:全世界上網人口中,每四人即有一人用中文Source:panel on Chinese Language Processing:10 Years from Now.The First SigHan Workshop on Chinese Language Processing.COLING2002.Sept.1.Taipei.答案 乙Any Language(s)任何語言都可。因為語意網是靠知識溝通,不是靠語言溝通Other languages:OWL,XML,etc我們關心的問題之二既然語意網主要依靠知識本體;特定語言與文本的知識管理還有需要嗎?答案 甲不需要因為知識本體的存在是獨
11、立於特定語言與文本之外的答案 乙當然還需要因為每個特定的語言或文本都是一個獨特的知識體系,唯有正確整理分析其知識內容,方能建立完整的知識本體知識本體的變遷知識的豐富性從何而來?-從文化,領域,環境,族群,社會階層,媒體,學科,時代等知識的豐富性如何體現?-以共同的語言語語彙(即所謂的次語言或行話與領域詞彙或專門辭典)語言的知識本體每個語言都有其架構完善的知識本體-語言(包括次語言)可以表達所有(領域內的)知識-說話者與聽話者之間知識的交換通常有效而正確任何人工知識本體的使用者,不論其數目或準確性,都不會超過語言本體的使用者語言本體本來就是文本典藏處理的必要資源語言中的詞義關係是完整知識體系的經
12、緯語言中的詞義關係是完整知識體系的經緯如何呈現語言的知識本體?詞彙網路WordNet是最直接的語言本體表徵 詞彙網路的構成元素:某個語言內所有的詞彙(任一個詞形lemma與詞義sense的獨特配對定義為一個詞彙)該語言表達的所有概念(即所有詞義sense)一組基本的詞彙語意關係詞彙網路的架構n以詞義為基準,把有相同詞義的所有詞彙放在一個同義詞集(SynSet)同義詞集即是表達相同概念的所有詞的集合n以定義過的詞彙語意關係,連結所有的同義詞集即是建立所有概念間的語意關係除同義,反義,近義外,更重要的有上位,下位,及功能等關係詞彙網路提供的知識基本架構 nSynset:詞彙驅動的概念(知識)單位n
13、Semantic Relation:概念連結與知識衍生的基本關係專家(such as reference librarian)用什麼方法找keyword找不到的資料?詞彙網路與(圖書館學中的)索引典 n索引典建立在 equivalence class 的概念上,原則上只標記同義關係(synonymy)可以很快找到預先設定的固定類別 問題:分類定義 因 時/地置宜 n蕃薯,本地 芋頭,外來 n nEquivalence Classes vs.Relational Classes-下載,下載,拷貝,錄製-數位檔案數位檔案,電子檔,機讀檔,程式-音樂音樂.-相片相片-小說小說-貝多芬,李玟,貝多芬,
14、李玟,Stephen King,Steve Martin,Harry Potter(How about 閱讀,欣賞,買)詞義關係antonymy反義關係hypernymy上位關係hyponymy下位關係holonymy整體部份關係meronymy部份整體關係metonymy轉指關係near-synonymy近義關係synonymy 同義關係troponymy方式關係antonym/antonymy【反義詞】/反義關係 man-NANTONYM woman-N to sell and to buy例一:胖與瘦例二:買與賣hypernym/hypernymy【上位詞】泛稱詞/上位關係 ncar N
15、HAS_HYPERONYM vehicle Nn佛教 宗教n禪宗 佛教holonym/holonymy 整體詞/整體部份關係ndoor and roomnfinger and handn筆劃與字meronym/meronymy 部份詞/部份整體關係 n 09 部件_整體詞_為HAS_HOLO_PARTn10 部件_部份詞_為 HAS_MERO_PART整體及其組成單元,例如,桌腳與桌子:n11 成員_整體詞_為 HAS_HOLO_MEMBERn12 成員_部份詞_為 HAS_MERO_MEMBER集合及成員,例如,球員與球隊,內政部與內閣meronym/meronymy 部份詞/部份整體關係
16、n13 單位_整體詞_為HAS_HOLO_PORTIONn14 單位_部份詞_為HAS_MERO_PORTION飯與飯粒飯與飯粒n15 成份_整體詞_為HAS_HOLO_MADEOFn16 16 成份成份_ _部份詞部份詞_ _為為HAS_MERO_MADEOF HAS_MERO_MADEOF 實體及其構成材料,例如,紙張與書籍實體及其構成材料,例如,紙張與書籍n17 17 區域區域_ _整體詞整體詞_ _為為HAS_HOLO_LOCATIONHAS_HOLO_LOCATIONn18 18 區域區域_ _部份詞部份詞_ _為為HAS_MERO_LOCATIONHAS_MERO_LOCATION
17、綠洲是沙漠的一部份綠洲是沙漠的一部份metonym/metonymy 轉指詞/轉指關係 n思科思科(宣布裁員)n台北(主辦COLING2002)troponym/troponymy:方式詞/方式關係nmove walk,run,jogn 煮煎,炒,炸,燉Involved 涉入n19 導致CAUSESn20 肇因於IS_CAUSED_BYExample(1):to kill and to dieExample(2):murder and death例一:筆誤(N)與錯字(N)n21(角色)涉入ROLEn22 涉入角色_有INVOLVEDn23 施事者_角色ROLE_AGENTn24 涉入_施事者
18、INVOLVED_AGENTn25 經歷者_角色 ROLE_PATIENTn26 涉入_經歷者 INVOLVED_PATIENTInvolved 涉入n27 工具_角色ROLE_INSTRUMENTn28 涉入_工具INVOLVED_INSTRUMENTn29 場所_角色ROLE_LOCATIONn30 涉入_場所INVOLVED_LOCATIONn31 動向_角色ROLE_DIRECTIONn32 涉入_動向INVOLVED_DIRECTIONn33 動向起點_角色 ROLE_SOURCE_DIRECTIONn34 涉入_動向起點 INVOLVED_SOURCE_DIRECTIONn35 動
19、向終點_角色 ROLE_TARGET_DIRECTIONn36 涉入_動向終點 INVOLVED_TARGET_DIRECTIONn37 副事件_為 HAS_SUBEVENTn38 副事件_隸屬 IS_SUBEVENTn39 處於_狀況 BE_IN_STATEn40 狀況_隸屬 STATE_OFWordNet 1.5.詞彙網路(Princeton的原始英文詞網)Since 1990www.cogsci.princeton.edu/wn/Monolingual:EnglishEuroWorNet(EWN)歐語詞網 Since 1996http:/www.hum.uva.nl/ewn/Multil
20、ingual:Basque,Catalan,Czech,Dutch,French,English,Estonian,French,German,Italian,Spanish,(Swedish,Norway,Danish,Greek,Portuguese,Romanian,Lithuan,Russian,Bulgarian,Slovenic)HowNet 知網(董振東的中文知識網路)Since 1999 http:/Bilingual:EC,CE(pre-set ontology)Academia Sinicas Chinese WordNet n Since 2000n English-Ch
21、inese Bilingual(first stage)n語言座標計畫nhttp:/corpus.ling.sinica.edu.tw/project/LanguageArchive(理想的)知識本體 Ontologyn表達人類共同的概念結構,與結構中隱函的推理過程n獨立於個別知識本體之外,而有所有知識本體的共同上層概念。提供了不同知識本體間連結與解讀的基準n最重要的是表達人類人之的知識概念結構,而非理論上的抽現邏輯結構n容許多重繼承兼顧表相與本體的知識本體之一 virtual.cvut.cz/kifb/en/toc/34.html存在物 physical實體 object物件 self co
22、nnected object自聯完整體 content bearing object涵內容體 linguistic expression語言表達方式 text文本文本 book書書 兼顧表相與本體的知識本體之二entity存在物 physical實體 object物件 self connected object自聯完整體 corpuscular object含部件體 artifact人造物 text文本文本 book書書 知識的演化若設計得當,語意網將有助於人類的總若設計得當,語意網將有助於人類的總體知識演化體知識演化網頁的知識本體提供了不同知識體系的完整描述URI在每個知識體系中明確描述了每個概念語意網將有助於概念的溝通與知識體系的整合知識運籌的基底架構nTowards a linguistic infrastructure for KR and KEnThe CriterianLexicon-drivennMutlilingualnDomain Inter-operablenOur PrototypeAn English-Chinese Bilingual Interface of General and Domain-specific Ontologieshttp:/ckip.iis.sinica.edu.tw/CKIP/ontology