1、 資訊檢索技術參考資料:林秋燕曾元顯卜小蝶,Chap.1、3Chowdhury,Chap.91第1页,共22页。資訊檢索技術簡介資訊檢索技術簡介l目的l利用電腦儲存與計算能力,協助使用者從大量缺乏結構化(Non-structural)資料中,快速擷取所需l分析使用者資訊檢索需求意涵,嘗試提供解決方案l涵蓋各種類型資料之處理l文字、表格、圖片、文件l結構化 v.s.非結構化l包含所有分類、管理、儲存、搜尋大量電子資訊所需技術,以及對於使用者需求的認知2第2页,共22页。資訊檢索技術的發展資訊檢索技術的發展1/2l發展歷程l人工分類l關鍵詞技術lKWIClKWOCl全文檢索l索引搜尋l快速比對l高
2、品質全文檢索l各種技術標準問世lMARClSGMLlHTMLlZ39.50lXMLl兩大發展族群lSystem-centred modelslUser-centred or cognitive models3第3页,共22页。資訊檢索技術的發展資訊檢索技術的發展2/2比較重點比較重點早期研究方向早期研究方向最新研究方向最新研究方向資訊型態文字型態為主擴展至多媒體型式資料特性歷史性靜態資料及時性動態資料資料庫收錄範圍學術性,如書目文獻多元化,如即時新聞、Web Page等檢索技術以文字比對為基礎發展智慧型檢索技術服務層面允許有限人次檢索允許全球每日千萬人次上線檢索服務範疇限制在區域網路幾乎皆以廣
3、域網路為目標服務型態以公眾服務為主開始個人化資訊服務參與學門資訊科學、圖書資訊學大量科際整合,如電腦工程、電機工程、語言學、新聞傳播等4第4页,共22页。系統導向之資訊檢索技術模組系統導向之資訊檢索技術模組lBoolean model(布林邏輯查詢)lCluster-Based Model(串聯基礎模式)lVector-Space Model(向量模式)lProbabilistic Model(機率模式)lBest match searching model(最佳化查詢模式)lRelevance feedback model(相關回饋模式)lNatural language processin
4、g model(自然語言處理模式)lHypertext model(超文件模式)5第5页,共22页。Boolean modell提供檢索詞彙間AND、OR、NOT的組合l製作簡單、檢索速度快l可用不同欄位資料來限定檢索範圍,對主題明確的檢索(如明確的作者名稱、標題名稱)非常有效l但一般使用者比較難以利用此種模式表達較為複雜的查詢6第6页,共22页。Cluster-Based Modell理論基礎l假設相似的文件,應能符合類似的資訊需求l以串聯技術分析文件中所使用的詞彙(Term),找出文件與文件間的相似性(Similarities),相似性一樣者形成一個串聯(Cluster)。l利用此種自動歸
5、類(Automatic Clustering)方式,便能將內容相近的文件歸成一類,除能藉由此關連找出未包含檢索詞彙的相關文件,更能提供進一步的歸納、摘要,與主題辨識。7第7页,共22页。Vector-Space Modell將檢索系統所有的文件視為一個文件向量空間l每一篇文件則為這個空間內的一個點(一個向量)l使用者的查詢問句(query)亦視為文件向量空間的一個點l計算代表文件的向量與代表查詢問句的向量的相似性l系統依照文件與查詢問句相似性的大小,排列系統認為相關的文件 8第8页,共22页。Probabilistic Modell以文件(document)機率的大小決定該文件是否與使用者之查
6、詢問句(query)相關l使用者之查詢問句為已知條件,依據該查詢問句計算文件之機率lP(d|q)=P(d,q)/P(q)l超過一定機率的文件則被檢索系統認為符合使用者的檢索需求l機率的大小則為文件排序的依據9第9页,共22页。Best match searching modell採用Ranking理念(重要性排序)l檢索結果按符合程度排序,以加快檢索結果的檢視整理與利用,此為布林邏輯模式難以達到的重要功能l排序方式lTerm weightingl將查詢字串或文獻內的索引詞彙,依重要性分別給予加權比數。呈現檢索結果時,權重高的詞彙排序在前面。lDocument Rankingl利用詞彙權重評比,
7、來判斷文獻和檢索詞彙的相似度,可節省瀏覽無關資料的時間10第10页,共22页。Relevance feedback modell使用者根據系統對檢索條件的回應,將相關資料或條件回饋給系統,以導引系統搜尋的方向,逐步獲取自己所要的資料l執行初次檢索後,使用者根據系統回應,指出哪些文件或相關詞跟他的檢索主題相關或完全不相關,並將此訊息回饋給系統,系統便據此訊息,再作進一步的搜尋l相關回饋表現出來的檢索方式,常成為漸進式查詢(progressive query)或範例查詢(query by example)的模式。11第11页,共22页。Natural language processing mod
8、ell允許使用者以不限定的自然詞語、句法與系統溝通,因此使用者的負擔更輕,但系統的介面部份必須具備相當程度的人工智慧能力,以瞭解自然語言的意義。l三種處理層次lSyntactic analysis(語句結構分析)lSemantic analysis(語意分析)lPragmatic analysis(實際意涵分析)12第12页,共22页。Hypertext modell採用互動導覽方式,允許使用者瀏覽文件中個別不同內容,或同一文獻集中的不同文件。l跳脫原有線性循序閱讀方式l惟仍受限於設計者的思維模式13第13页,共22页。改善檢索品質的使用者查詢模式改善檢索品質的使用者查詢模式lInformat
9、ion filteringlPersonalized servicelQuery by voicelQuery by dialoglFuzzy searchlIntelligent search agentlInformation Mining14第14页,共22页。Information filtering(資訊過濾)(資訊過濾)l此種模式與使用者主動查詢資料而系統被動反應相反。l使用者向系統登錄自己的資訊需求、興趣或檢索條件後,由系統主動、持續的為使用者蒐集相關的資料,再定時或不定時傳給使用者,使用者只需被動接受檢索與過濾後的結果即可。因此,在一段期間內,使用者只需做一次檢索,即可獲得持續
10、的檢索結果。15第15页,共22页。Personalized service(個人化服務)(個人化服務)lAdaptive Information Retrievall檢索系統記錄個別使用者的資訊需求,或是把相同需求的使用者的記錄組合運用,讓使用者彼此的需求和興趣交互推薦,使得使用者查詢時,系統提供較符合個人興趣的回應,做到個別化的服務16第16页,共22页。Query by voice(語音檢索)(語音檢索)lConversational Information Retrievall由文字介面轉變為較為自然的口語語音介面,減低文字打字輸入的困難度,可以配合其他檢索模式運用。lSpeech r
11、ecognition voice-to-textlSpeech synthesis text-to-voice17第17页,共22页。Query by dialog(對話式查詢)(對話式查詢)l系統以文字或語音為介面同使用者對話,從對話中透露使用者的資訊需求與意圖,系統再據以檢索。l此種模式強調的是使用者端運用較為精緻的人機介面技術,因此與檢索技術的實際運作原理可以較無關係。18第18页,共22页。Fuzzy search(模糊搜尋)(模糊搜尋)l即容錯式、全文式、非控制字彙、近似字串(proximity)、允許利用近似自然語言的方式表達檢索字串與條件的檢索模式。l此種模式大大降低資訊檢索的複
12、雜度,對不明確自己檢索主題的使用者幫助尤其顯著。l尋易(CSmart)智慧型中文文件檢索系統 http:/www.sinica.edu.tw/csmart/index.html19第19页,共22页。Intelligent search agent(智慧型檢索精靈)(智慧型檢索精靈)l使用者將自己的資訊需求交代檢索精靈程式,由此精靈代替使用者到各個相關資料庫檢索資料,再回報回使用者。l此種模式是以上各種模式與人機介面技術的綜合運用,使得資訊檢索可以達到時空無礙、虛擬實境的境界。20第20页,共22页。Information Mining(資訊探勘)(資訊探勘)l發掘隱沒在大量文件內的訊息,協助
13、使用者發現知識、蒐集情報。lData Mining(資料探勘)l從結構化資料中,找出資料的相關性lDocument Mining(文本探勘)l從非結構化的資料中,找出資料的相關性21第21页,共22页。使用者導向資訊檢索模式使用者導向資訊檢索模式lIngwersens modell使用者的認知因其工作或興趣而不同,也造成其資訊需求和資訊行為的差異l社會和組織環境也會影響之lBelkins modellScanning to searching、Goal of interaction、Mode of retrieval、Resource condiseredlSaracevics modellCognitive、Affective、Situational22第22页,共22页。