资讯检索系统测试集之比较课件.ppt

上传人(卖家):晟晟文业 文档编号:5172878 上传时间:2023-02-16 格式:PPT 页数:39 大小:236KB
下载 相关 举报
资讯检索系统测试集之比较课件.ppt_第1页
第1页 / 共39页
资讯检索系统测试集之比较课件.ppt_第2页
第2页 / 共39页
资讯检索系统测试集之比较课件.ppt_第3页
第3页 / 共39页
资讯检索系统测试集之比较课件.ppt_第4页
第4页 / 共39页
资讯检索系统测试集之比较课件.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

1、資訊檢索系統測試集之比較 圖書與資訊學刊第29期(1999年5月)by 江玉婷,陳光華台大圖資所碩士論文IR System Evaluation-2測試集(Test Collections)z組成要素y文件集(Document Set;Document Collection)y查詢問題(Query;Topic)y相關判斷(Relevant Judgement)z用途y設計與發展:系統測試y評估:系統效能(Effectiveness)之測量y比較:不同系統與不同技術間之比較z評比y根據不同的目的而有不同的評比項目y量化的測量準則,如Precision與RecallIR System Evalua

2、tion-3測試集(Test Collections)(續)z小型測試集y早期:Cranfieldy英文:SMART,OHSUMED,Cystic Fibrosis,LISA.y日文:BMIR-J2z大型評比環境:提供測試集及研討的論壇y美國:TRECy日本:NTCIR,IREX,y歐洲:AMARYLLIS表一、各測試集之基本資料相關判斷層次測試集文件數文件集大小(MB)平均字數/文件查詢問題數平均字數/查詢問題平均相關文件數/查詢問題主題領域相關不相關語文Cranfield II 1,4001.653.12259.27.2太空動力學41 英文ADI 820.0427.1 3514.69.5文

3、獻學N/A英文MEDLARS 1,0331.151.6 3010.123.2醫學22 英文TIME 4231.5570 2416.08.7世界情勢N/A英文CACM 3,2042.224.5 6410.815.3ACM通訊N/A英文CISI 1,4602.246.511228.349.8資訊科學N/A英文NPL11,4293.120.01007.222.4電子、電腦、物理、地理N/A英文INSPEC 12,684N/A32.5 8415.633.0物理、電子、控制21 英文ISILT 800N/AN/A 63N/A8.4文獻學11 英文UKCIS 27,361N/A182193N/A57生化2

4、2 英文UKAEA 12,765N/AN/A 60N/AN/A核子科學21 英文LISA6,0043.4N/A 35N/A10.8N/AN/A英文CysticFibrosis1,239N/A49.71006.86.4-31.9醫學61 英文OSHUMED348,566N/A2501011017/19.4N/A21 英文BMIR-J2 5,080N/A621.8 60102.210.6/28.4經濟、工程21 日文TREC(TREC-16)1,754,8965GB481.6350105.8185.3多主題11 英文AMARYLLIS336,000201N/A 56N/AN/A多主題N/A法文NT

5、CIR300,000N/AN/A100N/AN/A多主題21 日文IREXN/AN/AN/AN/AN/AN/A多主題21 日文IR System Evaluation-5Cranfield IIz比較33種不同索引方式之檢索效益z蒐集1400篇有關太空動力學的文件(摘要形式)z請每位作者根據這些文件與其當時研究的主題提出問題,經篩選後產生200餘個查詢問題IR System Evaluation-6Cranfield II(Continued)zCranfield II測試集中相關判斷建立四個步驟y首先請提出查詢問題的建構者對文件後所附之引用及參考文獻進行相關判斷y接著請五位該領域的研究生將查

6、詢問題與每篇文件逐一檢視,共花了1500小時進行了50萬次以上的相關判斷,希望能找出所有的相關文件。y為了避免前述過程仍有遺漏,又利用文獻耦合的概念計算文件間之相關性,發掘更多的可能相關文件。若有兩篇以上的文獻共同引用了一篇或多篇論文,則稱這些文獻間具有耦合關係。y最後,將以上找出的所有文件,再一併送回給原作者進行判斷。IR System Evaluation-7TREC簡介zTREC:Text REtrieval Conferencez主辦:NIST及DARPA,為 TIPSTER文件計劃之子計劃之一 z文件集y5GB以上y數百萬篇文件IR System Evaluation-8Volume

7、RevisedSourcesSize(MB)DocsMedian#Terms/DocMean#Terms/Doc1March1994Wall Street Journal,1978-1989Associated Press newswire,1989Computer Selects Articles,Ziff-DavisFederal Register,1989Abstracts of U.S.DOE publications267254242260184 98,732 84,678 75,180 25,960226,087 245 446 200 391 111 434.0 473.9 47

8、3.01315.9 120.42March1994Wall Street Journal,1990-1992(WSJ)Associated Press newswire(1988)(AP)Computer Selects articles,Ziff-Davis(ZIFF)Federal Register(1988)(FR88)242237175209 74,520 79,919 56,920 19,860 301 438 182 396 508.4 468.7 451.91378.13March1994San Jose Mercury News,1991Associated Press new

9、swire,1990Computer Selects articles,Ziff-DavisU.S.patents,1993287237345243 90,257 78,321161,021 6,711 379 451 1224445 453.0 478.4 295.45391.04May 1996The Financial Times,1991-1994(FT)Federal Register,1994(FR94)Congressional Record,1993(CR)564395235210,158 55,630 27,922 316 588 288 412.7 644.71373.55

10、April1997Foreign Broadcast Information Service(FBIS)Los Angeles Times(1989,1990)470475130,471131,896 322 351 543.6 526.5RoutingTestDataForeign Broadcast Information Service(FBIS)490120,653 348 581.3TREC 文件集IR System Evaluation-9TREC之文件標示FT911-3AN-BE0A7AAIFT910514 FT 14 MAY 91/International Company N

11、ews:Contigas plans DM900m east German projectBy DAVID GOODHARTBONNCONTIGAS,the German gas group 81 per cent owned by the utility Bayernwerk,said yesterday that it intends to investDM900m(Dollars 522m)in the next jour years to build a new gas distribution system in the east German state ofThuringia.I

12、R System Evaluation-10TREC-1 and TREC-2查詢主題 Tipster Topic Description Number:037 Domain:Science and Technology Topic:Identify SAA components Description:Document identifies software products which adhere to IBMs SAA standards.Narrative:To be relevant,a document must identify a piece of software whic

13、h is considered a Systems ApplicationArchitectural(SAA)component or one which conforms to SAA.Concept(s):1.SAA2.OfficeVision3.IBM4.Standards,Interfaces,Compatibility Factor(s):Definition(s):OfficeVision-A series of integrated office automation applications from IBM that runs across all of itsmajor c

14、oputer families.Systems Application Architecture(SAA)-A set of IBM standards that provide consistent userinterfaces,programming interfaces,and communications protocols among all IBM computers frommicro to mainframe.IR System Evaluation-11TREC-3查詢主題 Number:177 Topic:English as the Official Language i

15、n U.S.Description:Document will provide arguments supporting the making of English the standard language of theU.S.Narrative:A relevant document will note instances in which English is favored as a standard language.Examples are the positive results achieved by immigrants in the areas of acceptance,

16、greatereconomic opportunity,and increased academic achievement.Reports are also desired whichdescribe some of the language difficulties encountered by other nations and groups of nations,e.g.,Canada,Belgium,European Community,when they have opted for the use of two or morelanguages as their official

17、 means of communication.Not relevant are reports which promotebilingualism or multilingualism.IR System Evaluation-12TREC-4查詢主題 Number:217 Description:Reporting on possibility of and search for extra-terrestrial life/intelligence.IR System Evaluation-13TREC查詢主題字數(包含停字)欄位最小字數最大字數平均字數Total44250107.4Ti

18、tle 111 3.8Description 541 17.9Narrative23209 64.5TREC-1(51-100)Concepts 4111 21.2Total54231130.8Title 2 9 4.9Description 6 41 18.7Narrative27165 78.8TREC-2(101-150)Concepts 3 88 28.5Total49180103.4Title 2 20 6.5Description 9 42 22.3TREC-3(151-200)Narrative26146 74.6Total 8 33 16.3TREC-4(201-250)Des

19、cription 8 33 16.3Total29213 82.7Title 2 10 3.8Description 6 40 15.7TREC-5(251-300)Narrative19168 63.2Total47156 88.4Title 1 5 2.7Description 5 62 20.4TREC-6(301-350)Narrative17142 65.3z主題結構與長度z主題建構z主題篩選ypre-searchy判斷相關文件的數量IR System Evaluation-14TREC-6之主題篩選程序前 25 篇文章中有多少篇是相關的?01-56-2020不採納此主題繼續閱讀檢索

20、出的第 26-100 篇文件,判斷其相關性根據相關回饋等方式,輸入更多的查詢問句,再次執行檢索,並判斷前 100篇文件的相關性記錄相關文件的數量不採納此主題在 PRISE 系統中輸入關鍵字執行檢索IR System Evaluation-15TREC相關判斷z判斷方法yPooling Methody人工判斷z判斷基準:二元式,相關與不相關z相關判斷品質y完整性y一致性IR System Evaluation-16Pooling法z針對每個查詢主題,從參與評比的各系統所送回之測試結果中抽取出前n篇文件,合併形成一個Poolz視為該查詢主題可能的相關文件候選集合,將集合中重覆的文件去除後,再送回給

21、該查詢主題的原始建構者進行相關判斷。z利用此法的精神是希望能透過多個不同的系統與不同的檢索技術,盡量網羅可能的相關文件,藉此減少人工判斷的負荷。IR System Evaluation-17TREC 候選集合與實際相關文件之對照表AdhocRouting各系統送至Pool 內之文件總數Pool 中實際之文件數(去除重覆)實際相關文件數各系統送至Pool 內之文件總數Pool 中實際之文件數(去除重覆)實際相關文件數TREC-188001279(39%)277(22%)TREC-122001067(49%)371(35%)TREC-240001106(28%)210(19%)TREC-24000

22、1466(37%)210(14%)TREC-327001005(37%)146(15%)TREC-32300703(31%)146(21%)TREC-473001711(24%)130(08%)TREC-43800957(25%)132(14%)TREC-5101002671(27%)110(04%)TREC-53100955(31%)113(12%)TREC-684801445(42%)92(6.4%)TREC-644001306(30%)140(11%)IR System Evaluation-18TREC評比Tasks/TracksTREC1TREC2TREC3 TREC4 TREC5

23、TREC6 TREC7RoutingMain TasksAdhocConfusionConfusionSpoken DocumentRetrievalDatabase MergingFilteringHigh PrecisionInteractiveCross LanguageSpanishMultilingualChineseNatural Language ProcessingQueryVery Large CorpusIR System Evaluation-19TREC質疑與負面評價z測試集方面y查詢主題x並非真實的使用者需求,過於人工化x缺乏需求情境的描述y相關判斷x二元式的相關判斷

24、不實際xpooling method會遺失相關文件,導致回收率不準確x品質與一致性z效益測量方面y只關注量化測量y回收率的問題y適合作系統間的比較,但不適合作評估IR System Evaluation-20TREC質疑與負面評價(續)z評比程序方面y互動式檢索x缺乏使用者介入x靜態的資訊需求不切實際IR System Evaluation-21BMIR-J2 簡介z第一個日文資訊檢索系統測試集yBMIR-J1:1996yBMIR-J2:1998.3z發展單位:IPSG-SIGDSz文件集:主要為新聞文件y每日新聞:5080篇y經濟與工程z查詢主題:60個IR System Evaluatio

25、n-22BMIR-J2 相關判斷z以布林邏輯結合關鍵詞檢索1-2個IR系統z由資料庫檢索者做進一步的相關判斷z由建構測試集的人員再次檢查IR System Evaluation-23BMIR-J2 查詢主題Q:F=oxoxo:“Utilizing solar energy”Q:N-1:Retrieve texts mentioning user of solar energyQ:N-2:Include texts concerning generating electricity and drying things with solar heat.z查詢主題的分類y目的:標明該測試主題的特性,

26、以利系統選擇y標記:o(necessary),x(unnecessary)y類別xThe basic functionxThe numeric range functionxThe syntactic functionxThe semantic functionxThe world knowledge function:IR System Evaluation-24NTCIR 簡介zNTCIR:NACSIS Test Collections for IRz主辦:NACSIS(日本國家科學資訊系統中心)z發展背景y大型日文標竿測試集的需求y跨語言檢索的研究發展需要z文件集y來源為NACSIS A

27、cademic Conference Papers Databasey主要為會議論文的摘要y超過330,000篇文件,其中超過1/2為英日文對照之文件y有部分包含part-of-speech tagsIR System Evaluation-25NTCIR查詢主題z來源:搜集真實的使用者需求,再據其修正改寫z每個學科主題領域各有100個測試主題z組成結構編號 標題 資訊需求之簡短描述 資訊需求之細部描述,包括更進一步的解釋,名詞的定義,背景知識,檢索的目的,預期的相關文件數量,希望的文件類型,相關判斷的標準等 相關概念的關鍵詞 IR System Evaluation-26NTCIR 相關判斷

28、z判斷方法y利用pooling method先進行篩選y由各主題專家,及查詢主題的建構者進行判斷z判斷基準yA:相關yB:部分相關yC:不相關z精確率計算:依測試項目的不同而有不同yRelevant:B與C均視為不相關yPartial Relevant:A與B均視為相關IR System Evaluation-27NTCIR評比zAd-hoc Information Retrieval TaskzCross-lingual Information Retrieval Tasky利用日文查詢主題檢索英文文件y共有21個查詢主題,其相關判斷包括英文文件與日文文件y系統可選擇自動或人工建立查詢問題y

29、系統需送回前1000篇檢索結果zAutomatic Term Extraction and Role Analysis TaskyAutomatic Term Extraction:從題名與摘要中抽取出technical termsyRole Analysis Task:抽取出主旨,研究方法,研究程序IR System Evaluation-28IREX 簡介zIREX:Information Retrieval and Extraction Exercisez主辦:IREX Committeez參加者:約20隊(或以上)z預備測試:利用BMIR-J2測試集中之查詢主題z文件集y每日新聞,19

30、94-1995y參加者必須購買新聞語料IR System Evaluation-29IREX 查詢主題z組成結構編號 簡短的資訊需求,主要為名詞與其修飾語 構成的名詞詞組 詳細的資訊需求,以自然語言敘述,通常為2 至3個句子組 成,亦包含名詞解釋,同義詞 或實例.ydescription欄位中的詞彙必須包含在narrative欄位中IR System Evaluation-30IREX 相關判斷z判斷依據:測試主題的所有欄位z判斷方法:由學生二名進行判斷y若二人之判斷結果一致,則完成相關判斷y若二人之判斷結果不一致或不確定,則由三人來作最後的判定z判斷基準y學生:6個判斷層次xA:相關A?:不

31、確定是否為相關xB:部分相關B?:不確定是否為部分相關xC:不相關C?:不確定是否為不相關IR System Evaluation-31IREX 相關判斷(續)y最終判斷者:3個判斷層次xA:相關xB:部分相關xC:不相關z相關判斷的修正IR System Evaluation-32IREX 評比z評比項目yName Entity Task(NE)x與MUC相似,測試系統自動抽取專有名詞的能力,如組織名,人名,地名等.x一般領域文件抽取 v.s.特殊領域文件抽取yInformation Retrieval(IR)x與TREC相似z評比規則y送回文件:前300篇yQuery的建構:一律由系統自動

32、建構IR System Evaluation-33BMIR-J2 簡介z第一個日文資訊檢索系統測試集yBMIR-J1:1996yBMIR-J2:1998.3z發展單位:IPSG-SIGDSz文件集:主要為新聞文件y每日新聞:5080篇y經濟與工程z查詢主題:60個IR System Evaluation-34BMIR-J2 相關判斷z以布林邏輯結合關鍵詞檢索1-2個IR系統z由資料庫檢索者做進一步的相關判斷z由建構測試集的人員再次檢查IR System Evaluation-35BMIR-J2 查詢主題Q:F=oxoxo:“Utilizing solar energy”Q:N-1:Retrie

33、ve texts mentioning user of solar energyQ:N-2:Include texts concerning generating electricity and drying things with solar heat.z查詢主題的分類y目的:標明該測試主題的特性,以利系統選擇y標記:o(necessary),x(unnecessary)y類別xThe basic functionxThe numeric range functionxThe syntactic functionxThe semantic functionxThe world knowled

34、ge function:IR System Evaluation-36AMARYLLIS簡介z主辦:INIST(INstitute of Information Scientific and Technique)z參加者:約近10隊z文件集y新聞文件:the World,共2萬餘篇yPascal(1984-1995)及Francis(1992-1995)資料中抽取出來的文件題名與摘要部分,共30餘萬篇IR System Evaluation-37AMARYLLIS查詢主題z組成結構編號 所屬之學科領域 標題 資訊需求之簡單描述 資訊需求之詳細描述 概念,敘述語IR System Evaluation-38AMARYLLIS相關判斷z原始的相關判斷y由文件集之擁有者負責建構z標準答案的修正y加入x不在最初的標準答案中,但被一半以上的參加者檢索出來的文件x參加者所送回的檢索結果中的前10篇的文件y減去x在原始的標準答案中出現,但在參加者送回的檢索結果中未出現的文件IR System Evaluation-39AMARYLLIS評比z系統需送回檢索結果的前250篇z系統可選擇採取自動或人工的方式建立queryz評比項目yRouting TaskyAdhoc Task

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(资讯检索系统测试集之比较课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|