RetrievalEvaluation医疗培训课件.ppt

上传人(卖家):晟晟文业 文档编号:5155538 上传时间:2023-02-15 格式:PPT 页数:39 大小:295.26KB
下载 相关 举报
RetrievalEvaluation医疗培训课件.ppt_第1页
第1页 / 共39页
RetrievalEvaluation医疗培训课件.ppt_第2页
第2页 / 共39页
RetrievalEvaluation医疗培训课件.ppt_第3页
第3页 / 共39页
RetrievalEvaluation医疗培训课件.ppt_第4页
第4页 / 共39页
RetrievalEvaluation医疗培训课件.ppt_第5页
第5页 / 共39页
点击查看更多>>
资源描述

1、本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。OutlinenIntroductionnRetrieval Performance EvaluationRecall and precisionAlternative measuresnReference CollectionsTREC CollectionCACM&ISI CollectionCF CollectionnTrends and Research Issues本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。IntroductionnTy

2、pe of evaluationFunctional analysis phase,and Error analysis phasePerformance evaluationnPerformance evaluationResponse time/space requirednRetrieval performance evaluationThe evaluation of how precise is the answer set本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Retrieval Performance Evaluationn

3、評估以batch query 為主的IR 系統collectionRelevant DocsIn Answer Set|Ra|Relevant Docs|R|Answer Set|A|Recall=|Ra|/|R|Precision=|Ra|/|A|Sorted by relevance本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Precision versus recall curvenRq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123 P=100%at R=10%P=66%at R=20%P=50%at R=

4、30%Ranking for query q:1.d123*2.d843.d56*4.d65.d86.d9*7.d5118.d1299.d18710.d25*11.d3812.d4813.d25014.d1115.d3*Usually based on 11 standard recall levels:0%,10%,.,100%本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Precision versus recall curvenFor a single queryFig3.2本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有

5、不当之处,请联系网站或本人删除。Average Over Multiple QueriesnP(r)=average precision at the recall level rnNq=Number of queries usednPi(r)=The precision at recall level r for the i-th queryqNiiqrPNrP1)(1)(本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Interpolated precisionnRq=d3,d56,d129 P=33%at R=33%P=25%at R=66

6、%P=20%at R=100%nP(rj)=max ri r rj+1P(r)1.d1232.d843.d56*4.d65.d86.d97.d5118.d129*9.d18710.d2511.d3812.d4813.d25014.d1115.d3*本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Interpolated precisionnLet rj,j0,1,2,10,be a reference to the j-th standard recall levelnP(rj)=max ri r rj+1P(r)R=30%,P3(r)P4(r)

7、=33%R=40%,P4(r)P5(r)R=50%,P5(r)P6(r)R=60%,P6(r)P7(r)=25%本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Average recall vs.precision figure本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Single Value SummariesnAverage precision versus recall:Compare retrieval algorithms over a set of example queriesn

8、Sometimes we need to compare individual querys performance Average precision可能會隱藏演算法中不正常的部分可能需要知道,兩個演算法中,對某特定query的performance為何 nNeed a single value summaryThe single value should be interpreted as a summary of the corresponding precision versus recall curve本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网

9、站或本人删除。Single Value SummariesnAverage Precision at Seen Relevant DocumentsAveraging the precision figures obtained after each new relevant document is observed.Example:Figure 3.2,(1+0.66+0.5+0.4+0.3)/5=0.57此方法對於很快找到相關文件的系統是相當有利的(相關文件被排在越前面,precision值越高)nR-PrecisionThe precision at the R-th position

10、in the rankingR:the total number of relevant documents of the current query(total number in Rq)Fig3.2:R=10,value=0.4Fig3.3,R=3,value=0.33本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Precision HistogramsnUse R-precision measures to compare the retrieval history of two algorithms through visual ins

11、pectionnRPA/B(i)=RPA(i)-RPB(i)-1.5-1-0.500.511.512345678910Query NumbaerR-Precision A/B本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Summary Table Statisticsn將所有query相關的single value summary 放在table中the number of queries,total number of documents retrieved by all queries,total number of relevant do

12、cuments were effectively retrieved when all queries are consideredtotal number of relevant documents retrieved by all queries本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Precision and Recall 的適用性nMaximum recall值的產生,需要知道所有文件相關的背景知識nRecall and precision是相對的測量方式,兩者要合併使用比較適合。nMeasures which quantify

13、the informativeness of the retrieval process might now be more appropriatenRecall and precision are easy to define when a linear ordering of the retrieved documents is enforced本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Alternative MeasuresnThe Harmonic Mean ,介於0,1nThe E Measure-加入喜好比重b=1,E(j)=F

14、(j)b1,more interested in precisionb1,more interested in recall)(1)(12)(jPjrjF)(1)(2211)(jPjrbbjE本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。User-Oriented Measuren假設:Query與使用者有相關,不同使用者有不同的relevant docsCoverage=|Rk|/|U|Novelty=|Ru|/(|Ru|+|Rk|)Coverage越高,系統找到使用者期望的文件越多Noverlty越高,系統找到許多使用者之前不知道相關的文件

15、越多本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Reference Collectionn用來作為評估IR系統reference test collectionsTIPSTER/TREC:量大,實驗用CACM,ISI:歷史意義Cystic Fibrosis:small collections,relevant documents由專家研討後產生本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。IR system遇到的批評nLacks a solid formal framework as a ba

16、sic foundation無解!一個文件是否與查詢相關,是相當主觀的!nLacks robust and consistent testbeds and benchmarks較早,發展實驗性質的小規模測試資料1990後,TREC成立,蒐集上萬文件,提供給研究團體作IR系統評量之用本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TREC(Text REtrieval Conference)nInitiated under the National Institute of Standards and Technology(NIST)nGoals:

17、Providing a large test collectionUniform scoring proceduresForumn7th TREC conference in 1998:Document collection:test collections,example information requests(topics),relevant docsThe benchmarks tasks本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。The Documents Collectionn由SGML編輯WSJ880406-0090AT&T U

18、nveils Services to Upgrade Phone Networks Under Global PlanJanet GuyonWSJ Staff)New YorkAmerican Telephone&Telegrapj Co.introduced the first of a newgeneration of phone service with broad本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TREC1-6 DocumentsDiskContentsSizeNumberWords/Doc.Words/Doc.MbDocs

19、(Median)(Mean)1 WSJ,1987-198926798,732245434AP,198925484,678446473.9ZIFF24275,180200473FR,198926025,9603911315.9DOE184226,087111120.42 WSJ,1990-199224274,520301508.4AP,198823779,919438468.7ZIFF17556,920182451.9FR,198820919,8603961378.13 SJMN,199128790,257379453AP,199023778,321451478.4ZIFF345161,0211

20、22295.4PAT,19932436,7114,44553914 FT,1991-1994564210,158316412.7FR,199439555,630588644.7CR,199323527,9222881373.55 FBIS470130,471322543.6LAT475131,896351526.56 FBIS490120,653348581.3本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。The Example Information Requests(Topics)n用自然語言將資訊需求描述出來nTopic number:給

21、不同類型的topics Number:168titleTopic:Financing AMTRAKDescription:.Narrative:A./top本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TRECTopics字數(包含停字)欄位最小字數最大字數平均字數Total44250107.4Title 111 3.8Description 541 17.9Narrative23209 64.5TREC-1(51-100)Concepts 4111 21.2Total54231130.8Title 2 9 4.9Description 6 4

22、1 18.7Narrative27165 78.8TREC-2(101-150)Concepts 3 88 28.5Total49180103.4Title 2 20 6.5Description 9 42 22.3TREC-3(151-200)Narrative26146 74.6Total 8 33 16.3TREC-4(201-250)Description 8 33 16.3Total29213 82.7Title 2 10 3.8Description 6 40 15.7TREC-5(251-300)Narrative19168 63.2Total47156 88.4Title 1

23、5 2.7Description 5 62 20.4TREC-6(301-350)Narrative17142 65.3n主題結構與長度n主題建構n主題篩選pre-search判斷相關文件的數量本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。前 25 篇文章中有多少篇是相關的?01-56-2020不採納此主題繼續閱讀檢索出的第 26-100 篇文件,判斷其相關性根據相關回饋等方式,輸入更多的查詢問句,再次執行檢索,並判斷前 100篇文件的相關性記錄相關文件的數量不採納此主題在 PRISE 系統中輸入關鍵字執行檢索TREC-6之主題篩選程序本文档所

24、提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TREC相關判斷n判斷方法Pooling Method人工判斷n判斷基準:二元式,相關與不相關n相關判斷品質完整性一致性本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Pooling法n針對每個查詢主題,從參與評比的各系統所送回之測試結果中抽取出前n(=100)篇文件,合併形成一個Pooln視為該查詢主題可能的相關文件候選集合,將集合中重覆的文件去除後,再送回給該查詢主題的原始建構者進行相關判斷。n利用此法的精神是希望能透過多個不同的系統與不同的檢索技術,盡量

25、網羅可能的相關文件,藉此減少人工判斷的負荷。本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。AdhocRouting各系統送至Pool 內之文件總數Pool 中實際之文件數(去除重覆)實際相關文件數各系統送至Pool 內之文件總數Pool 中實際之文件數(去除重覆)實際相關文件數TREC-188001279(39%)277(22%)TREC-122001067(49%)371(35%)TREC-240001106(28%)210(19%)TREC-240001466(37%)210(14%)TREC-327001005(37%)146(15%)T

26、REC-32300703(31%)146(21%)TREC-473001711(24%)130(08%)TREC-43800957(25%)132(14%)TREC-5101002671(27%)110(04%)TREC-53100955(31%)113(12%)TREC-684801445(42%)92(6.4%)TREC-644001306(30%)140(11%)TREC 候選集合與實際相關文件之對照表本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。The(Benchmark)Tasks at the TREC ConferencesnAd

27、 hoc task:Receive new requests and execute them on a pre-specified document collectionnRouting taskReceive test info.Requests,two document collectionsfirst doc:training and tuning retrieval algorithmSecond doc:testing the tuned retrieval algorithm本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Other

28、 tasks:n*ChinesenFiltering nInteractiven*NLP(natural language procedure)nCross languagesnHigh precisionnSpoken document retrievalnQuery Task(TREC-7)本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TREC評比Tasks/TracksTREC1TREC2TREC3 TREC4 TREC5 TREC6 TREC7RoutingMain TasksAdhocConfusionConfusionSpoken

29、DocumentRetrievalDatabase MergingFilteringHigh PrecisionInteractiveCross LanguageSpanishMultilingualChineseNatural Language ProcessingQueryVery Large Corpus本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TREC質疑與負面評價n測試集方面查詢主題 並非真實的使用者需求,過於人工化 缺乏需求情境的描述相關判斷 二元式的相關判斷不實際 pooling method會遺失相關文件,導致回收率不準確

30、品質與一致性n效益測量方面只關注量化測量回收率的問題適合作系統間的比較,但不適合作評估本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TREC質疑與負面評價(續)n評比程序方面互動式檢索 缺乏使用者介入 靜態的資訊需求不切實際本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。TREC Topics本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Evaluation Measures at the TREC ConferencesnSummary tabl

31、e statistics nRecall-precisionnDocument level averages*nAverage precision histogram本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。The CACM CollectionnSmall collections about computer science literaturenText of docnStructured subfieldsword stems from the title and abstract sectionsCategoriesdirect r

32、eferences between articles:a list of pairs of documentsda,dbBibliographic coupling connections:a list of triplesd1,d2,ncitedNumber of co-citations for each pair of articlesd1,d2,ncitingnA unique environment for testing retrieval algorithms which are based on information derived from cross-citing pat

33、terns本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。The ISI CollectionnISI 的test collection是由之前在ISI(Institute of Scientific Information)的Small組合而成n這些文件大部分是由當初Small計畫中有關cross-citation study中挑選出來n支持有關於terms和cross-citation patterns的相似性研究本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。The Cystic Fibros

34、is Collectionn有關於“囊胞性纖維症”的文件nTopics和相關文件由具有此方面在臨床或研究的專家所產生nRelevance scores0:non-relevance1:marginal relevance2:high relevance本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Characteristics of CF collectionnRelevance score均由專家給定nGood number of information requests(relative to the collection size)The respective query vectors present overlap among themselves利用之前的query增加檢索效率本文档所提供的信息仅供参考之用,不能作为科学依据,请勿模仿;如有不当之处,请联系网站或本人删除。Trends and Research IssuesnInteractive user interface一般認為feedback的檢索可以改善效率如何決定此情境下的評估方式(Evaluation measures)?n其它有別於precise,recall的評估方式研究

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 医疗、心理类
版权提示 | 免责声明

1,本文(RetrievalEvaluation医疗培训课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|