1、1Introduction to Information Retrieval 现代信息检索现代信息检索中科院研究生院2011年秋季课程现代信息检索 更新时间:Modern Information Retrieval授课人:王斌http:/ introduction to Information retrieval”网上公开的课件,地址 http:/nlp.stanford.edu/IR-book/第8讲 检索评价&结果摘要Evaluation&Snippets2011/10/112提纲 上一讲回顾 有关检索评价 评价指标 相关评测 结果摘要现代信息检索 现代信息检索 5 5回转归一化sourc
2、e:Lilian Lee现代信息检索 6 6快速返回top K结果的启发式方法以文档为单位(Document-at-a-time)的处理 计算查询-文档相似度时,先计算完文档 di 的得分,再开始文档 di+1的计算 文档在所有倒排记录表中的顺序应该保持一致以词项为单位(Term-at-a-time)的处理 计算查询-文档相似度时,先处理完词项 ti 的倒排记录表,再处理词项ti+1的倒排记录表 需要对每个未处理完的文档建立一个累加器7堆结构现代信息检索 8 8分层索引9 现代信息检索本讲内容 信息检索的评价指标 不考虑序的检索评价指标(即基于集合)考虑序的评价指标 信息检索评测语料及会议 检
3、索结果的摘要10提纲 上一讲回顾 有关检索评价 评价指标 相关评测 结果摘要中科院研究生院2011年度秋季课程11 现代信息检索关于评价 评价无处不在,也很必要 工作、生活、娱乐、找对象、招生 评价很难,但是似乎又很容易 人的因素、标准、场景 评价是检验学术进步的唯一标准,也是杜绝学术腐败的有力武器中科院研究生院2011年度秋季课程12 现代信息检索从竞技体育谈起(曾经的一说)世界记录 vs.世界最好成绩 110米栏世界记录:罗伯斯,古巴,1287 男子马拉松世界最好成绩:保罗 特尔加特,肯尼亚,2小时4分55秒 评价要公平!环境要基本一致:天气、风速、跑道等等 比赛过程要一样:竞走中的犯规
4、指标要一样:速度、耐力中科院研究生院2011年度秋季课程13 现代信息检索为什么要评估IR?通过评估可以评价不同技术的优劣,不同因素对系统的影响,从而促进本领域研究水平的不断提高 类比:110米栏各项技术-起跑、途中跑、跨栏、步频、冲刺等等 信息检索系统的目标是较少消耗情况下尽快、全面返回准确的结果。中科院研究生院2011年度秋季课程14 现代信息检索IR中评价什么?效率(Efficiency)可以采用通常的评价方法 时间开销 空间开销 响应速度 效果(Effectiveness)返回的文档中有多少相关文档 所有相关文档中返回了多少 返回得靠不靠前 其他指标 覆盖率(Coverage)访问量
5、数据更新速度中科院研究生院2011年度秋季课程15 现代信息检索如何评价效果?相同的文档集合,相同的查询主题集合,相同的评价指标,不同的检索系统进行比较。The Cranfield Experiments,Cyril W.Cleverdon,1957 1968(上百篇文档集合)SMART System,Gerald Salton,1964-1988(数千篇文档集合)TREC(Text REtrieval Conference),Donna Harman,美国标准技术研究所,1992-(上百万篇文档),信息检索的“奥运会”现代信息检索 中科院研究生院2011年度秋季课程16评价任务的例子 两个系
6、统,一批查询,对每个查询每个系统分别得到一些结果。目标:哪个系统好?17 现代信息检索评价的几部分 评价指标:某个或某几个可衡量、可比较的值 评价过程:设计上保证公平、合理18提纲 上一讲回顾 有关检索评价 评价指标 相关评测 结果摘要中科院研究生院2011年度秋季课程19 现代信息检索评价指标分类 对单个查询进行评估的指标 在单个查询上检索系统的得分 对多个查询进行评估的指标 在多个查询上检索系统的得分中科院研究生院2011年度秋季课程20 现代信息检索评价指标分类 对单个查询进行评估的指标 在单个查询上检索系统的得分 对多个查询进行评估的指标 在多个查询上检索系统的得分现代信息检索 中科院
7、研究生院2011年度秋季课程21回到例子对于查询1的标准答案集合 d3,d4,d6,d9中科院研究生院2011年度秋季课程22整个文档集合的划分RRNNNRRN未检索出的不相关文档检索出的不相关文档检索出的相关文档未检索出的相关文档检索出(Retrieved)未检索出(Not Retrieved)不相关(Not Relevant)相关(Relevant)整个文档集合中科院研究生院2011年度秋季课程23 现代信息检索评价指标 召回率召回率(Recall):RR/(RR+NR),返回的相关结果数占实际相关结果总数的比率,也称为查全查全率率,R 0,1 正确率正确率(Precision):RR/(
8、RR+RN),返回的结果中真正相关结果的比率,也称为查准率查准率,P 0,1 两个指标分别度量检索效果的某个方面,忽略任何一个方面都有失偏颇。两个极端情况:返回有把握的1篇,P=100%,但R极低;全部文档都返回,R1,但P极低现代信息检索 中科院研究生院2011年度秋季课程24四种关系的矩阵表示真正相关文档 RR+NR真正不相关文档系统判定相关 RR+RN(检索出)系统判定不相关(未检索出)RecallPrecisionAns=RR+NRRet=RR+RN中科院研究生院2011年度秋季课程25 现代信息检索基于集合的图表示RR标准答案Ans返回结果RetRNNRPrecisionRecall
9、现代信息检索 中科院研究生院2011年度秋季课程26回到例子对于查询1的标准答案集合 d3,d4,d6,d9对于系统1,查询1,正确率2/5,召回率2/4对于系统2,查询1,正确率2/4,召回率2/4中科院研究生院2011年度秋季课程27 现代信息检索课堂提问:另一个计算例子 一个例子:查询Q,本应该有100篇相关文档,某个系统返回200篇文档,其中80篇是真正相关的文档 Recall=80/100=0.8 Precision=80/200=0.4 结论:召回率较高,但是正确率较低中科院研究生院2011年度秋季课程28 现代信息检索正确率和召回率的应用领域 拼写校对 中文分词 文本分类 人脸识
10、别 中科院研究生院2011年度秋季课程29 现代信息检索关于正确率和召回率的讨论(1)“宁可错杀一千,不可放过一人”偏重召回率,忽视正确率。冤杀太多。判断是否有罪:如果没有证据证明你无罪,那么判定你有罪。召回率高,有些人受冤枉 如果没有证据证明你有罪,那么判定你无罪。召回率低,有些人逍遥法外中科院研究生院2011年度秋季课程30 现代信息检索关于正确率和召回率的讨论(2)虽然Precision和Recall都很重要,但是不同的应用、不用的用户可能会对两者的要求不一样。因此,实际应用中应该考虑这点。垃圾邮件过滤:宁愿漏掉一些垃圾邮件,但是尽量少将正常邮件判定成垃圾邮件。有些用户希望返回的结果全一
11、点,他有时间挑选;有些用户希望返回结果准一点,他不需要结果很全就能完成任务。现代信息检索 3131P/R指标的方差对于一个测试文档集来说,某些信息需求上效果很差(比如,在 R=0.1 点上 P=0.2),但是在一些其他需求上又相当好(如在R=0.1 点上P=0.95)实际上,同一系统在不同查询上的结果差异往往高于不同系统在同一查询上的结果也就是说,存在容易的信息需求和难的信息需求中科院研究生院2011年度秋季课程32 现代信息检索课堂提问:正确率和召回率的定义或者计算有什么问题或不足?对于查询1的标准答案集合 d3,d4,d6,d9对于系统1,查询1,正确率2/5,召回率2/4对于系统2,查询
12、1,正确率2/4,召回率2/4现代信息检索 中科院研究生院2011年度秋季课程33回到例子对于查询1的标准答案集合 d3,d4,d6,d9对于系统1,查询1,正确率2/5,召回率2/4对于系统2,查询1,正确率2/4,召回率2/4中科院研究生院2011年度秋季课程34 现代信息检索正确率和召回率的问题 召回率难以计算 解决方法:Pooling方法,或者不考虑召回率 两个指标分别衡量了系统的某个方面,但是也为比较带来了难度,究竟哪个系统好?大学最终排名也只有一个指标。解决方法:单一指标,将两个指标融成一个指标 两个指标都是基于(无序)集合进行计算,并没有考虑序的作用 举例:两个系统,对某个查询,
13、返回的相关文档数目一样都是10,但是第一个系统是前10条结果,后一个系统是最后10条结果。显然,第一个系统优。但是根据上面基于集合的计算,显然两者指标一样。解决方法:引入序的作用中科院研究生院2011年度秋季课程35 现代信息检索关于召回率的计算 对于大规模语料集合,列举每个查询的所有相关文档是不可能的事情,因此,不可能准确地计算召回率 缓冲池(Pooling)方法:对多个检索系统的Top N个结果组成的集合进行人工标注,标注出的相关文档集合作为整个相关文档集合。这种做法被验证是可行的(可以比较不同系统的相对效果),在TREC会议中被广泛采用。中科院研究生院2011年度秋季课程36 现代信息检
14、索4个系统的Pooling系统1 TOP N系统2 TOP N系统3 TOP N系统4 TOP N全部文档Pool中科院研究生院2011年度秋季课程37 现代信息检索课堂提问(某个系统的某个查询)通过Pooling计算出的召回率、正确率和真正的召回率、正确率的大小之间有什么关系?情况1(常见情况):如果只有部分结果进行了Pooling操作,那么显然在计算正确率时有 RRP=0)倍,1更重视召回率,1表示更重视P,E=1-F,b2=1/222PR=(P0,R0)11P+RFPR2211(P0,R0)1bEbPR 22(1)(P0,R0)PRFPR现代信息检索 3939为什么使用调和平均计算F值
15、为什么不使用其他平均来计算F,比如算术平均 如果采用算术平均计算F值,那么一个返回全部文档的搜索引擎的F值就不低于50%,这有些过高。做法:不管是P还是R,如果十分低,那么结果应该表现出来,即这样的情形下最终的F值应该有所惩罚 采用P和R中的最小值可能达到上述目的 但是最小值方法不平滑而且不易加权基于调和平均计算出的F 值可以看成是平滑的最小值函数现代信息检索 4040F1 及其他平均计算方法现代信息检索 4141精确率(Accuracy)精确率是所有判定中正确的比率 accuracy=(RR+NN)/(RN+RR+NR+NN)为什么通常使用P、R、F而不使用精确率?Web信息检索当中精确率为
16、什么不可用?现代信息检索 4242课堂练习 计算P、R、F1 下面的一个搜索引擎无论对于什么查询都返回0结果,为什么该引擎例子表明使用精确率是不合适的?现代信息检索 4343精确率不适合IR的原因 由于和查询相关毕竟占文档集的极少数,所以即使什么都不返回也会得到很高的精确率 什么都不返回可能对大部分查询来说可以得到 99.99%以上的精确率 信息检索用户希望找到某些文档并且能够容忍结果中有一定的不相关性 返回一些即使不好的文档也比不返回任何文档强 因此,实际中常常使用P、R和F1,而不使用精确率中科院研究生院2011年度秋季课程44 现代信息检索引入序的作用(1)R-Precision:检索结
17、果中,在所有相关文档总数位置上的准确率,如某个查询的相关文档总数为80,则计算检索结果中在前80篇文档的正确率。系统1,查询1d3d6 d8 d10d11系统2,查询1d6 d7 d2 d9 对于查询1的标准答案集合 d3,d4,d6,d9R-P1=2/4 R-P2=2/4中科院研究生院2011年度秋季课程45 现代信息检索引入序的作用(2)正确率-召回率 曲线(precision versus recall curve)检索结果以排序方式排列,用户不可能马上看到全部文档,因此,在用户观察的过程中,正确率和召回率在不断变化(vary)。可以求出在召回率分别为0%,10%,20%,30%,90%
18、,100%上对应的正确率,然后描出图像 在上面的曲线对应的系统结果更好现代信息检索 中科院研究生院2011年度秋季课程46P-R曲线的例子 某个查询q的标准答案集合为:Rq=d3,d5,d9,d25,d39,d44,d56,d71,d89,d123 某个IR系统对q的检索结果如下:中科院研究生院2011年度秋季课程47 现代信息检索P-R曲线Precision-recall 曲 线Recall020406080100120Precision020406080100120中科院研究生院2011年度秋季课程48 现代信息检索P-R 曲线的插值问题 对于前面的例子,假设Rq=d3,d56,d1293
19、.d56 R=0.33,P=0.33;8.d129 R=0.66,P=0.25;15.d3 R=1,P=0.2 不存在10%,20%,90%的召回率点,而只存在 33.3%,66.7%,100%三个召回率点 在这种情况下,需要利用存在的召回率点对不存在的召回率点进行插值(interpolate)对于t%,如果不存在该召回率点,则定义t%为从t%到(t+10)%中最大的正确率值。对于上例,0%,10%,20%,30%上正确率为0.33,40%60%对应0.25,70%以上对应0.2中科院研究生院2011年度秋季课程49 现代信息检索P-R曲线图Precision-Recall曲 线Recall0
20、.0.2.4.6.81.01.2Precision.18.20.22.24.26.28.30.32.34Recall vs Precision 中科院研究生院2011年度秋季课程50 现代信息检索P-R的优缺点 优点:简单直观 既考虑了检索结果的覆盖度,又考虑了检索结果的排序情况 缺点:单个查询的P-R曲线虽然直观,但是难以明确表示两个查询的检索结果的优劣中科院研究生院2011年度秋季课程51 现代信息检索基于P-R曲线的单一指标 Break Point:P-R曲线上 P=R的那个点 这样可以直接进行单值比较 11点平均正确率(11 point average precision):在召回率分
21、别为0,0.1,0.2,1.0的十一个点上的正确率求平均,等价于插值的AP中科院研究生院2011年度秋季课程52 现代信息检索P-R曲线中的break pointPrecision-recall 曲线Recall020406080100120Precision020406080100120y=xBreak point现代信息检索 中科院研究生院2011年度秋季课程53引入序的作用(3)平均正确率(Average Precision,AP):对不同召回率点上的正确率进行平均 未插值的AP:某个查询Q共有6个相关结果,某系统排序返回了5篇相关文档,其位置分别是第1,第2,第5,第10,第20位,则
22、AP=(1/1+2/2+3/5+4/10+5/20+0)/6 插值的AP:在召回率分别为0,0.1,0.2,1.0的十一个点上的正确率求平均,等价于11点平均 只对返回的相关文档进行计算的AP,AP=(1/1+2/2+3/5+4/10+5/20)/5,倾向那些快速返回结果的系统,没有考虑召回率中科院研究生院2011年度秋季课程54 现代信息检索不考虑召回率 PrecisionN:在第N个位置上的正确率,对于搜索引擎,大量统计数据表明,大部分搜索引擎用户只关注前一、两页的结果,因此,P10,P20对大规模搜索引擎来说是很好的评价指标 bpref、NDCG:后面详细介绍。现代信息检索 中科院研究生
23、院2011年度秋季课程55回到例子查询1及查询2的标准答案集合分别为 d3,d4,d6,d9d1,d2,d13系统1查询1:P2=1,P5=2/5;系统1查询2:P2=1/2,P5=2/5;系统1查询1:P2=1/2,P5=2/5;系统1查询1:P2=1,P5=3/5中科院研究生院2011年度秋季课程56 现代信息检索评价指标分类 对单个查询进行评估的指标 对单个查询得到一个结果 对多个查询进行评估的指标 在多个查询上检索系统的得分求平均中科院研究生院2011年度秋季课程57 现代信息检索评价指标(9)平均的求法:宏平均(Macro Average):对每个查询求出某个指标,然后对这些指标进行
24、算术平均 微平均(Micro Average):将所有查询视为一个查询,将各种情况的文档总数求和,然后进行指标的计算 如:Micro Precision=(对所有查询检出的相关文档总数)/(对所有查询检出的文档总数)宏平均对所有查询一视同仁,微平均受返回相关文档数目比较大的查询影响(宏平均保护弱者,类比:乒乓球参赛资格限制)MAP(Mean AP):对所有查询的AP求宏平均现代信息检索 中科院研究生院2011年度秋季课程58回到例子查询1及查询2的标准答案集合分别为 d3,d4,d6,d9d1,d2,d13系统1查询1:P=2/5,R=2/4,F=4/9,AP=1/2;系统1查询2:P=2/5
25、,R=2/3,F=1/2,AP=7/15;系统2查询1:P=2/4,R=2/4,F=1/2,AP=3/8;系统2查询2:P=3/5,R=3/3.F=3/4,AP=11/12;系统1的MacroP=2/5,MacroR=7/12,MacroF=17/36,MAP=29/60,MicroP=4/10,MicroR=4/7,MicroF=8/17系统2的MacroP=11/20,MacroR=3/4,MacroF=5/8,MAP=31/48,MicroP=4/9,MicroR=5/7,MicroF=40/73中科院研究生院2011年度秋季课程59 现代信息检索课堂提问:两个查询q1、q2的标准答案数
26、目分别为100个和50个,某系统对q1检索出80个结果,其中正确数目为40,系统对q2检索出30个结果,其中正确数目为24,求MacroP/MacroR/MicroP/MicroR:P1=40/80=0.5,R1=40/100=0.4P2=24/30=0.8,R2=24/50=0.48MacroP=(P1+P2)/2=0.65,MacroR=(R1+R2)/2=0.44MicroP=(40+24)/(80+30)=0.58MicroR=(40+24)/(100+50)=0.43中科院研究生院2011年度秋季课程60 现代信息检索整个IR系统的P-R曲线 在每个召回率点上,对所有的查询在此点上的
27、正确率进行算术平均,得到系统在该点上的正确率的平均值。两个检索系统可以通过P-R曲线进行比较。位置在上面的曲线代表的系统性能占优。中科院研究生院2011年度秋季课程61 现代信息检索几个IR系统的P-R曲线比较几个系统 的 P-R曲 线比 较Recall020406080100120Precision020406080100120中科院研究生院2011年度秋季课程62 现代信息检索面向用户的评价指标 前面的指标都没有考虑用户因素。而相关不相关由用户判定。假定用户已知的相关文档集合为U,检索结果和U的交集为Ru,则可以定义覆盖率(Coverage)C=|Ru|/|U|,表示系统找到的用户已知的相
28、关文档比例。假定检索结果中返回一些用户以前未知的相关文档Rk,则可以定义出新率(Novelty Ratio)N=|Rk|/(|Ru|+|Rk|),表示系统返回的新相关文档的比例。中科院研究生院2011年度秋季课程63 现代信息检索其他评价指标 不同的信息检索应用或者任务还会采用不同的评价指标 MRR(Mean Reciprocal Rank):对于某些IR系统(如问答系统或主页发现系统),只关心第一个标准答案返回的位置(Rank),越前越好,这个位置的倒数称为RR,对问题集合求平均,则得到MRR 例子:两个问题,系统对第一个问题返回的标准答案的Rank是2,对第二个问题返回的标准答案的Rank
29、是4,则系统的MRR为(1/2+1/4)/2=3/8中科院研究生院2011年度秋季课程64 现代信息检索其他评价指标 Adaptive&Batch filtering Utility=A*R+B*N+C*R-+D*N-T11U=2*R+-N+P=R+/(R+N+),R=R+/(R+R-)T11F=1.25/(0.25/R+1/P)归一化平均中科院研究生院2011年度秋季课程65 现代信息检索近几年出现的新的评价指标 Bpref GMAP NDCG*增加于2007年9月20日中科院研究生院2011年度秋季课程66 现代信息检索Bpref Bpref:Binary preference,2005年
30、首次引入到TREC的Terabyte任务中 基本的思想:在相关性判断(Relevance Judgement)不完全的情况下,计算在进行了相关性判断的文档集合中,在判断到相关文档前,需要判断的不相关文档的篇数 相关性判断完全的情况下,利用Bpref和MAP进行评价的结果很一致,但是相关性判断不完全的情况下,Bpref更鲁棒。*Buckley,C.&Voorhees,E.M.Retrieval Evaluation with Incomplete Information,Proceedings of SIGIR 2004现代信息检索 中科院研究生院2011年度秋季课程67原始定义 对每个Topi
31、c,已判定结果中有R个相关结果 r是相关文档,n是Top R篇不相关文档集合的子集 例子:R=4 d15r,d13n,d10u,d12n,d9r,d7u,d4n,d6n,d5u,d2r,d1n,d3r,d14n,bpref=1/4*(1-0+1-2/4+1-4/4+1-4/4)=3/81|1RrnrbprefR排在 前面不参加计算现代信息检索 中科院研究生院2011年度秋季课程68特定情况 当R很小(1 or 2)时,原公式不合适 r是相关文档,n是Top 10+R篇不相关文档集合的子集1|10110+RrnrbprefR排在 前面现代信息检索 中科院研究生院2011年度秋季课程69最新定义
32、对每个Topic,已判定结果集合中有R个相关文档,N个不相关文档,则1|1min(R,N)rnrbprefR排在 前面Bpref can be thought of as the inverse of the fraction of judged irrelevant documents that are retrieved before relevant ones.Bpref and mean average precision are very highly correlated when used with complete judgments.But when judgments ar
33、e incomplete,rankings of systems by bpref still correlate highly to the original ranking,whereas rankings of systems by MAP do not.*参看trec_eval工具8.0修正说明(bpref_bug文件)现代信息检索 中科院研究生院2011年度秋季课程70GMAPGMAP(Geometric MAP):TREC2004 Robust 任务引进先看一个例子从MAP来看,系统A好于系统B,但是从每个查询来看,3个查询中有2个Topic B比A有提高,其中一个提高的幅度达到3
34、00%现代信息检索 中科院研究生院2011年度秋季课程71GMAP 几何平均值 上面那个例子 GMAPa=0.056,GMAPb=0.086 GMAPaGMAPb GMAP和MAP各有利弊,可以配合使用,如果存在难Topic时,GMAP更能体现细微差别111exp(ln)nnniiiiGMAPAPAPn中科院研究生院2011年度秋季课程72 现代信息检索NDCG 每个文档不仅仅只有相关和不相关两种情况,而是有相关度级别,比如0,1,2,3。我们可以假设,对于返回结果:相关度级别越高的结果越多越好 相关度级别越高的结果越靠前越好*Jarvelin,K.&Kekalainen,J.Cumulate
35、d Gain-based Evaluation of IR Techniques.ACM Transactions on Information Systems,2002,20,422-446中科院研究生院2011年度秋季课程73 现代信息检索NDCG Directed Gain Cumulated Gain(CG)vector Discounted CG vector(blogi表示以b为底对i取对数)b=2,中科院研究生院2011年度秋季课程74 现代信息检索NDCG BV(Best Vector):假定m个3,l个2,k个1,其他都是0中科院研究生院2011年度秋季课程75 现代信息检索
36、NDCG Normalized(D)CG中科院研究生院2011年度秋季课程76 现代信息检索NDCG中科院研究生院2011年度秋季课程77 现代信息检索NDCG 优点:图形直观,易解释 支持非二值的相关度定义,比P-R曲线更精确 能够反映用户的行为特征(如:用户的持续性persistence)缺点:相关度的定义难以一致 需要参数设定*Ruihua Song,Evaluation in Information Retrieval,中科院研究生院微软系列讲座,http:/ 现代信息检索另一种NDCG的计算方法 加大相关度本身的权重,原来是线性变化,现在是指数变化,相关度3、2、1 在计算时用23、
37、22、21 据说搜索引擎公司常用这个公式中科院研究生院2011年度秋季课程79 现代信息检索关于评价方面的研究 现有评价体系远没有达到完美程度 对评价的评价研究 指标的相关属性(公正性、敏感性)的研究 新的指标的提出(新特点、新领域)指标的计算(比如Pooling方法中如何降低人工代价?)80提纲 上一讲回顾 有关检索评价 评价指标 相关评测 结果摘要中科院研究生院2011年度秋季课程81 现代信息检索TREC 概况 The Text REtrieval Conference,TREC,http:/trec.nist.gov 由NIST(the National Institute of St
38、andards and Technology)和DARPA(the Defense Advanced Research Projects Agency)联合举办 1992年举办第一届会议,每年11月举行,至2006年已有15届,可以看成信息检索的“奥运会”中科院研究生院2011年度秋季课程82 现代信息检索TREC的目标(1)总目标:支持在信息检索领域的基础研究,提供对大规模文本检索方法的评估办法 1.鼓励对基于大测试集合的信息检索方法的研究 2.提供一个可以用来交流研究思想的论坛,增进工业界、学术界和政府部门之间的互相了解;中科院研究生院2011年度秋季课程83 现代信息检索TREC的目标(
39、2)3.示范信息检索理论在解决实际问题方面的重大进步,提高信息检索技术从理论走向商业应用的速度;4.为工业界和学术界提高评估技术的可用性,并开发新的更为适用的评估技术。中科院研究生院2011年度秋季课程84 现代信息检索TREC的运行方式(1)TREC由一个程序委员会管理。这个委员会包括来自政府、工业界和学术界的代表。TREC以年度为周期运行。过程为:确定任务参加者报名参加者运行任务返回运行结果结果评估大会交流 一开始仅仅面向文本,后来逐渐加入语音、图像、视频方面的评测中科院研究生院2011年度秋季课程85 现代信息检索TREC的运行方式(2)确定任务:NIST提供测试数据和测试问题 报名:参
40、加者根据自己的兴趣选择任务 运行任务:参加者用自己的检索系统运行测试问题,给出结果 返回结果:参加者向NIST返回他们的运行结果,以便评估中科院研究生院2011年度秋季课程86 现代信息检索TREC的运行方式(3)结果评估:NIST使用一套固定的方法和软件对参加者的运行结果给出评测结果 大会交流:每年的11月召开会议,由当年的参加者们交流彼此的经验中科院研究生院2011年度秋季课程87 现代信息检索TREC的运行方式(4)中科院研究生院2011年度秋季课程88 现代信息检索测试数据和测试软件 由LDC(Linguistic Data Consortium)或者其他单位免费提供,但有些数据需要缴
41、纳费用,一般都必须签订协议 每年使用的数据可以是新的,也可以是上一年度已经使用过的 TREC使用的评估软件是开放的,任何组织和个人都可以用它对自己的系统进行评测现代信息检索 中科院研究生院2011年度秋季课程89TREC任务情况现代信息检索 中科院研究生院2011年度秋季课程90历届TREC参加单位数示意图现代信息检索 中科院研究生院2011年度秋季课程91参加过TREC的部分单位中科院研究生院2011年度秋季课程92 现代信息检索TREC中名词定义 Track TREC的每个子任务,QA、Filtering、Web、Blog等 Topic 预先确定的问题,用来向检索系统提问 topicque
42、ry(自动或者手工)Question(QA)Document 包括训练集和测试集合(TIPSTER&TREC CDs、WT2G、WT10G、GOV2)Relevance Judgments 相关性评估,人工或者半自动中科院研究生院2011年度秋季课程93 现代信息检索Topic的一般结构 Title:标题,通常由几个单词构成,非常简短 Description:描述,一句话,比Title详细,包含了Title的所有单词 Narrative:详述,更详细地描述了哪些文档是相关的中科院研究生院2011年度秋季课程94 现代信息检索Topic示例 Number:351 Falkland petrole
43、um exploration Description:What information is available on petroleum exploration in the South Atlantic near the Falkland Islands?Narrative:Any document discussing petroleum exploration in the South Atlantic near the Falkland Islands is considered relevant.Documents discussing petroleum exploration
44、in continental South America are not relevant.中科院研究生院2011年度秋季课程95 现代信息检索使用Topic的方式 按照会议要求,可以利用Topic文本中的部分或者全部字段,构造适当的查询条件 可以使用任何方式构造查询条件,这包括手工的和自动的两大类。但提交查询结果时要注明产生方式。中科院研究生院2011年度秋季课程96 现代信息检索评测方法 基于无序集合的评测:返回结果无顺序 Set Precision/Set Recall 基于有序集合的评测:Pn/Average Precision/Reciprocal Rank 其他评测方法 Filte
45、ring Utility中科院研究生院2011年度秋季课程97 现代信息检索相关性评估过程(1)(Ad hoc任务)Pooling方法:对于每一个topic,NIST从参加者取得的结果中挑选中一部分运行结果,从每个运行结果中取头N个文档,然后用这些文档构成一个文档池,使用人工方式对这些文档进行判断。相关性判断是二值的:相关或不相关。没有进行判断的文档被认为是不相关的。中科院研究生院2011年度秋季课程98 现代信息检索相关性评估过程(2)NIST使用trec_eval软件包对所有参加者的运行结果进行评估,给出大量参数化的评测结果(主要是precision和recall)。根据这些评测数据,参加
46、者可以比较彼此的系统性能。其他track也有相应的公开评测工具中科院研究生院2011年度秋季课程99其他评测会议中科院研究生院2011年度秋季课程100 现代信息检索TRECVID(TREC VIDeo)TRECVID:2003年从TREC中分出来的有关Video检索方面的评测,之前是TREC中的Video track任务。中科院研究生院2011年度秋季课程101 现代信息检索MUC(Message Understanding Conference)n 美国DARPA组织的有关信息抽取(IE,Information Extraction)的评测会议,起于1991年,1997年为最后一届(后来演
47、变为ACE评测),后两届加入了命名实体(Name Entity)识别和共指(Co-reference)消解中科院研究生院2011年度秋季课程102 现代信息检索ACE(Automatic Content Extraction)美国NIST组织,主要面向新闻领域的文本,抽取其中的实体、关系和事件。2000年开始,每年1届(2006年停办1次),目前是进行了八届。ACE是以对象(Object)为单位进行提取,而MUC是以词语为单位进行提取。中科院研究生院2011年度秋季课程103 现代信息检索DUC(Document Understanding Conference)2001年开始NIST等开始组
48、织的面向文档摘要(Summarization)的评测会议,评测的任务有单文档摘要和多文档摘要,通用摘要和面向查询(query-biased)的摘要,目前已经进行到第八届中科院研究生院2011年度秋季课程104 现代信息检索其他评测 NTCIR(NII Test Collection for IR Systems):日本国立情报学研究所组织的关于亚洲语言相关的IR评测,1998年11月开始-1999年9月为第一届 CLEF:有关欧洲语言相关的IR评测(跨语言)TAC(Text analsyis Conference):将DUC任务和TREC中的QA任务合并,自2008年开始举办的一个新会议。IN
49、EX(Initiative for the evaluation of XML retrieval):有关XML检索的一个评测,起于2002年,DELOS Network of Excellence for Digital Libraries和IEEE CS组织。国内863评测、北大天网评测、中文信息学会的倾向性分析评测等等现代信息检索 105105用户判定的有效性只有在用户的评定一致时,相关性判定的结果才可用如果结果不一致,那么不存在标准答案无法重现实验结果如何度量不同判定人之间的一致性?Kappa 指标现代信息检索 106106Kappa(1)Kappa是度量判定间一致性的指标 为类别性判
50、断结果(判定的结果是类别型)所设计的指标 对随机一致性的修正 P(A)=观察到的一致性判断比例 P(E)=随机情况下所期望的一致性判断比例现代信息检索 107107Kappa(2)k在 2/3,1.0时,判定结果是可以接受的 如果k值比较小,那么需要对判定方法进行重新设计现代信息检索 108108计算kappa统计量P(A)=(300+70)/400=370/400=0.925Pooled marginalsP(nonrelevant)=(80+90)/(400+400)=170/800=0.2125P(relevant)=(320+310)/(400+400)=630/800=0.7878P
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。