ImageVerifierCode 换一换
格式:PPT , 页数:17 ,大小:590.50KB ,
文档编号:3953474      下载积分:19 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-3953474.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(某信息检索课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

某信息检索课件.ppt

1、华南木棉信息检索 木棉检索队:欧健文(队长),陈晓志,张元丰,胡俊刚,陈晓峰全国搜索引擎与网上信息学术研讨会SEWM 2005-中文Web检索 2目录目标分析设计实现实验分析和总结未来工作3目标主题提取(TD)查找主题相关的关键资源的入口导航搜索 HP 查找指定名字的网站的首页 NP 查找指定名字的页面4主题提取(TD)主题提取(TD)的评分标准 1)是否大部分切合主题;2)提供主题的可靠的信息;3)不是一个更大的切合主题站点的一部分。要求:十个结果中寻找尽可能多的不同站点(用它们的网站首页面表示)匹配度1.查询词与文档的匹配程度关键资源的入口一组同主题的网页集合5导航搜索HP 查找指定名字的

2、网站的首页,什么因素说明一个 页面是home page?NP 查找指定名字的页面。用户所要查找的可能是某一则新闻,某种型号的产品介绍,甚者是某个公司的地址电话等6设计思路衡量一个网页的得分通常分为两大部分匹配度1、向量空间模型+TF*IDF2、对网页文档进行分块 标题 主题内容 主题相关内容 网页噪音 网页的链出锚本 网页的链入锚本重要性1、Pagerank2、网站首页3、资源入口页面7系统框架-索引网页预处理中文分词链接分析文档库索引库网页噪音库连接库 综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响 区别对待站内链接和站外链接 提取网页的链接,一方面通过分析网

3、页链接关系计算网页的pr,另一方面,可以网页得链入锚本。链入锚点文本网页url网页标题网页主题内容链出锚点文本最长匹配法分词最短匹配法分词Google pagerank(GPR)算法简单pagerank(SPR)算法8系统框架-检索用户输入查询词索引库二次检索结果TD:找出关键资源(HAC)1、url特征2、网页结构,目录型网页3、网页的链出锚本4、网页的链出网页HP:找出首页NP:?9系统框架-二次检索站内聚合。判断每个网页类型-目录型还是主题型。对网页的链出文本进行分析,计算其与查询词的匹配程度。匹配程度越高,说明该网页越可能是关键资源。计算该网页的链出网页与查询词的匹配程度。越多链出网页

4、与查询词匹配,说明该网页属于关键资源的可能性就越大。10评测结果这次SEWM2005评测,共提交了5组主题 检索和5组导航查询。采用了链接分析技术,锚点文本,对网页进行分块处理主题采用automatic,直接使用字段作为查询表达式导航部分,分为首页和指定页面 对于所给的查询集,我们可以很容易根据查询就分辨出该查询的意图:HP or NP 所以对查询词进行标记,用H表示该查询为查找HP,而N表示要查询指定页面。11实验环境实验机器为Itanium2双CPU的机器,CPU为1.5Ghz,内存为2G,机器运行操作系统为Redhat AS3.0。12实验结果匹配记录数匹配记录数平均查询时间平均查询时间

5、 (ms)没有去噪没有分词没有去噪没有分词/去噪分词去噪分词没有去噪没有分词没有去噪没有分词/去噪分词去噪分词北戴河32129/25372889/1777寻秦记18298/13842825/1021天气预报70732/113675047/175113评测结果-TD 去噪去噪GPR/SPR分词分词二次检索二次检索RUN_1(1)没有SPR没有HACRUN_2 没有SPR没有简单站内聚合RUN_3(4)有GPR最小分词HACRUN_4 有GPR最大分词简单站内聚合RUN_5 没有SPR 最小分词简单站内聚合14评测结果-HP/NP 去噪去噪GPR/SPR 分词分词调整查询词调整查询词RUN_1(3)没有SPR没有加H/NRUN_2(1)没有SPR没有加H/N,手工分词RUN_3(2)没有SPR最小分词加H/NRUN_4 没有SPR最大分词加H/NRUN_5 有GPR 最小分词加H/N15总结锚点文本可以很好地表示文档内容,应加大其比重。pagerank能够确定首页等重要页面,且精确的pagerank和近似的pagerank效果相差不大。中文分词的粒度对检索精度有比较大的影响。加入中文分词可以大大减少返回不相关的文档,提高检索速度。16未来的工作计算网页的重要性采用PR(site)+PR(page)进一步挖掘锚点文本进一步优化HAC算法

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|