1、华南木棉信息检索 木棉检索队:欧健文(队长),陈晓志,张元丰,胡俊刚,陈晓峰全国搜索引擎与网上信息学术研讨会SEWM 2005-中文Web检索 2目录目标分析设计实现实验分析和总结未来工作3目标主题提取(TD)查找主题相关的关键资源的入口导航搜索 HP 查找指定名字的网站的首页 NP 查找指定名字的页面4主题提取(TD)主题提取(TD)的评分标准 1)是否大部分切合主题;2)提供主题的可靠的信息;3)不是一个更大的切合主题站点的一部分。要求:十个结果中寻找尽可能多的不同站点(用它们的网站首页面表示)匹配度1.查询词与文档的匹配程度关键资源的入口一组同主题的网页集合5导航搜索HP 查找指定名字的
2、网站的首页,什么因素说明一个 页面是home page?NP 查找指定名字的页面。用户所要查找的可能是某一则新闻,某种型号的产品介绍,甚者是某个公司的地址电话等6设计思路衡量一个网页的得分通常分为两大部分匹配度1、向量空间模型+TF*IDF2、对网页文档进行分块 标题 主题内容 主题相关内容 网页噪音 网页的链出锚本 网页的链入锚本重要性1、Pagerank2、网站首页3、资源入口页面7系统框架-索引网页预处理中文分词链接分析文档库索引库网页噪音库连接库 综合采用多种去噪算法,噪音的去除,可以减少索引量,可以避免噪音对检索结果的影响 区别对待站内链接和站外链接 提取网页的链接,一方面通过分析网
3、页链接关系计算网页的pr,另一方面,可以网页得链入锚本。链入锚点文本网页url网页标题网页主题内容链出锚点文本最长匹配法分词最短匹配法分词Google pagerank(GPR)算法简单pagerank(SPR)算法8系统框架-检索用户输入查询词索引库二次检索结果TD:找出关键资源(HAC)1、url特征2、网页结构,目录型网页3、网页的链出锚本4、网页的链出网页HP:找出首页NP:?9系统框架-二次检索站内聚合。判断每个网页类型-目录型还是主题型。对网页的链出文本进行分析,计算其与查询词的匹配程度。匹配程度越高,说明该网页越可能是关键资源。计算该网页的链出网页与查询词的匹配程度。越多链出网页
4、与查询词匹配,说明该网页属于关键资源的可能性就越大。10评测结果这次SEWM2005评测,共提交了5组主题 检索和5组导航查询。采用了链接分析技术,锚点文本,对网页进行分块处理主题采用automatic,直接使用字段作为查询表达式导航部分,分为首页和指定页面 对于所给的查询集,我们可以很容易根据查询就分辨出该查询的意图:HP or NP 所以对查询词进行标记,用H表示该查询为查找HP,而N表示要查询指定页面。11实验环境实验机器为Itanium2双CPU的机器,CPU为1.5Ghz,内存为2G,机器运行操作系统为Redhat AS3.0。12实验结果匹配记录数匹配记录数平均查询时间平均查询时间
5、 (ms)没有去噪没有分词没有去噪没有分词/去噪分词去噪分词没有去噪没有分词没有去噪没有分词/去噪分词去噪分词北戴河32129/25372889/1777寻秦记18298/13842825/1021天气预报70732/113675047/175113评测结果-TD 去噪去噪GPR/SPR分词分词二次检索二次检索RUN_1(1)没有SPR没有HACRUN_2 没有SPR没有简单站内聚合RUN_3(4)有GPR最小分词HACRUN_4 有GPR最大分词简单站内聚合RUN_5 没有SPR 最小分词简单站内聚合14评测结果-HP/NP 去噪去噪GPR/SPR 分词分词调整查询词调整查询词RUN_1(3)没有SPR没有加H/NRUN_2(1)没有SPR没有加H/N,手工分词RUN_3(2)没有SPR最小分词加H/NRUN_4 没有SPR最大分词加H/NRUN_5 有GPR 最小分词加H/N15总结锚点文本可以很好地表示文档内容,应加大其比重。pagerank能够确定首页等重要页面,且精确的pagerank和近似的pagerank效果相差不大。中文分词的粒度对检索精度有比较大的影响。加入中文分词可以大大减少返回不相关的文档,提高检索速度。16未来的工作计算网页的重要性采用PR(site)+PR(page)进一步挖掘锚点文本进一步优化HAC算法