1、第四章第四章 搜索引擎搜索引擎一、一、搜索引擎的概念搜索引擎的概念二、二、搜索引擎的类型及特点搜索引擎的类型及特点三、三、常用通用搜索引擎常用通用搜索引擎四、四、常用元搜索引擎常用元搜索引擎五、五、常用医学专业搜索引擎常用医学专业搜索引擎 在互联网发展初期,网站相对较少,信息查找比较容易。然而,伴随互联网的迅速发展,网上信息已呈爆炸性增长。目前Internet能找到的网页已多达数千亿之巨,并且仍以每几个月翻一番的速度增长。用户要在如此浩瀚的信息海洋里寻找信息,往往会“大海捞针”无功而返,搜索引擎的出现正是为了解决这种“迷航”问题。目前已有数以千计的Web搜索引擎在 Internet上运行,We
2、b搜索引擎已逐渐成为Web信息检索利用的主要方式之一。搜索引擎是指以人工或网络机器人搜索引擎是指以人工或网络机器人软件的方法采集、标引软件的方法采集、标引Web资源和其他资源和其他类型的网络资源,并将索引信息内容存类型的网络资源,并将索引信息内容存储于大型数据库中,以储于大型数据库中,以Web网站的方式网站的方式提供给网络用户查询的信息服务系统。提供给网络用户查询的信息服务系统。第四章第四章 搜索引擎搜索引擎一、一、搜索引擎的概念搜索引擎的概念二、二、搜索引擎的类型及特点搜索引擎的类型及特点三、三、常用通用搜索引擎常用通用搜索引擎四、四、常用元搜索引擎常用元搜索引擎五、五、常用医学专业搜索引擎
3、常用医学专业搜索引擎索引式搜索引擎索引式搜索引擎 目录式搜索引擎目录式搜索引擎 元搜索引擎元搜索引擎 索引式搜索引擎索引式搜索引擎 也称为机器人搜索引擎,主要采用机器也称为机器人搜索引擎,主要采用机器人技术,通过人技术,通过“机器人机器人”(Robot)、“蜘蛛蜘蛛”(Crawler)、“爬虫爬虫”(Spider)等等去网上抓取各个网站、网页的信息,自去网上抓取各个网站、网页的信息,自动化程度高的搜索引擎还利用计算机辅动化程度高的搜索引擎还利用计算机辅助数据库的建设,如进行自动分类、自助数据库的建设,如进行自动分类、自动标引、自动文摘等。在前台提供一个动标引、自动文摘等。在前台提供一个检索入口
4、,用户通过检索入口递交查询检索入口,用户通过检索入口递交查询请求,通过后台对数据库的检索操作将请求,通过后台对数据库的检索操作将结果反馈给用户,相当于网上资源的主结果反馈给用户,相当于网上资源的主题索引题索引 索引式搜索引擎的主要特点是索引式搜索引擎的主要特点是:1.交互性更强,集中体现了客户机交互性更强,集中体现了客户机/服务器模服务器模式的优势。式的优势。2.检索功能强大,一般可进行布尔逻辑检索、检索功能强大,一般可进行布尔逻辑检索、词组检索、位置检索、截词检索等词组检索、位置检索、截词检索等 3.提供二次检索,允许在查询结果中进一步提供二次检索,允许在查询结果中进一步限定,从而缩小检索结
5、果范围,提高查准限定,从而缩小检索结果范围,提高查准 率。率。目录式搜索引擎目录式搜索引擎 又称目录导引式搜索引擎,主要是指由人工又称目录导引式搜索引擎,主要是指由人工发现、抓取、辨别网上信息,依靠编目、标发现、抓取、辨别网上信息,依靠编目、标引人员的知识,按照图书分类、学科分类或引人员的知识,按照图书分类、学科分类或其他分类依据,建立主题树分层目录,并将其他分类依据,建立主题树分层目录,并将采集、筛选后的信息分门别类地放入各大类采集、筛选后的信息分门别类地放入各大类或子类下面。在或子类下面。在Web页面上呈现出错落有致页面上呈现出错落有致的上下位关系,用户通过层层点击,顺链而的上下位关系,用
6、户通过层层点击,顺链而行,随着范畴的缩小与查询的专指度提高,行,随着范畴的缩小与查询的专指度提高,最终满足用户的查询需求。最终满足用户的查询需求。目录式搜索引擎的特点目录式搜索引擎的特点1.比较适合主题浏览、一般主题检索或为用户比较适合主题浏览、一般主题检索或为用户检索提供有价值的提示,而且通过这种体系检索提供有价值的提示,而且通过这种体系分类来归整资源,体现了知识概念的系统性,分类来归整资源,体现了知识概念的系统性,有利于族性检索。有利于族性检索。2.查准率高。一方面人工技术的干预查准率高。一方面人工技术的干预;另一方面另一方面用户参与程度高用户参与程度高.3.查全率有限。信息涵盖量不大,更
7、新能力有查全率有限。信息涵盖量不大,更新能力有限是这类检索引擎的一个弊端。限是这类检索引擎的一个弊端。4.分类依据的科学性与标准性。对于这一类搜分类依据的科学性与标准性。对于这一类搜索引擎,分类标准是其提供优质检索服务底索引擎,分类标准是其提供优质检索服务底重要保障之一。重要保障之一。目录式搜索引擎与索引式搜索引擎的主要区别目录式搜索引擎与索引式搜索引擎的主要区别在于:在于:1.目录式搜索引擎的数据库是依靠人工建立目录式搜索引擎的数据库是依靠人工建立起来的,索引式搜索引擎的数据库是用程序起来的,索引式搜索引擎的数据库是用程序自动搜索和积累的。自动搜索和积累的。2.由于目录是依靠人工进行整理搜索
8、,而且由于目录是依靠人工进行整理搜索,而且只在保存的对站点的描述中进行搜索,因此只在保存的对站点的描述中进行搜索,因此站点本身的动态变化不会反映到搜索结果中站点本身的动态变化不会反映到搜索结果中来,其网站信息的更新速度受到一定影响。来,其网站信息的更新速度受到一定影响。3.由于目录是依靠人工来评价一个网站的内由于目录是依靠人工来评价一个网站的内容,因此用户从目录搜索得到的结果往往比容,因此用户从目录搜索得到的结果往往比索引式搜索引擎得到的结果更具参考价值。索引式搜索引擎得到的结果更具参考价值。网上信息的急剧膨胀往往是单个独立搜索引网上信息的急剧膨胀往往是单个独立搜索引擎的检索能力所难以招架的。
9、任何一个搜索引擎都擎的检索能力所难以招架的。任何一个搜索引擎都不可能不可能100%的覆盖网上信息。据专家评测,目前的覆盖网上信息。据专家评测,目前主要搜索引擎返回的相关结果的比率不超过主要搜索引擎返回的相关结果的比率不超过45%,而且由于机制、范围、算法等差异,导致同样一个而且由于机制、范围、算法等差异,导致同样一个查询请求在不同的搜索引擎中的检索结果的重复率查询请求在不同的搜索引擎中的检索结果的重复率不足不足34%。因此,要想获得一个比较全面、准确的。因此,要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。于是,元搜结果,就必须反复调用多个搜索引擎。于是,元搜索引擎应运而生,在一
10、定程度上解决了搜索引擎的索引擎应运而生,在一定程度上解决了搜索引擎的这些问题。这些问题。元搜索引擎(元搜索引擎(Metasearch Engine),被称),被称为搜索引擎之上的搜索引擎,是一个要调用其为搜索引擎之上的搜索引擎,是一个要调用其 他搜索引擎的搜索引擎。他搜索引擎的搜索引擎。按工作方式,可将元搜索引擎分为两种类型按工作方式,可将元搜索引擎分为两种类型 串行处理引擎串行处理引擎:首先将查询请求发至某个独:首先将查询请求发至某个独立搜索引擎,再等待结果,然后将每一个独立搜索引擎,再等待结果,然后将每一个独立搜索引擎返回的结果进行处理,输出结果。立搜索引擎返回的结果进行处理,输出结果。因
11、此,串行引擎调用的独立引擎越多,处理因此,串行引擎调用的独立引擎越多,处理所需时间也就越长。所需时间也就越长。并行处理引擎并行处理引擎:它同时将查询请求传送给所:它同时将查询请求传送给所有要调用的独立搜索引擎,然后将结果一并有要调用的独立搜索引擎,然后将结果一并处理返回结果。此种方式可以节省查询的处处理返回结果。此种方式可以节省查询的处理时间。理时间。元搜索引擎的主要特点元搜索引擎的主要特点1.查全率大大提高,但查准率更难保障;2.一般只支持AND、OR、NOT等简单的操作;3.运作机制有别于目录式和索引式;4.元搜索引擎需要与各个收录的搜索引擎网站建立协作关系,拥有对方数据库的访问权。第四章
12、第四章 搜索引擎搜索引擎一、一、搜索引擎的概念搜索引擎的概念二、二、搜索引擎的类型及特点搜索引擎的类型及特点三、三、常用通用搜索引擎常用通用搜索引擎四、四、常用元搜索引擎常用元搜索引擎五、五、常用医学专业搜索引擎常用医学专业搜索引擎 Google(http:/)Hotbot (http:/)Yahoo!(http:/)第四章第四章 搜索引擎搜索引擎一、一、搜索引擎的概念搜索引擎的概念二、二、搜索引擎的类型及特点搜索引擎的类型及特点三、三、常用通用搜索引擎常用通用搜索引擎四、四、常用元搜索引擎常用元搜索引擎五、五、常用医学专业搜索引擎常用医学专业搜索引擎 Cyber411(http:/)Digi
13、Search(http:/ 搜索引擎搜索引擎一、一、搜索引擎的概念搜索引擎的概念二、二、搜索引擎的类型及特点搜索引擎的类型及特点三、三、常用通用搜索引擎常用通用搜索引擎四、四、常用元搜索引擎常用元搜索引擎五、五、常用医学专业搜索引擎常用医学专业搜索引擎Medical Matrix(医源)(医源)http:/www.medmatrix.orgMedical World Search(医学世界检索)(医学世界检索)http:/Medscape(医景医景)http:/Clini Web International(国际临床网国际临床网)http:/www.ohsu.edu/cliniweb39健康网(健康网()丁香园(丁香园(http:/