1、信息信息检索检索 按目录类别查找搜索按目录类别查找搜索:比如比如:查高考资料查高考资料选择选择“教教育育”类目类目没找到没找到“高考高考”,就找就找“教育教育”里里跟接近跟接近“高考高考”的的“中小学教育中小学教育”找到啦!找到啦!按关键词语查找搜索按关键词语查找搜索:注意啦,要先注意啦,要先在这里输入关在这里输入关键字!键字!现在可以按现在可以按“搜索搜索”按钮按钮了了点击我就可以点击我就可以进入进入“高考高考”有关内容了!有关内容了!工作工作原理原理全文搜索引擎的工作原理全文搜索引擎的工作原理搜索引擎是如何搜索信息的呢?你听说过“网络机器人”、“爬虫”、“蜘蛛”吗?他们只是搜索引擎的一个部
2、分,叫“搜索器”搜索器搜索器搜索引擎的组成索引器索引器检索器检索器 搜索器 索引器 输入查询表达式 查询结果显示 查询信息排序 采集结果索引数据库检索器 索引 排序 用户查询查询结果信息采集筛选全文搜索引擎的工作原理:全文搜索引擎的工作原理:百度搜索百度搜索“海南概括海南概括”:百度蜘蛛 输入“海南概括”查询结果显示 查询信息排序 检索器 索引器 索引数据库 索引 排序 用户查询查询结果检索中国日报网 爬中国在线海南概括页面网址 抓抽取“海南、概括”等关键字 抽取关联 工作工作原理原理目录索引类搜索引擎的工作原理目录索引类搜索引擎的工作原理(1)人工采集和存储网络信息,手工为每个网站确定一个标
3、题,给出大概的描述,建立关键字索引,将其放入相应的类目体系中。(2)网络目录:按主题性质分类 以某种分类体系为依据 形成由信息链组成的树状结构 即总目录专题目录链接网站目录索引目录索引全文索引全文索引无需输入关键字,可通过浏览主题了解某一主题的相关资源 需要关键字查询 人工采集并存储网络信息 搜索器在因特网中抓取网页,索引器提取、组织并建立数据库 网页内容丰富、学术性较强信息资源多、复杂,不易了解主题内容维护费用大、更新速度慢 搜索器定期自动“抓”网页 元搜索引擎元搜索引擎(2019年出现)是一种调用其他多个独立搜年出现)是一种调用其他多个独立搜索引擎的引擎,是对多个独立搜索引擎的整合、调用、
4、索引擎的引擎,是对多个独立搜索引擎的整合、调用、控制和优化,能方便地检索多个搜索引擎,扩大检索范控制和优化,能方便地检索多个搜索引擎,扩大检索范围,提高检索的全面性。围,提高检索的全面性。元搜索引擎在搜索的时候,用户只需元搜索引擎在搜索的时候,用户只需提交一次搜索请求提交一次搜索请求,而且可以而且可以同时搜索多个数据库同时搜索多个数据库,并根据多个搜索引擎的,并根据多个搜索引擎的检索结果检索结果进行二次加工进行二次加工,如对检索结果进行重排和标明,如对检索结果进行重排和标明检索结果来源等,输出给用户。检索结果来源等,输出给用户。缺点:缺点:一般支持一般支持ANDAND、OROR、NOTNOT等
5、操作,一般只使用等操作,一般只使用简单、直接的搜索策略,并且检索速度也慢。简单、直接的搜索策略,并且检索速度也慢。元搜索引擎元搜索引擎 当我们查找图片、音频等信息时,使用综合信息检当我们查找图片、音频等信息时,使用综合信息检索引擎通常会找到很多无用的信息,所以搜索效率和有索引擎通常会找到很多无用的信息,所以搜索效率和有效性都不高。这时,就可以使用特色搜索引擎效性都不高。这时,就可以使用特色搜索引擎(有时是(有时是综合信息检索工具中的一个功能)综合信息检索工具中的一个功能),特色检索工具专门,特色检索工具专门搜集某一类的信息资源,内容丰富,数据量大,能帮助搜集某一类的信息资源,内容丰富,数据量大
6、,能帮助我们迅速找到一些有用的信息我们迅速找到一些有用的信息。此外还有一些专业性质的搜索引擎,如此外还有一些专业性质的搜索引擎,如SOSIG是专是专门搜集社会科学信息的信息检索工具(门搜集社会科学信息的信息检索工具(sosig.ac.uk),涉涉及经济学、哲学、教育、政治、环境科学、心里学、人及经济学、哲学、教育、政治、环境科学、心里学、人类学、社会福利、政府管理和妇女研究等信息资源。类学、社会福利、政府管理和妇女研究等信息资源。特色信息检索工具特色信息检索工具 以以FTP、Telnet、Usenet等资源为检索等资源为检索对象的检索工具。对象的检索工具。如北大天网、如北大天网、Archic等。等。其他信息检索工具其他信息检索工具发展发展趋势趋势传统的多媒体数据库中,除了文本和数字还包括图形、图象、声音、视频、动画等各种媒体组合。但多媒体信息具有丰富的内涵,如:图象的颜色、纹理、形状,动画中的运动、声音和音调等。例如歌曲的旋律、音调、音质等难以用文字描述。这正是基于内容的音频检索需要研究和解决的问题,以期达到更深的检索层次和更好的检索效果。专业垂直类搜索引擎只面向某一个专业垂直类搜索引擎只面向某一个特定的领域特定的领域,专,专注于自己的注于自己的特长和核心技术特长和核心技术,能够保证对该领域信,能够保证对该领域信息的息的完全收录和及时更新完全收录和及时更新。