1、2022-8-13网络信息检索的原理及技术网络信息检索的原理及网络信息检索的原理及技术技术网络信息检索的原理及技术网络信息检索的原理及技术用户界面设计友好,利于信息用户与检索系统的交流现实的网络异构,有很大物理差异,所以检索途径更加灵活是衡量信息检索工具的重要指标之一内容新颖实时检索主题广泛功能完善友好检索灵活多元跟进internet的步伐,每时每刻出现新信息,更新内容,随时获取最新信息网络信息检索的原理及技术网络信息检索的原理及技术网络信息检索工具三提供给用户检索信息的软件系统,是网络信息检索的接口联机检索:一种受控的,其数据库需注册的,且有偿的系统搜索引擎:一种开放式的网络检索工具,用户可
2、自由使用它网络信息检索的原理及技术 Marchionini网络信息检索行为模型 Choo网络信息检索行为模型 Macpherson网络信息检索行为模型接受问题理解问题选择系统构造查询思考/重复/停止提取信息评价结果执行查询网络信息检索的原理及技术9.2.2网络信息检索技术海量数据的存储和处理技术网页搜索技术标引技术检索技术排序技术索引技术分类分类网络信息检索的原理及技术9.2.3网络信息检索系统.体系结构体系结构索引数据库用户界面数据过滤地址列表页面分类信息资源采集人工收集自动收集 用户网络信息检索的原理及技术网络信息检索系统工作流程1.搜索引擎中的信息收集模块在网络环境下手机网络信息资源,手
3、机的方式包括人工收集和利用信息收集两种。2.信息收集模块完成信息收集任务后,将所收集的信息资源返还给搜索引擎,并对这些信息资源进行页面分类、建立索引,然后存放在已建立好的索引数据库。3.搜索引擎为用户提供统一的网络信息检索界面,用户通过该检索界面提交自己的检索请求。4.搜索引擎根据用户提供的检索请求,在索引中查询相关语句,并进行必要的逻辑运算操作,然后在索引数据库中查找匹配的网页。5.查询完毕后,将最终的检索结果以超文本链接等形式显示给用户,用户根据这些链接去访问相关的信息资源。网络信息检索的原理及技术搜索引擎的基本结构用户用户网络信息空间网络信息空间收集器标引器标引库检索引擎界面检索过程收集
4、标引过程集中式搜索引擎的一般结构集中式搜索引擎的一般结构网络信息检索的原理及技术分布式搜索引擎的一般结构分布式搜索引擎的一般结构复制管理器对象缓存 网络空间中介器收集器中介器用户.网络信息检索的原理及技术9.3.1网络信息的采集 定义:是实现网络信息检索的第一环节,其主要任务是为网络信息资源库录入信息源。广义上:网络信息采集包括网络信息检索系统的所有信息采集和录入活动。狭义上:是指网络搜索引擎的信息采集。思考:网络搜索引擎的信息怎么采集的呢?网络信息检索的原理及技术9.3.2网络蜘蛛网络蜘蛛即Web Spider,是一个很形象的名字。把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去
5、的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从 网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网 站所有的网页都抓取完为止(大家可以想象下我们经常使用PPT中的那个超级链接,个人觉得和那个很相似)网络信息检索的原理及技术网络蜘蛛的工作原理图网络信息检索的原理及技术 在抓取网页的时候,网络蜘蛛一般有两种策略:广度优先和深度优先 广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。(速率)深度优先是指网络蜘蛛会从起始页开始,一个链接一
6、个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。(简单)网络信息检索的原理及技术9.3.3主题信息采集技术”主题“就是用户所需要搜集信息的特征。主题可以是很多种类别:如Web的信息采集 互联网的信息采集 语义分析的信息采集 等等 简单点说就是我们跟王老师学习的信息检索内容 主题信息采集技术就是基于下面的理念出现的 主题信息采集的任务就是在尽可能短的时间内,尽可能搜集多的主题相关信息。尽可能少的搜索与主题无关的信息。网络信息检索的原理及技术主题信息采集策略基于内容评价基于内容评价的搜索策略的搜索策略Your text基于综合价值评估的搜索策略基于动态价值评估的搜索策略基于链接
7、构的评价策略基于未来回报价值评价的搜索策略主要的主题信息采集策略网络信息检索的原理及技术9.4.1网络信息的组织语法信息组织语法信息组织是以信息的形式特征为特征为依据序化信息的方法语义信息组织语义信息组织是以信息的内容或本质特征为依据序化信息的方法语用信息组织语用信息组织是以信息的效用特征为依据序化信息的方法网络信息检索的原理及技术9.4.2网络信息组织的规范 元数据最本质、最抽象的定义为:data about data。元数据被定义为:描述数据的数据,对数据及信息资源的描述性信息。元数据的基本特点主要有:a)元数据一经建立,便可共享。b)元数据首先是一种编码体系。由于元数据也是数据,因此可以
8、用类似数据的方法在数据库中进行存储和获取。如果提供数据元的组织同时提供描述数据元的元数据,将会使数据元的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。(随便告诉大家元数据是元数据是一种二进制信息,用以对存储在公共语言运行库可移植可执行文件(PE)或存储在内存中的程序进行描述)网络信息检索的原理及技术MARC元数据的概念MARC元数据:是利用计算机识读和处理的目录。MARC主要用于图书馆管理软件中,采访、编目、典藏等环节都有重要的作用,也方便馆际之间的数据交流,是统一文献著录规范。我简练点叫它“英文机读目录格式”,如果是“中国范”的CNMARC就叫“中国机读
9、目录格式”金碟图书馆管理系统增强网络版自带150万CNMARC格式书目库,支持CNMARC格式书目数据的导入导出,可大大减少编目录入工作量。网络信息检索的原理及技术优点作用1.具有标准的信息交换格式2.完整的书目描述,且具有多种检索点3.各类信息资源在图书馆目录中的集成4.兼容性强1.无法及时的处理大量的网络信息资源2.对信息标引的专业性很高,所以不适合大多数普通信息用户3.编目的工作复杂,只能由专业的编目人员进行操作4.所设项目繁杂且产生速度慢图书采访利用MARC数据,就可以通过图书的ISBN号,调入正题名、责任者等图书内容,从而简化图书采购数据的录入。是组织网络信息资源的一种有效方式。23
10、1缺点MARC格式优缺点格式优缺点网络信息检索的原理及技术DC元数据的来历DC元数据:即“都柏林核心(Dublin Core)元数据”,由OCLC首倡于1994年,因创始地在美国俄亥俄(Ohio)首府都柏林而得名。其维护机构为DCMI:Dublin Core Metadata Initiative。DC元数据规范最基本的内容是包含十五个元素的元数据元素集合,用以描述资源对象的语义信息。题名Title 创建者Creator 日期Date 主题Subject 出版者Publisher 类型Type 描述Description 其他责任者Contributor 格式Format 来源Source 权
11、限Rights 标识符Identifier 语种Language 关联Relation 覆盖范围Coverage网络信息检索的原理及技术简单性灵活性兼容性扩展性适应性通用性优势可直接处理数据DC元数据元数据的优势的优势网络信息检索的原理及技术RDF的概念RDF:资源描述框架,一种用于描述Web资源的标记语言,是一个处理元数据的XML(标准通用标记语言的子集)应用。它的作用是为多种元数据的交互提供平台网络信息检索的原理及技术内容01独立性02使用XML作为其描述语法内容u它可嵌入DC元数据也可嵌入其他类型的元数据,使元数据间的转换成为可能u它采用目前最具发展前景的标记语言XML(可扩展标记语言)
12、,用XML作为自己的描述语言,自然就成为一种可携带多种元数据穿行于网络上的框架工具RDF的两大特点的两大特点网络信息检索的原理及技术9.4.3网络信息组织的方法1.数据库组织方式:将所有获得的信息资源按照固定的记录格式存储组织,用户通过关键字及其组配可以知道所需要的信息线索2.超链接方式:把不定长的基本信息单元存放在节点上,这些基本信息单元可以使单个字,句子,章节,文献,甚至是图像,音乐或者录像。3.主页方式:通过各种频道栏目,根据网站定位的用户对象,需求的动态,一次信息等进行全面的编辑,翻译,报道,集中组织信息,提供信息服务。4.文件方式:采用主题法的思想,以文件名标识信息内容,用文件夹组织
13、信息资源,通过网络共享实现信息传播,是成熟的文件操作技术和网络传输技术相结合的产物。5.主题树的方式:将信息资源按照某种事先确定的概念体系,分门别类的逐层加以组织,用户先通过层层浏览的方式遍历,知道找到所需要的资源。网络信息检索的原理及技术9.5.1网络信息的整合 网络信息整合可分为3个阶段(1)面向网络信息组织的整合阶段(2)面向异构数据源的数据整合方式(3)面向应用的信息整合阶段网络信息检索的原理及技术Z39.50标准协议的作用及特点z39.50协议(应用和服务定义与协议规范)将各个系统的具体实现映射到抽象模型上,才能使不同的系统在一个相互理解的、标准的通信平台上进行交互,满足互操作的需要
14、。1.该协议是一种应用层协议2.能够提供一致性的检索接口进行多数据查询3.该协议是一种面向连接的有状态的协议4.该协议面向数据库检索网络信息检索的原理及技术Z39.50标准协议提供的服务它包括了11种基本服务:1.查询;2.检索;3.终止4.浏览;5.分类;6.解释;7.初始化;8.存取控制;9.资源控制;10.删除结果;11.扩展服务;网络信息检索的原理及技术网络信息资源集成 网络信息资源集成有什么意义:网络信息集成技术用于网络信息的查询中,可以得到精确而完善的查询结果。使internet网上繁杂的信息得到更好的整理与集成。网络信息资源集成的阶段和步骤网络信息资源集成的阶段和步骤1网页文本数
15、据抽取2.查询重构3.查询优化和执行4.异构数据的集成 信息资源集成信息资源集成网络信息检索的原理及技术 9.6网络信息的搜索1.搜索引擎及其分类概念:概念:是指在Internet上主动搜索信息并能主动索引、提供查询服务的一类网站,这些网站通过网络搜索Robot或网站登录方式,将Internet上大量网站的页面收集到本地,经过加工处理而建成索引数据库,从而能对用户提出的各种查询做出响应,提供用户所需信息1.11.1搜索引擎综合分类搜索引擎综合分类(1)全文搜索引擎)全文搜索引擎(2)目录搜索引擎)目录搜索引擎(3)元搜索引擎)元搜索引擎网络信息检索的原理及技术全文搜索引擎的工作原理网络信息检索
16、的原理及技术常用的中文搜索引擎Google搜索搜索引擎引擎百度中文搜百度中文搜索引擎索引擎新浪搜索引新浪搜索引擎擎北大天网中英北大天网中英文搜索引擎文搜索引擎网易搜索引网易搜索引擎擎雅虎中国搜雅虎中国搜索引擎索引擎搜狐搜索搜狐搜索引擎引擎网络信息检索的原理及技术PageRank算法PageRank算法的数学定义为:PR(A)=(1-d)+d(PR(Ti)/C(Ti)+.+PR(Tn)/C(Tn)例如在网页A-网页F中,B、C、D、E、F中都链接A。则说明A网页是最为重要的,所以它的PageRank值最高。网页A级别=(1-系数)+系数+.+网页1级别网页1链出个数网页2级别网页2链出个数网页N
17、级别网页N链出个数网络信息检索的原理及技术9.7网络信息检索的研究热点9.7.1 海量数据的存储与处理(1)海量数据的磁盘列存储技术(2)海量数据存储模式(3 )Google 文件系统GFS简介.A GroupC GroupB Group网络信息检索的原理及技术9.7.2 集群与分布式计算 数据库集群系统定义:数据库集群系统定义:数据库集群系统以集群技术与数据库系统相结合。其核心思想是通过多机并行处理来隐藏对数据库性能影响较大的延迟以获得高并行处理性能。其优势其优势1)高能性高能性2)高应用性)高应用性3)高扩张性)高扩张性网络信息检索的原理及技术9.7.3.集群技术的分类集群技术一共分为三类
18、:1.科学集群:科学集群对外就好像一个超级计算机,这种超级计算机内部由十至上万个独立处理器组成,并且在公共消息传递层上进行通信以运行并行应用程序。2.负载均衡集群:与科学计算集群一样,负载均衡集群也在多节点之间分发计算处理负载。它们之间的最大区别在于缺少跨节点运行的单并行程序3.高可用性集群:当集群中的一个系统发生故障时,集群软件迅速做出反应,将该系统的任务分配到集群中其它正在工作的系统上执行,高可用性集群的主要目的是为了使集群的整体服务尽可能可用。网络信息检索的原理及技术9.7.4 XML信息检索 XML查询语言 (1)LOREL(2)XML-QL(3)XQueryXML查询语言网络信息检索的原理及技术9.7.5XRANK 搜索引擎框架XML/HTML文档ElemRank算法XML元素(采用ElemRank算法)混合杜威倒排表查询评估器关键词查询 排序结果XRANK 系统结构图网络信息检索的原理及技术9.7.6.语义网信息检索语义网本体语言语义索引及推理语义网信息检索模型后向链推理后向链推理前向链推理前向链推理2022-8-13网络信息检索的原理及技术