1、第八章第八章 信息服务业务及其组织信息服务业务及其组织 8.1 8.1 信息服务业务的基本类型与要求信息服务业务的基本类型与要求 8.2 8.2 信息提供与信息保障服务信息提供与信息保障服务8.3 8.3 信息发布、传递与交流服务信息发布、传递与交流服务 8.4 8.4 信息检索和基于检索的专项信息服务信息检索和基于检索的专项信息服务 8.5 8.5 咨询服务咨询服务 8.6 8.6 信息资源深层次开发与数据挖掘、信息过滤服务信息资源深层次开发与数据挖掘、信息过滤服务 8.1 8.1 信息服务业务的基本类型与要求信息服务业务的基本类型与要求 一信息服务业务类型一信息服务业务类型 二信息服务的要
2、求二信息服务的要求 一一信息服务业务类型信息服务业务类型 1 1按按“服务服务”所发布或提供的信息类型区分所发布或提供的信息类型区分 实物信息服务 口头信息服务 文献信息服务 数据服务 2 2按服务所提供的信息加工深度区分 一次服务 二次服务 三次服务一一信息服务业务类型信息服务业务类型 3按信息服务的内容区分 科技信息服务 经济信息服务 法律信息服务 技术经济信息服务 军事信息服务 流通信息服务等 一一信息服务业务类型信息服务业务类型 4按信息服务方式区 宣传报导服务。文献借阅服务 文献复制服务 文献代译服务 专项委托服务 信息检索服务 咨询服务 研究、预测服务 系统开发服务一一信息服务业务
3、类型信息服务业务类型 5 5按信息服务手段区分 人工信息服务 信息系统服务 网络信息服务 数字化信息服务 6 6按服务对象(用户)区分 单向信息服务 多向信息服务一一信息服务业务类型信息服务业务类型 7 按信息服务持续的时间区分 长期信息服务 短期信息服务 即时信息服务 8 按信息服务的范围区分 内部服务 外部服务 社会化服务一一信息服务业务类型信息服务业务类型 9.按信息服务的能动性区分 被动信息服务 主动信息服务10.按服务收费情况区分 无偿信息服务。有偿信息服务二信息服务的要求二信息服务的要求 1.1.信息服务的基本关系信息服务的基本关系 信息服务作为信息机构的第一线工作,是联系用户与信
4、息源之间的“桥梁”,其目的是向用户提供他们所需的各类信息或沟通用户与外界联系,为其发布信息,确保应有的信息效益。信息服务的基本关系可以概括为下图所示的关系结构 反馈反馈传递传递提供提供搜集、整理、加工、存搜集、整理、加工、存贮贮信息信息源源开发开发信息信息服务服务信息信息用户用户联系联系信息系统、网络信息系统、网络二信息服务的要求二信息服务的要求 2.2.信息服务的基本要求信息服务的基本要求 (1)信息资源开发的广泛性 (2)服务的充分性 (3)服务及时性 (4)服务的精炼性 (5)信息的准确性 (6)服务收费的合理性8.2 8.2 信息提供与信息保障服务信息提供与信息保障服务 一一信息提供服
5、务信息提供服务 二二信息保障服务的组织信息保障服务的组织 一一信息提供服务信息提供服务 信息提供服务非文献信息的提供文献信息的提供物化信息提供交往信息提供原始文献信息提供文献查询提供按实物功能按实物来源按实物类型按交往对象按交往目的按交往内容按交往关系按文献功能按文献来源按文献类型按文献用途按需求范围按需求时间按需求类型按需求地点1.1.信息提供服务的类型和内容信息提供服务的类型和内容 一一信息提供服务信息提供服务 2.信息提供服务应注意的基本环节:(1)信息提供内容的完备性 对研究开发中的各类用户或角色均应保证其信息需求的满足;项目信息提供应包括项目进行中的各个环节;信息提供中的信息类型应完
6、整无缺;信息所涉及的研究与开发学科范围或领域应完备。(2)信息提供技术的适用 从综合情况看,传统技术与现代技术的结合使用已成为项目信息提供的主流。(3)信息来源的可靠 科学研究与开发是一种创造性劳动,项目进行具有一定的风险,特别是高科技领域,具有高效益、高风险的特点,这就提出了以十分可靠的信息服务来降低项目风险性的要求。一一信息提供服务信息提供服务 2.信息提供服务应注意的基本环节:(4)信息提供的及时。一是指信息提供及时,二是信息利用及时 (5)信息提供的规范化。从项目管理、业务工作、信息保证技术利用和用户工作等方面出发进行综合研究,在科学研究与开发社会规范总原则下,实现项目信息保障的规范化
7、。(6)信息提供服务使用方便。在保障业务开展中,开拓灵活多样的服务方式,注重为用户提供获取和传递信息的有效途径与手段,开展用户培训等措施是目前提供保障服务中的重要问题。简化服务的利用程序,实现信息提供中科学化的用户管理,同时讲究实际效果,尽量为用户节省信息保障开支。一一信息提供服务信息提供服务 3.信息提供服务的步骤 (1)明确信息提供的目的和用途,确定信息提供的种类和具体内容 (2)确定信息的来源。根据信息的种类和形式,确定信息的范围和来源 (3)确定信息提供的方法和形式,根据需要和要求,选择直接在现场实际调查还是间接从文献资料中搜集、提供,或是采用其它方式提供。(4)按工作计划进行信息提供
8、工作,信息提供方法和形式确定后,应制订信息提供计划,使提供服务有序化。二二信息保障服务的组织信息保障服务的组织(1)信息保障服务的业务区分 信息保障服务业务由服务对象以及服务对象的主体活动决定 按信息保障的对象区分 按信息保障的组织方式区分 按信息保障的其他方面区分 二二信息保障服务的组织信息保障服务的组织(1)信息保障服务的业务区分 按信息保障的对象区分 例如,RD活动中的各类人员具有各自不同的信息需求,这就决定了在业务工作中应针对不同的人员进行不同内容的信息保障。如:研究开发人员(系指研究、开发项目的承担者和完成者)信息保障的开展旨在为其提供完整的信息服务,信息保障的内容包括围绕研究与开发
9、人员在研项目所进行的保障以及在他们所从事的专业领域内所进行的信息保障两个方面(即研究与开发课题信息保障和研究与开发专业信息保障)。研究与开发管理人员(包括国家科技管理部门、科学研究与开发机构、工农业企业中的有关科研与开发管理人员和其他有关管理人员)信息保障的目的是使他们在充分而可靠的信息支持环境中进行RD管理决策,信息保障的内容是围绕他们的管理工作进行信息资源、信息获取与交流工具以及信息服务保障。二二信息保障服务的组织信息保障服务的组织(1)信息保障服务的业务区分按信息保障的组织方式区分。例如,RD活动是一种组织化的科学研究、技术开发和实践活动,为了保证研究与开发工作的顺利进行,应从多方面开展
10、信息保障,其中主要的组织方式有“过程保障”、“用户保障”和“过程用户综合保障”。科学研究与开发过程信息保障是一种围绕研究与开发项目实施,针对项目进行过程中各环节信息需求的信息保障方式,其要点是跟踪项目的开展,进行全方位信息搜集、处理、组织与提供。在实施信息保障中,将服务对象作为一个整体对待,所提供的信息可以为RD活动中的各类人员利用。可见,这种保障对于“过程”来说具有很强的专指性,对于各类用户来说具有一定的通用性。用户保障形式按在研究与开发中具有不同职责的用户需求来组织,是一项不强调“过程”而强调“用户”的信息保障形式。它针对RD活动中具体的用户信息需求进行,是一种跟踪各类专业人员的具体工作所
11、进行的一种协调式信息保障服务。这种方式一般适用于RD大型项目的信息保障工作。过程信息保障和用户信息保障既然有各自的优点,又有各自的缺陷,因此可以将这两种方式结合起来进行综合性信息保障服务。综合信息保障不仅跟踪RD项目过程及进展,而且跟踪承担不同任务的所有用户。综合信息保障与过程信息保障和用户信息保障的区别并不在于信息搜集、传递等手段上的不同,而在于信息处理和组织上的差异,它要求针对不同用户在RD项目进行中各阶段的不同需求组织信息,开展以用户为主体的过程信息保障服务。二二信息保障服务的组织信息保障服务的组织(1)信息保障服务的业务区分 按信息保障的其他方面区分。如按RD中信息保障所提供的信息及其
12、信息源开发利用类型区分,RD信息保障包括:文献信息源保障,实物信息源保障,数据保障,事件信息源保障等。这些保障以传递或提供不同类型的信息为基础,鉴于信息源的不同形式和特征,在信息保障中存在各种不同类型的信息保障方式。按信息保障的服务环节,RD信息保障可分为RD中信息提供保障、信息传递保障、信息加工保障、信息研究保障、决策信息保障、信息发布保障等。这些不同的保障在实际工作中有机结合而成为一项整体业务。按信息保障的范围区分,RD信息保障还可以分为国内信息保障和国际信息保障。前者限于针对国内用户的信息需求组织信息保障工作;后者立足于国内外RD合作与效,进行国内、国外用户信息保障等。二二信息保障服务的
13、组织信息保障服务的组织(2)信息保障服务的组织方法 项目服务法 用户跟踪法 综合保障法 系统组织法8.38.3信息发布、传递与交流服务信息发布、传递与交流服务 一信息发布与传递服务一信息发布与传递服务 二信息发布与多向信息传递服务二信息发布与多向信息传递服务 三.中介服务中的双向信息传递与交流 四.社会流动中的信息交流服务 一一信息发布与传递服务信息发布与传递服务 两种基本形式:其一,用户利用信息传输硬件设施直接发布、传递信息(如利用互联网的形式发布信息);其二,用户通过信息发布与传递服务发布与传递信息。由于第一种服务只需提供硬件设施,因而我们讨论的是第二种形式。一一信息发布与传递服务信息发布
14、与传递服务(1)按信息发布与传递的集中程度区分 离散式 连续式 集中式(2)按信息发布流向不同区分 单向传递。双向发布、传递。一一信息发布与传递服务信息发布与传递服务(3)按信息传递的渠道区分 正式的有组织的发布、传递 非正式的个人发布、传递(4)按信息发布传递的范围区分 系统内部信息发布传递。系统外部信息发布传递。二二信息发布与多向信息传递服务信息发布与多向信息传递服务1.信息发布的主要形式 (1)面向社会大众的公告性发布(如科技成果公报、专利报、科学动态和新产品研制公报等)(2)新闻发布 (3)网上信息发布 (4)网页制作发布信息外 (5)专业性信息发布二二信息发布与多向信息传递服务信息发
15、布与多向信息传递服务 进行中项目信息服务的基本程序:在一定的专业或业务范围内,汇集进行中项目信息发布、交流与服务系统用户的有关信息,进行有序化信息处理和组织;在一定范围内接受项目信息的提供、查询服务,沟通各有关部门的业务关系;接受信息反馈,组织研究与开发用户之间的交流。更新项目信息,如项目已经完成,则将其归入项目成果信息系统,进行发布。三三中介服务中的双向信息传递与交流中介服务中的双向信息传递与交流外部信息系统科技成果转让方(科研单位)新课题生成成果转移数据库转移信息处理科技成果数据库管理系统企业数据库科技成果受让方(企业)成果信息检索成果信息处理成果信息定期提供成果信息检索1.双向信息服务系
16、统结构图 三三中介服务中的双向信息传递与交流中介服务中的双向信息传递与交流2.系统的主要特点和运行机制 系统具有三个基本数据库和与外部成果数据系统的接口 提供双向信息服务 确认收入成果的水平及可用性 基本的全方位检索功能 统计分析功能 新的科研课题的生成 系统运行管理四四社会流动中的信息交流服务社会流动中的信息交流服务(1)社会流动及其作用机制 社会流动的根源是商品生产的发展和开放性社会体制的形成。在不发达的社会中,生产力低下,僵化的社会模式导致社会职业的固定性,森严的等级制度和顽固的世袭制度使社会形成一种封闭结构,这种结构严格限制着人们在阶层上的流动。现代社会,由于大工业的产生和商品经济的发
17、展,冲破了封闭的社会模式的束缚,社会生产日益复杂,人们互助活动日益社会化,使得人们再也不能固定于一个层次。由于人所特有的上进心理、地位心理、选择心理以及社会生产力提高所引起的结构变革,使得人们不但从地位上进行流动,而且从职业上进行流动。由此可见,社会流动是社会发展的阶段性产物,随着社会现代化日益加强,社会流动同时又给社会的进一步发展带来了生机。当前,我国的社会流动正在以下4方面得到加强:改革人才部门所有制,加强社会人才流动;改革和完善干部制度,实行任期制,进行干部的上下流动;调整经济结构和社会职业结构,加强职业流动;引入竞争机制,加速社会的全面流动。四四社会流动中的信息交流服务社会流动中的信息
18、交流服务(2)社会流动中双向信息传递与服务 对于流动者来说,其信息传递按以下几个基本方面进行:对社会关系中的地位结构信息的传递与提供对社会流动目标信息的传递与提供对社会流动环境信息的传递与提供对取代对象的信息传递与提供对社会地位结构规范的信息的传递与提供对社会流动的物质条件方面的信息的传递与提供四四社会流动中的信息交流服务社会流动中的信息交流服务(2)社会流动中双向信息传递与服务 对于社会流动的接受者(包括流动接受部门、单位等,如招聘人才的企业、政府部门等),需要组织以下信息的传递与提供:具有流动需要与可能的流动者的信息,如流动者基本情况、学历、经历、业务能力及流动条件等。有关的社会流动环境、
19、国家政策、法规等方面的信息;相关部门、单位对流动者的需求信息及国内外人才流动的动态信息;流动者的社会交往关系及社会评价、地位等信息。8.48.4信息检索和基于检索的专项信息服务信息检索和基于检索的专项信息服务一信息检索服务一信息检索服务 二基于信息检索的专项信息服务二基于信息检索的专项信息服务 一一信息检索服务信息检索服务(1)定题信息服务调查研究定题确定服务范围规定定题服务所包括的信息源确定定题信息的报导方式选择和确定信息检索语言和体制组织开展定题信息服务的人员组织定题服务文献的编制业务向用户提供服务保持经常“用户反馈 一一信息检索服务信息检索服务(2 2)课题论证与查新服务课题论证与查新服
20、务课题论证信息服务与查新服务内容如下:课题论证信息服务与查新服务内容如下:课题论证信息服务课题论证信息服务查新信息服务查新信息服务基于检索的课题论证与查新信息服务的程序如下:基于检索的课题论证与查新信息服务的程序如下:接受服务接受服务拟定计划拟定计划进行信息检索进行信息检索进行课题文献分析并得出结论进行课题文献分析并得出结论编制报告并提交研究结果编制报告并提交研究结果8.5 8.5 咨询服务咨询服务一一.咨询业务的类型咨询业务的类型二二.咨询的基本程序与方法咨询的基本程序与方法一一.咨询业务的类型咨询业务的类型(1)文献信息咨询(2)科技研究与开发咨询(3)工程项目咨询(4)业务管理与综合决策
21、咨询(5)其他专业咨询一一.咨询业务的类型咨询业务的类型(1)文献信息咨询查询具体人物、事件、数据、文献等方面的事实性咨询;关于信息搜集、检索、处理和利用方面的咨询,包括参考工具和检索工具的使用等;关于某一课题信息的系统咨询,要求解决专题信息利用中的一系列问题;科技和经济信息评价咨询,询问其准确性和实用性;关于组织信息工作和开发信息系统的咨询等。一一.咨询业务的类型咨询业务的类型(2)科技研究与开发咨询 新课题、新技术、新工艺、新材料、新产品、新设备、新流程等方面的研究和开发;科技成果的评价、鉴定、推广、利用、转让等;分析、测试、数据处理、计算机管理编程及软件开发;企业科技发展预测分析;对引进
22、国外设备、技术的吸收、利用与创新工作分析;对资源的开发、原材料、副产品综合利用和公害治理的措施与策略研究等。一一.咨询业务的类型咨询业务的类型(3)工程项目咨询项目的环境、必要性和实际意义;进行国内现有生产能力和国内、外市场需求预测,作出产品竞争能力的分析,确定拟建工程项目的规模、产品方案和发展方向;评述资源的储量、品位、成分、开采及利用条件,调查原料和辅助材料的种类、数量、供应渠道;分析建厂地理位置、自然和社会条件,交通运输、能源状况及发展趋势,提出各种有待选择的建厂意见;进行全厂总体布置、厂内物资运输方式的比较,对主要工艺设备的选择提出具体的方案;进行环境问题研究,确定污染治理的综合措施;
23、确定生产组织方式和劳动定员;制订拟建项目的实施计划,包括勘察设计、设备订货、工程施工、调试和投产时间;进行各单位工程及外部协作配套工程的资金估算等。一一.咨询业务的类型咨询业务的类型(4)业务管理与综合决策咨询业务管理咨询:对管理体制和经营的建议;管理的目标和策略的确立以及经营的战略和措施的拟定;管理机构的设置、管理制度的建立和科学管理方法的应用;调整企业的生产组织,减少生产过程的消耗,提高生产效益;具体经营活动的组织与改进咨询;财务管理、协调人事关系和开展公关活动的咨询等。综合决策咨询:科技、经济、社会长远发展战略的制订;地区性、区域性的综合经济开发;跨地区、部门、行业和专业的合作研究;组织
24、的中长期综合发展研究等。对这些咨询的利用关系到组织发展环境、资源和战略决策等多方面的管理决策问题。一一.咨询业务的类型咨询业务的类型(5)其他专业咨询法律咨询;政策咨询;商务咨询;金融咨询;保险咨询;招标咨询;财务咨询;教育咨询等二.咨询的基本程序与方法(1)受理咨询(2)制订咨询计划(3)搜集、鉴别、整理咨询信息(4)进行分析研究(5)编写咨询报告,进行结果论证(6)提交咨询报告并进行项目归档8.6 8.6 信息资源深层次开发与数据挖掘、信息资源深层次开发与数据挖掘、信息过滤服务信息过滤服务一.数据库与数据仓库服务二.数据挖掘服务三.信息过滤服务一.数据库与数据仓库服务(1)数据库服务的组织
25、(2)数据仓库服务一.数据库与数据仓库服务(1)数据库服务的组织传统数据库(包括层次数据库、网状数据库和关系数据库)技术面向对象数据库(OODB)技术分布式数据库(DDB)技术多媒体数据库(MDB)技术Web数据库技术半结构化数据库技术等一.数据库与数据仓库服务(1)数据库服务的组织 面向对象数据库技术 在概念和原理上虽然还未取得完全一致的理解,但业界普遍认为下述基本概念是它所应该具有的:对象、类、继承和封装。面向对象方法具有很强的描述现实世界中复杂对象的能力以及高效率开发系统和实现软件复用的能力,并已有成功的、商品化的面向对象的数据库管理系统推向市场,尽管它们的工具和环境还有待进一步丰富和完
26、善。ORION、IRIS、ONTOS、ObjectStore等是当前较有影响的OODB管理系统。一.数据库与数据仓库服务(1)数据库服务的组织 分布式数据库技术 分布式技术与数据库技术的结合,在数据库研究领域中已有多年的历史和出现过一批支持分布数据管理的系统,如SDD-1系统、D-INGRES系统和 POREL系统等。从概念上讲,分布式数据库是物理上分散在计算机网络各结点上、而逻辑上属于同一个系统的数据集合,它具有数据的分布性和数据库间的协调性两大特点。由于一个事务所涉及的数据可能分布在多个结点上,这就要求数据库系统具备一个优化的分布查询策略,通过分布式来实现数据共享。今后随着网络技术的发展,
27、分布式数据库将会得到日益广泛的应用。一.数据库与数据仓库服务(1)数据库服务的组织 多媒体数据库技术 多媒体技术与数据库技术的结合,是当前最有吸引力的一种技术。多媒体数据库技术研究并实现对多媒体数据的综合管理,即对多媒体对象的建模,对各种媒体数据的获取、存储、管理和查询。近年来,大容量光盘、高速CPU、高速数字信号处理器和宽带网络等硬件技术的发展为多媒体数据库技术的发展奠定了基础。一.数据库与数据仓库服务(1)数据库服务的组织 Web技术与数据库相结合、开发动态的Web数据库应用已成为当今Web技术研究的热点。Web数据库技术采用3层或多层体系结构,前端采用基于客户机的浏览器技术,通过Web服
28、务器及中间件访问数据库。由Web页访问数据库的技术在不断地发展,从最早的静态HTML的Form格式加CGI到如今的ASP等等。目前,有以下几种常用的Web数据库技术:CGI、SAPI、Java/JDBC、RAD、ASP和PHP。一.数据库与数据仓库服务(1)数据库服务的组织Web数据库技术CGI(Common Gateway Interface)是定义标准数据结构和方法的规范,是HTML文件与Web服务器之间的接口程序。CGI程序是集成于Httpd之中的,通常安装有Httpd之后CGI就存在于Web服务器之中。SAPI(Server Application Programming Interf
29、ace)应用程序实际上是服务器程序的扩展,在基于Windows和Web 服务器上,SAPI被做成DLL直接由Web 服务器调用。其存在的缺陷是:SAPI应用程序不可移植;一个不稳定的SAPI会破坏Web服务器系统;SAPI是依赖于语言的(主要适合于Java,而不是VB)。Java/JDBC(Java Database Connectivity)是基于Java/语言与数据库的接口,由于Java语言具有面向对象、分布式、安全、可移植、高性能、多线程、便于使用等优点,被认为是最有前途的接口技术。但它也存在着开销大、速度慢的问题,其原因是Java程序需要JVM解释执行,占用资源多、效率低;而且,JDB
30、C访问数据库要调用JDBC Driver Manager,后者再调用相应的驱动程序,再由驱动程序与数据库交互,结果又经相反途径返回,层次多、效率低。一.数据库与数据仓库服务(1)数据库服务的组织Web数据库技术RAD(Rapid Application development)工具,如VB、Delphi、PowerBuilder等可以方便地开发一些图形界面的访问数据库软件,但是这样的开发工具需要使用者具有编程技术,并且开发的程序不能跨平台运行。而且用RAD工具开发的软件,随用户需求的改变,可能需要增添新的功能或在界面上做一些改动。ASP(Active Server Pages)内含于IIS(I
31、nternet Information Server)之中,提供一个服务器端的Scripting环境,产生和执行动态、交互式、高效率的站点服务器的应用程序,并使站点服务器自动将ASP的程序码解释为标准HTML格式的内容,送到用户端的浏览器上显示出来。一.数据库与数据仓库服务(2)数据仓库服务 数据仓库(DataWarehouse,DW)是一个面向主题的、集成的且随时间不断变化的数据集合,用来支持管理人员的决策。艾莫(W.H Inmon)对它的解释是,数据仓库技术是把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称,最终目的是让用户更快更方便地查询所需要的信息,提供决策支持
32、。一.数据库与数据仓库服务(2)数据仓库服务 数据仓库技术分为数据的抽取、存储与管理、数据的表现等3个基本方面。数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等方面。数据仓库中的数据并不要求与联机事务处理系统保持实时同步,因此数据抽取可以定时进行。数据仓库的关键是数据的存储和管理。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而不断累积。从现有技术和产品来看,只有关系数据库系统能够担当此任。关系数据库经过近30年的发展
33、,在数据存储和管理方面已经非常成熟,目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个GB甚至多个TB的数据已是一件平常的事情。数据表实际上相当于数据仓库的门面,其性能主要集中在多维分析、数理统计和数据挖掘方面。而多维分析又是数据仓库的重要表现形式。二.数据挖掘服务 数据挖掘,又称为数据采掘、数据开采,根据威廉.弗罗利(W.J.Frawley)和夏皮罗(G.P.Shapiro)等人的定义,数据挖掘是指从大型数据库的数据中提取人们感兴趣的知识,而这些知识是隐含的、事先未知的、潜在的有用信息。从
34、更广义的角度来讲,数据挖掘意味着在一些事实或数据的集合中寻找模式的决策支持过程。数据挖掘的对象不仅是数据库,还可以是任何组织在一起的数据集合,如WWW信息资源等。数据挖掘方法通常可分为两类,一类是建立在统计模型的基础上,采用的技术有决策树分类、聚类、关联规则等;另一类是建立一种以机器学习为主的人工智能模型,采用的方法有神经网络、遗传算法等。二.数据挖掘服务面向互联网的数据挖掘比面向单个数据仓库的数据挖掘要复杂得多。Web中的知识发现(Knowledge Discovery in Web,简称KDW)也称Web挖掘,与网络信息检索是两种不同的技术。信息检索主要是帮助用户从大量的数字化信息资源中找
35、到满足用户需求的信息。而KDW则是为了揭示文档中的隐性知识,它是比信息检索层次更高的一种技术。Web信息的多样性决定了Web挖掘任务的多样性。根据互联网上信息特点,一般情况下Web挖掘可分为内容挖掘、日志挖掘和结构挖掘,如图8-4所示。进行Web信息挖掘,数据挖掘的对象将不仅仅是传统的关系数据库,还包括WWW上的各种有用信息。目前从web上抽取信息的方法有:传统的从WWW上提取信息的搜索引擎方法;基于智能代理的搜索工具方法;半结构化的数据库查询挖掘方法;对Web页面内容及结构进行挖掘的方法等。当前在智能信息搜索方面的研究方向主要有:将机器学习与经典的信息检索技术及推送技术相结合,改进推理机制;
36、将知识库、方法库及模型库等集成,以形成多库协同系统:将主题检索、概念检索和相关检索等智能检索方式加以融合。随着用户应用水平的提高,在最短的时间内为用户提供最有用的信息,是KDW的主要目标。人工智能、机器学习等技术的使用将大大提高系统的应用水平。二.数据挖掘服务Web挖掘内容挖掘日志挖掘结构挖掘文本信息多媒体信息超链接关系文本内部结构URL1 Web挖掘二.数据挖掘服务根据挖掘的对象不同,网络挖掘可以分为(1)网络内容挖掘(Web content mining)、(2)网络结构挖掘(Web structure mining)(3)网络访问模式挖掘(Web usage mining)三.信息过滤服
37、务 信息过滤是寻找符合人们兴趣的信息处理过程,即从大量的动态信息中找出最忠实地满足用户所需信息的过程。与信息查询(Information Retrieval)不同,信息过滤主要关注用户的长期需求(是指在一段时间内,比较固定的信息需求),监视用户的信息需求,同时监视网络上用户所关心的信息变化,利用智能技术进行信息匹配,及时主动地通知用户。信息过滤系统用户的需求被表示成文档(profile),再根据用户文档对进入系统的文献流进行评价、加权,同时还根据从用户直接或间接得到的反馈信息,对用户文档不断进行修改。三.信息过滤服务信息过滤模型信息过滤模型三.信息过滤服务 信息过滤可以采用信息检索中的许多相关
38、技术,重点是采用更为精确的长术语(如术语矢量)表示用户的需求,将其与输入的信息流进行匹配;信息过滤系统是为非结构化和半结构化的数据而设计的信息系统;用来处理大量动态的信息,包括一些多媒体信息系统包含图像、声音和视频信息;过滤系统包含大量的数据。一些典型的应用基本上都要处理上G字节的正文信息,其它媒介要比这还要大得多;典型的过滤系统应用包含输入的数据流或是远程数据源的在线传播(比如新闻组、E-mail),可用智能代理来实现;信息过滤可分为基于内容的过滤(ContentBased Fi1tering)和协作过滤(Collaborative Fi1tering)。基于的内容过滤是通过比较资源与用户描
39、述文件来推荐资源的,它的关键问题是相似度计算。基于内容过滤系统的优点是简单、有效,缺点是难以区分资源内容的品质和风格,而且不能为用户发现新的感兴趣的资源,只能发现和用户已有兴趣相似的资源。协作过滤是根据用户的相似性来推荐资源的,与基于内容的过滤技术不同,它比较的是用户描述文件,而不是资源与用户描述文件,其关键问题是用户聚类。由于它是根据相似用户来推荐资源的,所以有可能为用户推荐出新的感兴趣的内容三.信息过滤服务信息过滤系统的逻辑结构图信息过滤系统的逻辑结构图三.信息过滤服务 数据包捕获器数据包捕获器,主要是通过监听网络中的数据通信,采用一定的机制从I互联网络中截获符合特定服务的原始数据,传递给
40、网络协议分析器进行分析。网络协议分析器网络协议分析器,根据数据包捕获器送过来的原始数据,分离其中的协议头信息,提取HTTP协议和E-mail相关协议中的相关语法元素中的数据,构造成文档,传递给文档过滤器。文档过滤器文档过滤器,根据规则数据库中设定的过滤规则,分析文档中包含的某些信息,采用相似度计算或者关键词查找的方法,如果满足某种过滤条件,将该文档保存到文档数据库。文档特征提取器,主要是根据分类语料数据库中某个人工标定分类的所有语料,通过统计或者其他的方法,抽取最能代表该类文档的特征数据,作为文档过滤中的一个标准。策略管理器,维护和管理策略数据库中的规则配置,比如配置WWW访问的目标地址、邮件过滤的邮件地址等。文档浏览器,对于过滤后得到的文档提供用户浏览的工具。用户可以达到对于网络信息的监控的目的。过滤效果评价器,对于过滤准确性和正确性进行一定的评价,根据评价的结果对于规则数据库进行一定的修改,使系统动态地进行学习。复习思考题 1.信息服务业务有那些类型?服务要求有那些?2.试述信息提供服务的类型和内容?3.信息服务保障服务的组织方法?4.信息的发布和传递的两种基本形式是什么?5.试述信息检索新的发展趋势?
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。