《网络信息检索》课件第1章.ppt_163文库

资源描述

1、第1章绪论第1章绪论1.1 网络信息检索概述1.2 信息检索的发展1.3 网络信息检索的应用思考题第1章绪论1.1 网络信息检索概述网络信息检索概述1.1.1 网络信息网络信息网络信息是指通过互联网可以利用的各种信息资源的总和。随着互联网的迅速发展，网络信息作为一种新型的信息资源，发挥着越来越重要的作用。与传统的非网络信息资源相比，网络环境下的信息资源具有以下几个方面的特点：(1)网络信息内容丰富。互联网已经成为全球最大的信息资源基地，同时其信息资源的增长十分迅速。在互联网上几乎可以获得任何领域的信息，其内容涉及政治、经济、文化、科学和娱乐等各个方面，涵盖社会科学、自然科学、人文科学

2、和工程技术等各个领域。第1章绪论(2)网络信息变化频繁。在互联网上，信息地址、信息链接和信息内容经常处于变动之中，信息资源的更换和消亡更是无法预测。因而，网络信息时时刻刻处在变化和发展之中。(3)网络信息结构复杂。互联网对网络信息资源本身的组织管理尚未形成完全统一的标准和规范，网络信息呈全球化分布结构，信息资源物理地存储在世界不同地区各种不同类型的服务器上。因此，在信息的组织和检索方面比较复杂。(4)网络信息格式多样。网络信息的媒体形式多种多样，包括文本、图形、图像、声音和视频等，各种类型的媒体信息都有多种不同的信息描述格式，例如文字信息的格式有HTML、TXT、PDF、DOC等格式；图像信

3、息的格式有BMP、GIF、JPG等格式，因此网络信息格式呈现多样化。第1章绪论(5)网络信息价值差异。由于网络信息的发布具有很大的自由度和随意性，且缺乏必要的质量控制和管理机制，因而，网络信息资源的价值差异较大，既有较大参考价值的有用信息，也有毫无用处的垃圾信息，甚至还有不少有害的信息，可谓良莠不齐。因此，如何评价、选择和过滤信息成为网络信息组织和检索的重要任务。第1章绪论1.1.2 信息检索信息检索信息检索(Information Retrieval，IR)泛指用户从包含各种信息的文档集合中查找所需要的信息或知识的过程。信息检索将信息按一定的方式组织和存储起来，再根据用户的需求查找所需信

4、息，并返给用户。信息检索包括信息的存储、组织、表现、查询、存取等各个方面，一般而言，主要包括以下三个环节：(1)处理搜集：对信息内容进行分析与编码，产生信息记录及检索标识；(2)组织存储：将全部记录按文件、数据库等形式组成有序的信息集合；第1章绪论(3)检索服务：对用户提问进行处理和输出相应的检索结果。信息检索的关键部分是信息提问与信息集合的匹配和选择，即对给定提问与集合中的记录进行相似性比较，根据一定的匹配标准选出有关信息。信息检索最初应用于图书馆和科技信息机构，后来逐渐扩大到其他领域，与信息检索有关的理论、技术和服务构成了一个相对独立的知识领域，是信息学和计算机科学的交叉学科，这里引用1

5、997年Kowalski对信息检索系统的定义1：“信息检索系统是对信息的存储、检索和维护，信息可以是文本、图像、音频、视频或其他多媒体对象”。第1章绪论信息检索系统一般由信息收集、处理、索引、存储、检索等部分组成，信息检索结构可以用图1-1表示。从图1-1中可以总结出“两个表示，一个比较”来概括信息检索的精髓，所谓“两个表示”就是通过预处理和特征提取，把信息和查询分别表示为一定的数学形式，如向量；“一个比较”是把这两个数学表示进行相似性比较，以判定某信息是否可以作为该查询的结果进行输出。第1章绪论图1-1 信息检索系统结构示意图第1章绪论这里需要区分两个概念：信息检索和数据检索。数据(d

6、ata)和信息(information)是两个完全不同的概念，数据是对客观事物的数量、属性、位置及其相互关系的抽象表示，以适合于用人工或自然的方式进行保存、传递和处理。而信息是指经过系统组织、整理和分析的数据。例如表1-1中的“80亿+”是一个数据，“被Google索引的页面为80多亿”则是信息。第1章绪论第1章绪论数据可以很容易地被组织和存储，对数据的检索相对容易，也容易做到准确地检索；数据检索如一般的数据库检索，处理的是结构化数据；数据检索的条件一般具有清晰的定义，要求取得满足特定条件的所有对象，因此它的准确率可以达到百分之百；数据检索效率的评价标准一般是响应时间或存储空间等方面的开销

7、。而信息检索一般是从非结构化或半结构化的文档集中找出与用户需求相关的信息，包括新闻、科技论文等文本数据，HTML和XML等网页，图像、图形、视频和音频等多媒体数据。信息检索的条件描述本身就是一个难题，一般很难做到完全准确，而用户的需求描述也可能是不准确的。造成这一点的主要原因是，信息检索通常是对自然语言进行处理，而自然语言本身没有很好的结构，语义上也存在模糊性。因此，信息检索的评价也更难，一般使用检索精度(Precision)和召回率(Recall)等评价标准来衡量信息检索的效果。第1章绪论1.1.3 网络信息检索网络信息检索网络信息检索是指能够通过网络接受用户的查询指令，并向用户提供符合其

8、查询要求的网络信息资源的过程。可以把网络信息检索理解为检索对象为网络信息的信息检索。网络信息检索系统的结构示意图如图1-2所示。可见，网络信息检索系统与传统意义的信息检索系统在总体结构上大致相同，所不同的只是信息的来源不一样。传统信息检索系统的来源一般是图书、事先录入的信息等，而网络信息检索的信息来源于互联网，大都是Web页面、文件、图像和音视频媒体等。第1章绪论图1-2 网络信息检索系统结构示意图第1章绪论1.2 信息检索的发展信息检索的发展信息检索起源于图书馆的参考咨询和文摘索引，从19世纪下半叶首先开始发展。当时，信息存储和传播主要以纸质为载体，信息检索活动也围绕着文献的获取和控制展

9、开。至20世纪40年代，索引和检索已成为图书馆独立的工具和用户服务项目，“文献检索”(Document Retrieval)一度成为信息检索的同义词。随着1946年世界上第一台电子计算机的问世，计算机技术逐步走进信息检索领域，并与信息检索理论紧密结合起来；人们开始使用“情报检索”这个概念，脱机批量情报检索系统、联机实时情报检索系统相继研制成功并商业化，当时的信息检索，是更接近于数据库检索的一种形式。20世纪60年代到80年代，在信息处理技术、通信技术、计算机和数据库技术发展的推动下，随着信息载体类型的多元化以及传播手段的改进，情报检索和文献检索逐渐归于信息检索这一具有兼容性的概念，研究范围也日

10、趋扩展，信息检索在教育、军事和商业等各领域高速发展，并得到了广泛的应用。第1章绪论目前，信息检索已经发展到网络化和智能化的阶段。信息检索的对象从相对封闭、稳定一致、由独立数据库集中管理的数据信息扩展到开放、动态、更新更快、分布广泛、管理松散的网络信息；信息检索的用户也由原来的情报专业人员扩展到包括商务人员、管理人员、教师学生、各专业人士等在内的普通大众，他们对信息检索从方式到结果提出了更高、更多样化的要求。适应网络化、智能化以及个性化的需要是目前信息检索技术发展的新趋势。具体来说，信息检索经历了从手工检索、计算机检索到网络信息检索的发展过程。第1章绪论1.2.1 手工检索手工检索信息检索直

11、接发源于图书馆的参考咨询工作和文摘索引工作。正规的参考咨询工作是由美国的公共图书馆和大专院校图书馆于19世纪下半叶首先发展起来的。20世纪初，多数图书馆成立了参考咨询部门，主要利用图书馆的书目工具来帮助读者查找图书、期刊或现成的答案。随着文献的激增和读者需求的增长，逐渐发展到从多种文献源中查找、分析、评价和重新组织情报资料，“索引”突破了以前的狭义范畴，成为独立的检索工具。到20世纪40年代又进一步包括回答事实性咨询，编制书目、文摘，进行专题文献检索，提供文献代译等。“检索”从此成为一种独立的用户服务工作，并逐渐从单纯的经验工作向科学化方向发展。第1章绪论1.2.2 脱机批处理检索脱机批处理

12、检索 1946年世界上第一台电子计算机问世之后，就有人开始研究计算机在信息检索领域的应用。20世纪50年代中期至60年代后期是信息检索的脱机批处理阶段。当时计算机还没有连接成网络，也没有远程终端装置，不能提供实时检索，只能进行现刊文献的定题检索(Selective Dissemination of Information)和回溯性检索(Retrospective Search)，同时利用计算机编辑出版检索性刊物。1954年，美国海军机械试验中心(Naval Ordnance Test Station，NOTS)使用IBM 701型机，初步建成了计算机情报检索系统，这标志着以计算机检索系统为代表

13、的信息检索自动化时代的到来2。第1章绪论在这个时期，信息检索系统面向小型的科学文摘数据库、法律和商业文档，检索模型为基本的布尔模型和向量空间模型，提出向量空间模型3并付诸实践的康奈尔大学(Cornell University)的Salton教授和他的学生成为这个领域的先驱。第1章绪论1.2.3 联机检索联机检索1967年，美国系统发展公司(System Development Company，SDC)研制成功ORBIT(Online Retrieval of Bibliographic Information Time shared)联机情报检索软件，开始了联机情报检索阶段4；与此同时，美

14、国洛克希德公司成功研制了国际联机情报检索系统Dialog(http：/)。20世纪70年代卫星通信技术、微机计算机技术以及数据库技术的同步发展，使得用户得以冲破时间和空间的障碍，实现了国际联机检索。远程实时检索多种数据库是联机检索的主要特点。计算机检索技术从脱机阶段进入联机信息检索时期。联机检索是计算机技术、信息处理技术和现代通信技术三者的有机结合。第1章绪论图1-3所示的是美国国家医学图书馆的MEDLINE系统(http：/www.ncbi.nlm.nih.gov/PubMed/)，Dialog系统作为这一时期的信息检索领域的代表，至今仍是世界上最著名的信息检索系统之一。第1章绪论图1-

15、3 医学信息检索系统MEDLINE第1章绪论1.2.4 网络信息检索网络信息检索互联网在二十世纪六七十年代初见雏形，八十年代末九十年代初迅速流行。此时，单纯的手工检索和机械检索都显现出各自或多或少的缺点，因此，极有必要发展一种新型的信息检索方式，网络信息检索应运而生。网络信息检索系统几乎包括了计算机在信息检索领域表现出来的全部优点，它是联机检索的高级阶段，使人们可以在很短的时间里查找到分布在全球各个角落的信息。网络信息环境的出现，使得信息检索研究的对象和范围不断扩大，研究队伍也突破了原有的以图书情报领域的专家学者为主的模式，众多的科研机构以及商业公司加入到研究信息检索技术的行列。可以说，网络

16、使计算机信息检索技术进入了一个崭新的发展阶段，而网络信息检索又使网络信息的利用率提高，信息的组织更加有序和高效。第1章绪论1.3 网络信息检索的应用网络信息检索的应用随着网络技术和信息检索技术的发展，网络信息检索得到了广泛的应用。除了人们最常用的搜索引擎外，目前流行的还有多媒体信息检索、跨语言信息检索、主题识别和跟踪、信息过滤、问题回答和Web数据挖掘等。第1章绪论1.3.1 搜索引擎搜索引擎网络信息检索最主要的应用是搜索引擎(Search Engine)，或者换句话说，搜索引擎就是一个网络信息检索系统。可以把搜索引擎理解为一个专用的WWW服务器，也可以理解为互联网上的一类网站，这类网站与

17、一般的网站不同，其主要工作是收集网络上成千上万的网站和网页信息，组成庞大的索引数据库，向用户提供信息查询服务。第1章绪论一般来说，搜索引擎主要采取两种方式实现对网络信息资源的检索，一是采用分类主题目录形式，将网站进行树状的分类，所链接的网站必须至少归属于其中一个类别，形成类似图书馆目录一样的分类主题目录，用户通过逐级浏览这些目录来找寻自己需要的内容，采用这种检索方式的搜索引擎有Yahoo等，归纳和分类为信息导航带来了极大的方便，但这种方式在分类和目录整理中需要大量的人力；二是使用关键词匹配方式，其处理对象主要是文本，它能够对大量文档建立由字(词)到文档的索引库，在此基础上，用户使用关键词对网

18、页进行搜索时，系统将把含有该检索用词的所有网页作为结果返回给用户。第1章绪论追溯起来，第一个搜索引擎Archie诞生于1990年，由加拿大蒙麦吉尔(McGill)大学的学生Peter Deutsch、Alan Emtage和Bill Heelan研发。但是，那个时候人们共享数据主要通过文件传输的方式，Archie主要为用户查询共享文件的名称。1990年出现了万维网(World Wide Web，WWW)，随后三四年间，WWW得到了飞速的发展，使得Web信息的定位和检索越来越重要。最具现代意义的搜索引擎出现于1994年7月，当时Michael Mauldin将蜘蛛程序(spider)接入到其索

19、引程序中，创建了著名的Lycos()。Lycos第一次面向公众开放的时候拥有5.4万个文档，主要提供排序的相关检索，受到了用户的广泛认可。到1995年1月，Lycos索引的文档数达到150万个，1996年达6000万个，比当时其他任何搜索引擎能够提供检索的文档都多。第1章绪论1994年还发布了很多著名的搜索引擎，如1994年4月，斯坦福(Stanford)大学的两名博士生David Filo和美籍华人杨致远共同创办了超级目录索引Yahoo()，并成功地使搜索引擎的概念深入人心，从此搜索引擎进入了高速发展时期。Infoseek()和AltaVista()也诞生于1994年。之后还陆续出现了Lo

20、oksmart()、Inkotomi()、AskJeeves()等著名搜索引擎。第1章绪论1998年，最具影响力的搜索引擎Google()发布，Google是由斯坦福大学两位博士生瑟盖布尔(Sergey Brin)和拉里佩奇(Larry Page)研发的。Google的名字从英文“googol”演变而来，表示10100，代表海量的信息。Google在PageRank技术、动态摘要、网页快照、多文档格式支持、图像搜索、多语言支持、用户界面等方面进行了创新，可支持多种语言，索引页面多，检索面广，搜索信息准确。同年发布的还有微软的MSN()。1999年北大校友李彦宏和徐勇创办中文搜索引擎百度()，

21、专注于中文搜索，收录了大部分的中文网页，更新速度快，有中文搜索的自动纠错和自动提示功能，更符合中国人的使用习惯。第1章绪论表1-2显示了截至2005年1月世界最大搜索引擎的比较数据5，当时的全部网页估计在115亿，可索引网页为94亿。第1章绪论第1章绪论搜索引擎把传统的信息检索技术应用到网络信息检索，是典型的网络信息检索系统。目前，搜索引擎已成为人们找寻网络信息的一条主要渠道。据中国互联网络中心(CNNIC)的互联网统计报告6，通过搜索引擎获取相关信息的用户占58.2%，直接访问已知网站的占35.7%，其他还有随意浏览、广告、相关链接等方式，共约占6.1%。可见，搜索引擎已经成为信息查询

22、和获取的主要手段。2010年中国互联网络中心(CNNIC)第25次互联网统计报告7称，目前中国3.84亿网民中使用搜索引擎的比例是73.3%，即已有近3亿人从搜索引擎获益。与其他国家相比，由于中国互联网仍旧是娱乐功能占主体，总体网民的搜索引擎使用率偏低。在美国，搜索引擎使用率已经超过90%。搜索引擎应用人群的特点决定了它在互联网领域的高商业价值。在中国这样一个网民快速增长和以年轻网民为主的国家，搜索引擎用户将会继续增长。第1章绪论然而，随着搜索引擎数量的迅速增加，如何准确选择搜索引擎，有效地利用多个搜索引擎的集成资源与检索能力成为重要问题。元搜索引擎(Meta Search Engine)就

23、是一种集成化的检索系统，通过多个成员搜索引擎提供的服务向用户提供统一的检索服务。元搜索引擎的主要目的是综合各种搜索引擎的长处，尽量减少用户的检索过程，提高检索效率。第1章绪论由于元搜索引擎的结果集通常十分庞大，方便用户快速地找到需要的信息就成为一个十分关键的问题。虽然通过改进页面排序算法，可以尽量使“重要”的页面出现在返回结果的前面，但由于用户职业、兴趣、年龄等各方面的差异，很难让所有的用户都接受系统给出的重要性顺序。另外，统计显示，用户一般不会在结果集中向后翻超过五页。所以，将查询结果以一定的类别层次进行组织，让用户能方便地选择查看类别，可以很好地缩小结果集，从而使用户能更快地找到有用的信

24、息。第1章绪论图1-4所示的Clusty()是美国Vivisimo公司开发的一个具有对搜索结果自动进行聚类的元搜索引擎，它能非常快速地将不同类型的网站进行聚类整理并按类别呈现结果。Clusty在搜索结果页面左侧增加了一个搜索分类目录栏。该目录的作用就是对右侧窗口中的所有搜索结果进行聚类，同时也显示此次搜索结果的总数目。分类目录无需预先定义，是由搜索结果决定的。第1章绪论图1-4 Clusty的用户界面第1章绪论1.3.2 多媒体信息检索多媒体信息检索传统信息检索技术主要是面向文本的，今天广泛使用的Google、Yahoo和百度等搜索引擎主要采用文本检索技术，通常是利用一组关键字或词组成的

25、查询项来搜索定位文本数据库中的相关文本文档，如果某个文档中包含较多查询项，那么就认为此文档比其他包含较少查询项的文档更相关，搜索系统将按照这种相关程度对查询结果进行排序，并依次展现给用户，以便用户浏览和进一步查找。第1章绪论对图像和视频等多媒体信息集来说，目前，绝大多数检索系统仍采用文本搜索技术，例如Google的图像和视频检索功能仍是基于文本关键词的，如图1-5所示，这些关键词可能来源于图片周围的文本、文件名等，也可能来源于人工或自动标注(annotation)。然而，对于图像和视频等多媒体信息，一般难以用自然语言进行有效、精确的描述，无法表达其实质内容和语义关系，所以这种依据文本信息检索

26、图片和视频的解决方案很难完全满足人们的查询需要。第1章绪论图1-5 Google的图像检索第1章绪论许多研究者试图研究和实现基于内容的多媒体信息查询，以弥补上述多媒体信息检索技术的缺陷，其中包括对图像、视频和音频等多媒体信息的内容处理和分析、自动标注、构建索引和相似检索等。除了可以对一般的、通用的视觉特征(如颜色、纹理、形状、运动、镜头等)和听觉特征(频谱分布和变化规律、节奏、韵律、话音、说话人特征等)建立索引和实现检索之外，还可以寻求更有效的高层语义特征的索引方法。例如采用各种各样的智能处理与识别技术，如通过图像和视频的字符识别(Optical Character Recognition

27、，OCR)翻译图片中出现的文字信息，从而得到关于图像或视频的文本描述；通过人脸检测和识别技术自动分析图像或视频镜头中出现的人脸，从而得到人物的身份信息；通过连续语音识别技术自动将音频转换为文本，可以得到关于各个音视频片段的文本表示；通过说话人的语音声纹分析，就可以判断说话人的身份等。第1章绪论美国卡耐基-梅隆大学(Carnegie Mellon University，CMU)研制的Informedia(www.informedia.cs.cmu.edu)系统是一个集成了语言、图像和自然语言理解技术的数字视频检索系统，如图1-6所示，允许用户访问、挖掘和检索海量的数字视频库。该系统采用了多种智

28、能处理技术，利用广播电视节目中的脚本信息(closedcaption)构造文本索引，通过语音识别器将伴音转换为文本；使用视频分析模块提取人脸特征、叠加在屏幕上的文本和视频镜头边界等，然后将这些信息全部绑定形成最终的索引结构，支持快速多媒体相似检索。第1章绪论图1-6 基于内容的视频检索系统Informedia第1章绪论基于内容的多媒体信息检索是一种新兴的网络信息处理和检索技术，它包含了自然语言处理、图像处理、视频处理、语音识别、数据库与数据挖掘、模式识别、人工智能、机器学习等众多学科，是一个长期的、复杂的、富有挑战性的研究课题。第1章绪论1.3.3 话题识别与跟踪话题识别与跟踪话题识别与

29、跟踪(Topic Detection and Tracking，TDT)，作为一项旨在帮助人们应对信息过载问题的研究，以新闻专线(Newswire)、广播和电视等媒体信息流为处理对象，将语言形式的信息流分割为不同的新闻报道(News Story)，检测新话题的报道，并将涉及某个话题的报道组织起来以某种方式呈现给用户。其研究目标是要实现按话题查找、组织和利用来自多种新闻媒体的多语言信息，这类技术在现实中很实用，可广泛应用于信息安全、证券市场分析等领域，例如用于自动监控各种信息源(如广播、电视等)，并从中识别出各种突发事件、新事件以及关于已知事件的新信息。另外，还可以找出有关用户某一感兴趣话题的所

30、有报道，并研究这一话题的发展历程等等。第1章绪论话题识别与跟踪的研究始于1996年，这一方向的确立与发展是在话题识别与跟踪(TDT)系列评测会议的推动下进行的8-9。与信息检索、信息抽取、信息管理、文本挖掘等相关研究相比，话题识别与跟踪更强调对新信息的发现能力，关心特定话题而不是相对广泛的主题类别的信息。例如传统的信息检索系统在用户清楚自己要查找的具体内容时比较有效，但是对通用目的的查询请求却难以做出响应，如“最近发生了哪些事？”、“有什么新信息?”等等。另外，话题识别与跟踪的处理对象是随时间动态变化的语言信息流，而不是静态的、封闭的文本集合。第1章绪论话题识别与跟踪研究目前主要集中于以下

31、五个子任务 10-11：(1)新闻报道的切分(Story Segmentation)：将连续的广播、电视新闻节目的语音或文字记录分割为不同的报道；(2)新事件的识别(New Event Detection)：在新闻报道信息流中识别出一个新话题的首次报道；(3)报道关系识别(Story Link Detection)：判断两个随机选择的新闻报道是否讨论同一个话题；(4)话题识别(Topic Detection)：识别出系统未知的话题，并将相关报道也识别出来；第1章绪论(5)话题跟踪(Topic Tracking)：监控新闻报道信息流以发现与某一已知话题有关的新报道。话题识别与跟踪旨在研究自然语

32、言信息流中基于事件的信息组织问题。话题识别与跟踪的研究可以借用信息检索的某些方法，通过调整某些参数来使这些方法更适合于处理话题或事件。但是，要充分考虑话题识别与跟踪研究的某些特殊性，如面向话题、基于时间等。目前话题识别与跟踪技术已经应用于商业新闻搜索引擎，如图1-7所示。第1章绪论图1-7 Google新闻搜索引擎第1章绪论1.3.4 信息过滤信息过滤互联网开放式的环境，为人们检索和利用信息提供了极大的方便，但同时，网络环境也为人们及时准确地检索到所需信息带来了麻烦。这是因为，第一，网络环境中信息的来源复杂多样，随意性大，任何人、任何单位不管其背景和动机如何都可以在网络上发布信息，信息的产

33、生和传播没有经过筛选和审定，因此信息的可靠性、质量和价值成为用户普遍担心的一大问题；第二，搜索引擎直接提供给用户的检索途径大都是基于关键词的布尔逻辑匹配，返回给用户的就是所有包括关键词的文献，这样的检索结果在数量上远远超出了用户的吸收和使用能力，常常让人感到束手无策。这就是所谓的“信息过载”、“信息超载”现象。信息过滤的目的就是让网络检索系统能够更加深入、更加细致地参与到用户的整个检索过程中，从关键词的选择、检索范围的确定到检索结果的精炼，帮助用户在浩如烟海的信息中找到和需求真正相关的资料。第1章绪论信息过滤与信息检索不同，信息过滤是对动态信息进行筛选，着重排除不希望得到的信息，带有即时性。

34、一般说来，只有通过过滤的信息才适合进行信息检索和信息推送，使用户获得所需信息。信息过滤技术的出现和逐渐受到重视是源于网络用户对信息获取在数量得到满足后的更高的一种要求。信息过滤的一个重要应用是垃圾邮件过滤(Antispam)。迄今为止，垃圾邮件在国际上并没有一个标准的定义。垃圾邮件的基本特征是“不请自来”(unsolicited)，而且大部分垃圾邮件都带有商业或者其他宣传目的。同时，垃圾邮件的判定和邮件的接收者有很大关系，不同用户对同一邮件的判断结果可能会存在差异。来自国家统计局的数据显示，我国网民所收邮件六成以上是垃圾邮件，造成了大量网络资源的浪费，并为大量病毒的迅速传播提供了温床，而且对用

35、户的正常工作造成了严重的干扰。第1章绪论垃圾邮件过滤工具中常采用黑名单白名单或者手工制定规则的方法。黑名单给出了发送垃圾邮件的邮件地址(或者是IP地址范围、域名等属性)列表，凡是属于黑名单的邮件被判定为垃圾邮件。白名单收录了邮件接收者确信的邮件地址信息，凡是属于白名单的邮件都被判定为合法邮件。但这些方法无法拦截全部的垃圾邮件，而且这些方法的主观性会造成大量合法邮件的误判和垃圾邮件的漏判。因此，需要综合各种不同的方法，包括基于内容的机器学习判别方法。从内容上看，垃圾邮件过滤可以看成一个二值分类问题：垃圾邮件类和合法邮件类。因此，各种分类方法可以用于垃圾邮件的过滤。然而，垃圾邮件过滤是一个特定领

36、域的分类问题，与一般的分类存在不同：第1章绪论(1)通常认为用户宁愿接收更多的垃圾邮件，也不能接受将合法邮件错判成垃圾邮件。因此，与通常的分类方法相比，垃圾邮件过滤更重视正确率。(2)垃圾邮件过滤实现的环境通常都有较高的性能要求，因此，要求垃圾邮件过滤的方法不仅要重视实现的效果，也要重视实现的效率。(3)垃圾邮件过滤中的类别有别于通常分类中的类别，一方面，垃圾邮件、合法邮件在语义上并不像通常分类中的类别(如体育、军事等)能够被人理解；另一方面垃圾邮件的类别定义可能会因人而异，也可能会随着时间而改变。第1章绪论目前基于内容垃圾邮件判别的方法包括基于规则的方法和基于概率统计的方法。前者常常得出

37、人们可以理解的显式规则；后者往往通过某种计算表达式推出结果。不管是基于规则的方法还是基于概率统计的方法，在使用时都经历从训练到过滤的过程。通过已有的训练集合(正例+反例)训练出相应的垃圾邮件规则(包括显式规则或隐式规则)，然后将规则应用到新的邮件判定中去。在实际系统中可能还会加入人机交互过程，通过用户对判定结果的认可与否对已有的垃圾邮件规则进行更新，如图1-8所示。第1章绪论图1-8 Microsoft Windows Mail的垃圾邮件过滤第1章绪论伴随全球信息网络的普及和信息化进程的推进，网络信息数量巨大，良莠并存。一方面，从这些数据中快速、准确、有效地获取所需内容已成为服务社会、培育

38、新兴媒体的重要需求，也逐渐成为不同政治、军事力量甚至国家之间占领网上信息制高点和主动权的迫切而又长期的需求。另一方面，如何有效地利用信息内容，并对这些内容进行智能化管理，也是信息社会提出的一项重要需求。信息安全特别是网络信息内容安全受到了各国政府的高度重视。一些发达国家已把网络信息内容安全列为国家重点发展规划。信息过滤技术可望在信息内容安全领域发挥重大作用。第1章绪论1.3.5 问题回答问题回答随着互联网的普及，互联网上的信息越来越丰富，现在人们能够通过搜索引擎方便地得到自己想要的各种信息。无论哪方面的内容，只要用户输入一些关键字，搜索引擎都能帮助人们快速地找到相关的网页。但是，这些传统的搜

39、索引擎存在很多的不足，其中主要有三个方面：一是相关性信息太多。传统的搜索引擎返回的相关网页太多，用户很难快速准确地定位到所需的信息。例如，用户在Google 上输入几个关键字，它有可能返回成千上万个网页，用户在这些网页中查找自己所需要的信息会浪费很多时间。二是以关键词的逻辑组合来表达检索需求，因为人们的检索需求往往非常复杂而特殊，难以用几个关键词的简单组合来表达，这样，用户就很难将自己的检索意图表达清楚，搜索引擎自然也就没有办法找出令用户满意的答案了。三是以关键词为基础的索引、匹配算法尽管简单易行，但仍然停留在语言的表层，而没有触及语义，因此，检索效果很难进一步提高。第1章绪论最近几年，网络

40、和信息技术的快速发展，以及人们想更快地获取信息的愿望也重新促进了自动问答技术的发展。在每年一度的文本信息检索TREC会议(www.trec.org)上，自动问答(Question Answering Track)是最受关注的主题之一。美国麻省理工学院(Massachusetts Institute of Technology，MIT)开发的问答系统Start(http：/start.csail.mit.edu)，可以回答一些有关地理、历史、文化、科技、娱乐等方面的简单问题。比如：对于问题“What is the longest river in the world?”，Start 将会回答“W

41、ith a length of 4180 miles，the Nile River is the longest river in the world.”。图1-9所示的问答系统AnswerBus()是个多语种的自动问答系统，它不仅可以回答英语的问题，还可以回答法语、西班牙语、德语、意大利语和葡萄牙语的问题。第1章绪论图1-9 问题回答系统AnswerBus第1章绪论商用问答系统的代表是美国AskJeeves 公司的检索系统，AskJeeves允许用户用自然语言句子提问，检索系统会自动分析用户的提问，然后通过反问，即人机交互方式，准确地辨识用户的意图，这样用户就能够充分表达其检索需求，这比

42、基于关键词检索方式有了明显的进步。第1章绪论阿兰图灵(Alan Turing)提出了著名的图灵测试，如果计算机能通过这个测试，就可以说计算机已经具有了人类的思维。但是，目前计算机科学离这个目标还很遥远。对于目前的问答系统来说，还不能像人类一样能自如地回答用户提出的各种问题。目前问答系统的准确率还比较低，在2007年TREC 评测中，最好的事实型问答系统的准确率都在70%左右12。问答系统并不具备任何思维和推论能力，它只能从已有的文档库中搜索相关的答案，所以问答系统所能回答的问题受限于文档库。因此可以考虑以Web为文档库。第1章绪论虽然问答系统离我们理想的目标还很远，自动问答技术还处于刚刚起步阶段，但是自动问答技术在最近这几年得到了很大的发展，已经有越来越多的相对成熟的问答系统问世。广阔的应用前景正推动着自动问答技术的快速发展，相信在不久的将来问答系统将会取得重大的突破。第1章绪论思思考考题题1.什么是信息检索？信息检索的基本过程是什么？2.什么是网络信息检索？它与一般信息检索有何不同？3.试比较数据检索和信息检索。4.通过使用百度和Google，对两者的功能和性能进行详细的比较。5.解释网络信息检索系统的体系结构。6.列举更多的网络信息检索的应用实例。

展开阅读全文