1、1信息检索系统信息检索系统 信息检索技术是一项成熟的处理文本数据的技术。信息信息检索技术是一项成熟的处理文本数据的技术。信息检索领域与数据库领域是并行发展的领域。信息检索领检索领域与数据库领域是并行发展的领域。信息检索领域中所用的传统模型是信息被组织成文档,且是信息量域中所用的传统模型是信息被组织成文档,且是信息量巨大的文档。巨大的文档。信息检索的过程就是根据用户的输入,如关键词或示例信息检索的过程就是根据用户的输入,如关键词或示例文档,查找相关文档的过程。文档,查找相关文档的过程。2信息检索系统信息检索系统 信息检索系统的典型例子是联机图书目录和联机文档管理信息检索系统的典型例子是联机图书目
2、录和联机文档管理系统。系统。信息检索系统和数据库系统处理的是不同类型的数据。信息检索系统和数据库系统处理的是不同类型的数据。信息检索领域一般用查全率和查准率对检索的效果进行量信息检索领域一般用查全率和查准率对检索的效果进行量比评价。比评价。3基于关键字的检索基于关键字的检索 在基于关键字的信息检索系统中,文档被看成字符串,可用在基于关键字的信息检索系统中,文档被看成字符串,可用一组关键字加以识别。用户提供一个关键字或一组由关键字一组关键字加以识别。用户提供一个关键字或一组由关键字构成的表达式,由关键字进行查询。这样,用户可以找出包构成的表达式,由关键字进行查询。这样,用户可以找出包含关键字的全
3、部文档。含关键字的全部文档。在基于关键字的信息检索系统中,还要考虑在基于关键字的信息检索系统中,还要考虑“同义词问题同义词问题”。可以采用同义词的方法解决这个问题,对每个词都定义一。可以采用同义词的方法解决这个问题,对每个词都定义一个同义词。个同义词。基于关键字的信息检索系统还有一个难题,就是基于关键字的信息检索系统还有一个难题,就是“多义词问多义词问题题”,即同一个关键字,在不同的上下文中可能有不同的含,即同一个关键字,在不同的上下文中可能有不同的含义。遗憾的是,目前这种基于上下文确定关键字含义的检索义。遗憾的是,目前这种基于上下文确定关键字含义的检索系统还不成熟。系统还不成熟。4基于相似性
4、的检索与文档索引基于相似性的检索与文档索引基于相似性的检索基于相似性的检索某些信息检索系统允许基于相似性的检索。这时,某些信息检索系统允许基于相似性的检索。这时,用户可给系统一个文档用户可给系统一个文档A A,然后要求系统找出与,然后要求系统找出与A A“相似相似”的文档。两个文档的相似性可以自定义,如根据一组共同的文档。两个文档的相似性可以自定义,如根据一组共同的关键词作为相似性。的关键词作为相似性。文档的索引文档的索引一个高效的索引结构,对于信息检索系统查询的高一个高效的索引结构,对于信息检索系统查询的高效处理是十分重要的。系统可以采用倒排索引定位,包含效处理是十分重要的。系统可以采用倒排
5、索引定位,包含关键词的文档。倒排索引是一种索引结构,它包含两个索关键词的文档。倒排索引是一种索引结构,它包含两个索引表:文档表和词表。引表:文档表和词表。5WEB-WEB-常用的搜索引擎常用的搜索引擎 Harvest Harvest 搜索引擎搜索引擎 Google Google 搜索引擎搜索引擎 Internet ArchiveInternet Archive Inktomi Inktomi 搜索引擎搜索引擎 Baidu Baidu 搜索引擎搜索引擎6多媒体检索技术多媒体检索技术 多媒体检索技术主要是通过分析多媒体信息中的视觉和音多媒体检索技术主要是通过分析多媒体信息中的视觉和音频特征,以达到
6、查找视觉和听觉上相似内容的目的。频特征,以达到查找视觉和听觉上相似内容的目的。所谓基于内容的多媒体分析检索是指对多媒体数据所谓基于内容的多媒体分析检索是指对多媒体数据(如视如视频、音频流等频、音频流等)所蕴涵的物理所蕴涵的物理 的和语义的内容进行计算机的和语义的内容进行计算机分析理解,以方便用户查询,其本质是对无序的多媒体数分析理解,以方便用户查询,其本质是对无序的多媒体数据流结据流结 构化,提取语义信息,保证多媒体内容能被快速构化,提取语义信息,保证多媒体内容能被快速检索。检索。7多媒体检索过程多媒体检索过程 与文本信息检索相比,多媒体分析检索要复杂得多。一般与文本信息检索相比,多媒体分析检
7、索要复杂得多。一般多媒体分析检索有四个主要步多媒体分析检索有四个主要步 骤:多媒体特征提取、多骤:多媒体特征提取、多媒体数据流分割、多媒体数据分类和多媒体数据索引结构媒体数据流分割、多媒体数据分类和多媒体数据索引结构的构造与检索,见下图的构造与检索,见下图。在多媒体中,可以同时存在不同媒质数据,如视频、图像在多媒体中,可以同时存在不同媒质数据,如视频、图像、音频、三维图形和字幕等,、音频、三维图形和字幕等,因此能够从每种媒质中提因此能够从每种媒质中提取不同特征。取不同特征。8基于内容的图像检索基于内容的图像检索 基于内容的图像检索系统与传统的基于文本的检索系统基于内容的图像检索系统与传统的基于
8、文本的检索系统具有着完全不同的框架。具有着完全不同的框架。系统的核心是图像特征数据库。图像特征既可以从图像系统的核心是图像特征数据库。图像特征既可以从图像本身提取得到,也可以通过用户的交互获得,以用于计本身提取得到,也可以通过用户的交互获得,以用于计算图像之间的相似度。算图像之间的相似度。1 1、选择、提取和索引能够充分表达图像的视觉特征。选择、提取和索引能够充分表达图像的视觉特征。2 2、处理基于相似度的图像索引。、处理基于相似度的图像索引。3 3、处理用户对检索结果的反馈意见,改善检索结果。、处理用户对检索结果的反馈意见,改善检索结果。9 基于内容的图像检索系统在未来几年中的可能的发基于内
9、容的图像检索系统在未来几年中的可能的发展方向。展方向。(1)(1)图像检索人图像检索人-机结合机结合 (2)(2)高层语义和底层视觉特征差距高层语义和底层视觉特征差距 (3)(3)面向面向WebWeb (4)(4)多维数据的索引多维数据的索引 (5)(5)性能评价标准和测试集性能评价标准和测试集 (6)(6)图像内容的主观感知图像内容的主观感知 (7)(7)图像特征映射与图像基寻找图像特征映射与图像基寻找 (8)(8)交叉领域和多媒体的融合交叉领域和多媒体的融合 图像检索介绍图像检索介绍 基于内容的图像检索基于内容的图像检索10视频结构化及其检索视频结构化及其检索 1 1视频内容结构化视频内容
10、结构化 (1)(1)图像与视频图像与视频 静止的图片称为图像静止的图片称为图像(Image)(Image),运动的图像称为视频,运动的图像称为视频(video)(video)。(2)(2)图像的输入图像的输入 (3)(3)视频数据流视频数据流 11视频结构化视频结构化 视频结构化过程即是对视频流中的连续帧序列进行切视频结构化过程即是对视频流中的连续帧序列进行切分,把一个连续视频流按其内容分,把一个连续视频流按其内容 展开的不同,将它分成展开的不同,将它分成若干语义段落单元。若干语义段落单元。视频流的结构化方法能够从一部很长的视频中抽象出视频流的结构化方法能够从一部很长的视频中抽象出视频内部隐含
11、的情节发展结构视频内部隐含的情节发展结构,它为大数据量视频的导航它为大数据量视频的导航和浏览提供了一种非常好的手段。和浏览提供了一种非常好的手段。般来说,在视频结构化过程中,可以把连续视频流般来说,在视频结构化过程中,可以把连续视频流分割成包括镜头、组和场景等视频单元。分割成包括镜头、组和场景等视频单元。12视频检索视频检索 基于例子的视频检索应该是高效的、简便的和正确的基于例子的视频检索应该是高效的、简便的和正确的.所谓高效性指检索系统能够快速地找到用户所需要的视所谓高效性指检索系统能够快速地找到用户所需要的视频频(如在如在wwwwww范围范围).).简便性指检索系统应该让用户操作简单、便捷
12、,不需要简便性指检索系统应该让用户操作简单、便捷,不需要掌握复杂的专业领域知识;正确性指检索系统返回的视掌握复杂的专业领域知识;正确性指检索系统返回的视频应当尽可能接近用户的检索要求。频应当尽可能接近用户的检索要求。1314视频检索视频检索15 基于内容的音频检索基于内容的音频检索 音频包括语音和非语音两类信号。音频包括语音和非语音两类信号。基于内容的音频检索可以分为两个方面:基于内容的音频检索可以分为两个方面:由于在多媒体数据流中,音频信号同样包含了丰富的由于在多媒体数据流中,音频信号同样包含了丰富的语义信息,正确识别出音频信号中所蕴涵的语义后,从语义信息,正确识别出音频信号中所蕴涵的语义后
13、,从而用音频来索引其相应的多媒体视频信息。而用音频来索引其相应的多媒体视频信息。音频数据自己也可成为检索对象,如寻找相似的音乐音频数据自己也可成为检索对象,如寻找相似的音乐和在电影中寻找某个的声音等。与视频检索类似,在音和在电影中寻找某个的声音等。与视频检索类似,在音频检索中,也需要经过特征提取、音频分割、音频识别频检索中,也需要经过特征提取、音频分割、音频识别分类和索引检索这几个关键步骤。分类和索引检索这几个关键步骤。16分布式数据检索系统分布式数据检索系统分布式节点连接分布式节点连接查询的关键字查询的关键字LyraLyra依靠优化依靠优化的数据检索算的数据检索算法在很短的时法在很短的时间内
14、返回所有间内返回所有相关的结果相关的结果17数字图书馆的体系结构数字图书馆的体系结构18数据挖掘技术数据挖掘技术西安电子科技大学 刘志镜19网络之后的下一个技术热点网络之后的下一个技术热点 大量信息大量信息带来带来的问题的问题 信息过量,难以消化信息过量,难以消化 信息真假难以辨识信息真假难以辨识 信息安全难以保证信息安全难以保证 信息形式不一致,难以统一处理数据开采和知识发现技术信息形式不一致,难以统一处理数据开采和知识发现技术应运而生应运而生 缺乏挖掘数据背后隐藏的知识的手段,导致了缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆数据爆炸但知识贫乏炸但知识贫乏”的现象。的现象。1 1、基于
15、图像与视频的非规则运动目标检测、基于图像与视频的非规则运动目标检测 2 2、可视媒体计算与理论、可视媒体计算与理论20数据挖掘数据挖掘 在数据库及数据仓库中存贮有大量的数据,它们具有规范的在数据库及数据仓库中存贮有大量的数据,它们具有规范的结构形式与可靠的来源,且数量大、保存期间长,是一种极结构形式与可靠的来源,且数量大、保存期间长,是一种极为宝贵的数据资源。充分开发、利用这些数据资源是目前计为宝贵的数据资源。充分开发、利用这些数据资源是目前计算机界的一项重要工作。算机界的一项重要工作。数据资源的利用有三种方式:数据资源的利用有三种方式:数据资源的查询服务数据资源的查询服务数据资源的演绎数据资
16、源的演绎知识的利用与搜索(知识的利用与搜索(AIAI)演绎数据库演绎数据库统计分析软件(统计分析软件(SASSAS,SPSSSPSS)数据资源的归纳数据资源的归纳数据挖掘数据资源的归纳数据挖掘数据资源的归纳 211 1 什么是数据挖掘?什么是数据挖掘?数据挖掘又称为数据库中的又称为数据库中的知识发现(KDDKDD:Knowledge Knowledge Discovery in DatabaseDiscovery in Database),起源于),起源于8080年代初。年代初。22 机器学习和数据分析的理论及实践是数据挖掘研究的基础,机器学习和数据分析的理论及实践是数据挖掘研究的基础,极大的
17、商业应用前景又是数据挖掘研究工作的巨大推动力。极大的商业应用前景又是数据挖掘研究工作的巨大推动力。传统的数据库查询和统计只能提供你想要的信息,而数据挖传统的数据库查询和统计只能提供你想要的信息,而数据挖掘技术则可以发现你没有意识到的未知信息。掘技术则可以发现你没有意识到的未知信息。什么是数据挖掘?什么是数据挖掘?231 1 什么是数据挖掘?什么是数据挖掘?数据挖掘就是对数据库数据挖掘就是对数据库(数据仓库数据仓库)中蕴涵的、未知的、非平中蕴涵的、未知的、非平凡的、有潜在应用价值的模式凡的、有潜在应用价值的模式(规则规则)的提取。的提取。数据挖掘就是从大型数据库数据挖掘就是从大型数据库(数据仓库
18、数据仓库)的数据中提取人们感的数据中提取人们感兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息兴趣的知识。这些知识是隐含的、事先未知的潜在有用信息。因此,我们认为数据挖掘必须包括三个因素:因此,我们认为数据挖掘必须包括三个因素:数据挖掘的本源:大量、完整的数据数据挖掘的本源:大量、完整的数据数据挖掘的结果:知识、规则数据挖掘的结果:知识、规则结果的隐含性:因而需要一个挖掘过程结果的隐含性:因而需要一个挖掘过程241 1 什么是数据挖掘?什么是数据挖掘?因此,我们应该是在一个大量的完整数据集中进行数据的挖因此,我们应该是在一个大量的完整数据集中进行数据的挖掘工作,归纳结果应该是具有普遍性意义
19、的规则,我们从一掘工作,归纳结果应该是具有普遍性意义的规则,我们从一万条数据中找出的规律也应该能够适用于十万、一百万、万条数据中找出的规律也应该能够适用于十万、一百万、的情况。例如:的情况。例如:从一个没有同名的人群中可以抽取出关键字(即标识属从一个没有同名的人群中可以抽取出关键字(即标识属性)性)姓名姓名,但这显然不适合普遍情况。,但这显然不适合普遍情况。数据挖掘的目的:用归纳出的规律来指导客观世界数据挖掘的目的:用归纳出的规律来指导客观世界 数据挖掘中的几个基本概念:数据挖掘中的几个基本概念:252.8.1 2.8.1 什么是数据挖掘?什么是数据挖掘?模式(pattern)用高级语言表示的
20、表达一定逻辑含义的信息,这里通常用高级语言表示的表达一定逻辑含义的信息,这里通常指数据库中数据之间的逻辑关系。指数据库中数据之间的逻辑关系。例如:在超市的商品销售数据库中,我们可以找到以下例如:在超市的商品销售数据库中,我们可以找到以下信息:信息:男性顾客在购买婴儿尿布时也往往同时购买啤酒男性顾客在购买婴儿尿布时也往往同时购买啤酒在购买面包和黄油的顾客中在购买面包和黄油的顾客中,大部分,大部分的人同时也买了的人同时也买了牛奶牛奶 知识(discovered knowledge)满足用户兴趣度和置信度的模式。满足用户兴趣度和置信度的模式。262.8.1 2.8.1 什么是数据挖掘?什么是数据挖掘
21、?置信度(confidence)知识在某一数据域上为真的量度。知识在某一数据域上为真的量度。置信度涉及到许多因素,如数据的完整性、样本数据的置信度涉及到许多因素,如数据的完整性、样本数据的大小、领域知识的支持程度等。大小、领域知识的支持程度等。没有足够的确定性,模式不能成为知识。没有足够的确定性,模式不能成为知识。例如:模式例如:模式在购买面包和黄油的顾客中在购买面包和黄油的顾客中,大部分,大部分的人的人同时也买了牛奶同时也买了牛奶的置信度为:的置信度为:同时购买同时购买面包、黄油、牛奶面包、黄油、牛奶的顾客人数占同时购的顾客人数占同时购买买面包、黄油面包、黄油的顾客人数的百分比。的顾客人数的
22、百分比。272.8.1 2.8.1 什么是数据挖掘?什么是数据挖掘?兴趣度(interestingness)在一定数据域上为真的知识被用户关注的程度。在一定数据域上为真的知识被用户关注的程度。有效性(effectiveness)知识的发现过程必须能够有效地在计算机上实现。知识的发现过程必须能够有效地在计算机上实现。非平凡性(nontrivial)能够以确定的计算过程提取的模式称为平凡知识。平凡能够以确定的计算过程提取的模式称为平凡知识。平凡的知识(如根据数据库中的薪水字段求得职员的平均薪的知识(如根据数据库中的薪水字段求得职员的平均薪水)不是数据挖掘的目标。水)不是数据挖掘的目标。在数据挖掘中
23、,知识的发现过程都应具有某种不确定性在数据挖掘中,知识的发现过程都应具有某种不确定性和一定的自由度,也就是要发现不平凡的知识。和一定的自由度,也就是要发现不平凡的知识。282.8.1 2.8.1 什么是数据挖掘?什么是数据挖掘?从上面的讨论中可以看出来,数据挖掘的过程具有以下一些从上面的讨论中可以看出来,数据挖掘的过程具有以下一些显著的特点:显著的特点:数据挖掘要处理大量的数据,它所处理的数据库数据挖掘要处理大量的数据,它所处理的数据库(数据数据仓库仓库)的规模十分庞大,达到的规模十分庞大,达到GBGB、TBTB,甚至更大;,甚至更大;由于用户不能形成精确的查询要求,因此要依靠数据挖由于用户不
24、能形成精确的查询要求,因此要依靠数据挖掘技术为用户找寻他可能感兴趣的东西;掘技术为用户找寻他可能感兴趣的东西;在数据挖掘过程中,规则的发现基于统计规律。因此,在数据挖掘过程中,规则的发现基于统计规律。因此,所发现的规则不必适用于所有数据,而是当达到一定的所发现的规则不必适用于所有数据,而是当达到一定的“门槛门槛”时,即认为具有此规则。由此,利用数据挖掘时,即认为具有此规则。由此,利用数据挖掘技术可能会发现大量的规则;技术可能会发现大量的规则;数据挖掘所发现的规则是动态的,它只反映了当前状态数据挖掘所发现的规则是动态的,它只反映了当前状态的数据集合具有的规则,随着不断地向数据库(数据仓的数据集合
25、具有的规则,随着不断地向数据库(数据仓库)中加入新数据,需要不断地更新规则。库)中加入新数据,需要不断地更新规则。291 1 什么是数据挖掘?什么是数据挖掘?数据挖掘技术在决策支持过程中所处的位置如下图:数据挖掘技术在决策支持过程中所处的位置如下图:研究问题域选 择 目 标 数 据 集数据预处理 数数 据据 挖挖 掘掘 模 式 评 价 与 理 解 决 策 支 持 应 用 如果满足不了用户的需要 302 2 数据仓库与数据挖掘数据仓库与数据挖掘 在传统的决策支持系统中,数据挖掘技术是建立在数据库在传统的决策支持系统中,数据挖掘技术是建立在数据库的基础上的(如下左图),数据挖掘只是其中的一个部分的
26、基础上的(如下左图),数据挖掘只是其中的一个部分,在这之前需要大量的数据查询和预处理。有了数据仓库,在这之前需要大量的数据查询和预处理。有了数据仓库技术之后,由于数据仓库中的数据都是经过抽取、整理和技术之后,由于数据仓库中的数据都是经过抽取、整理和预处理后的综合数据,因而数据挖掘工作可以在数据仓库预处理后的综合数据,因而数据挖掘工作可以在数据仓库上直接运行上直接运行。数据挖掘数据的预处理数 据 库数据源(含数据库)数据抽取数据仓库数据挖掘312 2 数据仓库与数据挖掘数据仓库与数据挖掘 利用数据库系统进行数据挖掘的缺点是:利用数据库系统进行数据挖掘的缺点是:动态数据(Dynamic Data)
27、大多数数据库的基本特点是内容将经常变化。在一个大多数数据库的基本特点是内容将经常变化。在一个在线系统中,必须采用预警机制来保证在线系统中,必须采用预警机制来保证数据库中的数据库中的这这些变化不些变化不会会导致错误的导致错误的数据挖掘结果数据挖掘结果。噪声和不确定性(Noise&Uncertainty)错误的数据对于现实世界错误的数据对于现实世界中的中的数据库是在所难免的,数据库是在所难免的,这主要在于数据采集的各个环节。另一种不确定性存这主要在于数据采集的各个环节。另一种不确定性存在于发现的模式可能只在一部分数据上有效。在于发现的模式可能只在一部分数据上有效。322 2 数据仓库与数据挖掘数据
28、仓库与数据挖掘不完整数据(Incomplete Data)由于不完整的数据域和数据域上值的缺少造成的不由于不完整的数据域和数据域上值的缺少造成的不完整数据当然会影响发现的结果。完整数据当然会影响发现的结果。数据库的最初设计并没有考虑知识发现的应用,模数据库的最初设计并没有考虑知识发现的应用,模式的发现、评价、解释很可能需要数据库中不存在式的发现、评价、解释很可能需要数据库中不存在的信息。的信息。冗余信息(Redundant Information)同一数据在数据库中的多处出现。这种冗余信息有同一数据在数据库中的多处出现。这种冗余信息有时会误导知识的发现过程。时会误导知识的发现过程。根据冗余信息
29、发现的知识缺乏足够的兴趣度。根据冗余信息发现的知识缺乏足够的兴趣度。稀疏数据(Sparse Data)数据库中的信息在实例空间中可能是稀疏的,这会数据库中的信息在实例空间中可能是稀疏的,这会严重影响发现的效率。严重影响发现的效率。333 3 常用的数据挖掘方法常用的数据挖掘方法 目前一般常用的数据挖掘方法很多目前一般常用的数据挖掘方法很多,它们大多属于数学统计它们大多属于数学统计方法或人工智能中的机器学习算法,以及人工神经网络方法或人工智能中的机器学习算法,以及人工神经网络/遗遗传算法等传算法等,在这里在这里,我们简单介绍在数据库中常用的几种算我们简单介绍在数据库中常用的几种算法法,它们是:它
30、们是:用于特征规则挖掘的方法面向属性归约方法数据立方方法关联规则挖掘序列模式分析分类分析聚类分析343.1 3.1 面向属性规约方法面向属性规约方法 特征规则是一种常见的知识形式,它用于描述一类数据对象特征规则是一种常见的知识形式,它用于描述一类数据对象的普遍特征,是普化知识的一种。特征规则的数据挖掘方法的普遍特征,是普化知识的一种。特征规则的数据挖掘方法有两类:有两类:数据立方方法数据立方方法和和面向属性归约方法面向属性归约方法。面向属性归约方法这是一种常用的特征规则的挖掘方法。它通过对属性值这是一种常用的特征规则的挖掘方法。它通过对属性值间概念的层次结构进行归约,以获得相关数据的概括性间概
31、念的层次结构进行归约,以获得相关数据的概括性知识,通常又称为普化知识。知识,通常又称为普化知识。在实际情况中,许多属性都可以进行数据归类,形成概在实际情况中,许多属性都可以进行数据归类,形成概念汇聚点。这些概念依抽象程度的不同可构成描述它们念汇聚点。这些概念依抽象程度的不同可构成描述它们层次结构的概念树。层次结构的概念树。353.1 3.1 面向属性规约方法面向属性规约方法在面向属性规约方法中,使用到下面的一些基本概念:在面向属性规约方法中,使用到下面的一些基本概念:概念层次树指某属性值所具有的从具体的概念值到概念类的层次关指某属性值所具有的从具体的概念值到概念类的层次关系树。系树。一般由用户
32、提供或从领域知识中得到该属性的概念层次一般由用户提供或从领域知识中得到该属性的概念层次树。树。例:属性例:属性籍贯籍贯的概念层次树的概念层次树363.1 3.1 面向属性规约方法面向属性规约方法属性属性籍贯籍贯的概念层次树的概念层次树籍 贯 华 中 华 北 港澳台 华 东 湖北 江苏 上海 武汉 南京 苏州 373.1 3.1 面向属性规约方法面向属性规约方法 归约用属性概念层次树上高层的属性值去替代低层的属性值用属性概念层次树上高层的属性值去替代低层的属性值,又称为概念提升。,又称为概念提升。如:用如:用湖北湖北去代替去代替武汉武汉,用,用江苏江苏去代替去代替南京南京或或苏州苏州等。等。概括
33、关系表这是一张二维关系表,其属性是目标类中参与规则发现这是一张二维关系表,其属性是目标类中参与规则发现的属性,其最终元组数不大于用户指定的值的属性,其最终元组数不大于用户指定的值。该表中的元组被称为宏元组该表中的元组被称为宏元组。一个宏元组概括了多个基本元组,并附加上一个一个宏元组概括了多个基本元组,并附加上一个COUNTCOUNT属属性,用以表示该宏元组所概括的基本元组数。性,用以表示该宏元组所概括的基本元组数。383.1 3.1 面向属性规约方法面向属性规约方法 例:有部分学生在图书馆借阅了例:有部分学生在图书馆借阅了大趋势大趋势这本书,想通过这本书,想通过数据挖掘技术发现这部分学生具有什
34、么样的特征。其基本关数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是:系表是:学学 号号姓姓 名名系系 别别书书 名名借阅日期借阅日期9932007颜立经济大趋势2000.3.169833090王家卫金融大趋势2000.3.169813105王向东医学院大趋势2000.5.89928073朱小明企管大趋势2000.5.209822041刘伟历史大趋势2000.6.309932056陈立业经济大趋势2000.9.199923143刘英新闻大趋势2000.12.3393.1 3.1 面向属性规约方法面向属性规约方法 概念层次树:系别概念层次树:系别文科文科 商学院商学院 -经济,金融,企
35、管,会计,国贸经济,金融,企管,会计,国贸文科文科 文学院文学院 -中文,新闻,信管,历史,哲学中文,新闻,信管,历史,哲学理科理科 医学院医学院理科理科 理学院理学院 -数学,天文,物理数学,天文,物理40系系 别别书书 名名商学院大趋势4文学院大趋势2医学院大趋势13.1 3.1 面向属性规约方法面向属性规约方法 概括关系表一概括关系表一依据借阅次数的多少来决定是否为噪声数据借阅次数借阅次数 概括关系表二系系 别别书书 名名借阅次数借阅次数文科大趋势6理科大趋势1413.1 3.1 面向属性规约方法面向属性规约方法如果定义噪声数据的阀值是如果定义噪声数据的阀值是1 1(记录数为(记录数为1
36、 1),则:),则:根据根据基本关系表一基本关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是经济系经济系的学生的学生 根据根据概括关系表一概括关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是商学院商学院的学生的学生借阅借阅大趋势大趋势一书的是一书的是文学院文学院的学生的学生 根据根据概括关系表二概括关系表二发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是文科文科的学生的学生423.1 3.1 面向属性规约方法面向属性规约方法如果定义噪声数据的阀值是如果定义噪声数据的阀值是2 2,则:,则:根据根据基本关系表
37、一基本关系表一发现不到特征规则发现不到特征规则 根据根据概括关系表一概括关系表一发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是商学院商学院的学生的学生 根据根据概括关系表二概括关系表二发现的特征规则是:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是文科文科的学生的学生433.1 3.1 面向属性规约方法面向属性规约方法如果定义噪声数据的阀值是如果定义噪声数据的阀值是5 5,则:,则:根据根据基本关系表一基本关系表一发现不到特征规则发现不到特征规则 根据根据概括关系表一概括关系表一发现不到特征规则发现不到特征规则 根据根据概括关系表二概括关系表二发现的特征规则是
38、:发现的特征规则是:借阅借阅大趋势大趋势一书的是一书的是文科文科的学生的学生44 数据立方方法可以发现,在面向属性规约方法中,经常要做各种统计可以发现,在面向属性规约方法中,经常要做各种统计查询。查询。如果如果预先做好某些经常需要用到但花费较高的统计、求预先做好某些经常需要用到但花费较高的统计、求和等集成计算,并将统计结果放在多维数据库中。采用和等集成计算,并将统计结果放在多维数据库中。采用该种方法的特征规则挖掘方法被称为数据立方方法。该种方法的特征规则挖掘方法被称为数据立方方法。在数据立方方法中,常用的分析方法有:在数据立方方法中,常用的分析方法有:数据概括(roll_up上翻)将属性值提高
39、到较高层次,如:从将属性值提高到较高层次,如:从基本关系表基本关系表 到到 概括关系表一概括关系表一,再到再到概括关系表二概括关系表二的的分析过程。分析过程。数据细化(drill_down下翻)将属性值减低一些层次,如:从将属性值减低一些层次,如:从概括关系表二概括关系表二 到到 概括关系表一概括关系表一,再到再到基本关系表基本关系表的分的分析过程。析过程。3.1 3.1 面向属性规约方法面向属性规约方法453.2 3.2 关联规则挖掘关联规则挖掘 关联规则用于表示关联规则用于表示OLTPOLTP数据库中诸多属性(项集)之间的关数据库中诸多属性(项集)之间的关联程度。而关联规则挖掘(联程度。而
40、关联规则挖掘(Association Rules MiningAssociation Rules Mining)则是利用数据库中的大量数据通过关联算法寻找属性间的相则是利用数据库中的大量数据通过关联算法寻找属性间的相关性。关性。例:例:(超级市场超级市场)在购买商品在购买商品A A的客户中有的客户中有90%90%的人会同时购买的人会同时购买商品商品B B,则可用关联规则表示为:,则可用关联规则表示为:A B A B .规则规则1 1 我们讲数据挖掘的结果要满足一定的置信度和兴趣度要求,我们讲数据挖掘的结果要满足一定的置信度和兴趣度要求,在这里,用户对规则感兴趣的程度我们用规则的支持度来表在这里
41、,用户对规则感兴趣的程度我们用规则的支持度来表示。示。463.2 3.2 关联规则挖掘关联规则挖掘规则1:A BA B 支持度(Support)同时购买同时购买A A和和B B的客户人数占总客户数的百分比称为规则的客户人数占总客户数的百分比称为规则1 1的支的支持度。持度。Support(A B)=Probability(Support(A B)=Probability(A A B B)置信度(Confidence)同时购买同时购买A A和和B B的客户人数占购买的客户人数占购买A A的客户人数的百分比称为规的客户人数的百分比称为规则则1 1的置信度。的置信度。Confidence(A B)=
42、Probability(B/A)Confidence(A B)=Probability(B/A)=Probability(A =Probability(A B)/Probability(A)B)/Probability(A)473.2 3.2 关联规则挖掘关联规则挖掘购买A的顾客购买B的顾客同时购买A和B的顾客483.2 3.2 关联规则挖掘关联规则挖掘 如果不考虑关联规则的支持度和如果不考虑关联规则的支持度和置置信度信度,那么在事务数据库那么在事务数据库中存在无穷多的关联规则。事实上中存在无穷多的关联规则。事实上,人们一般只对满足一定人们一般只对满足一定的支持度和可信度的关联规则感兴趣。的支
43、持度和可信度的关联规则感兴趣。为了发现出有意义的关联规则为了发现出有意义的关联规则,需要给定两个阈值需要给定两个阈值:最小支最小支持度持度和和最小最小置置信度信度。关联规则挖掘的实质是在关联规则挖掘的实质是在OLTPOLTP数据库中数据库中寻找满足用户给定的最小支持度和最小置信度的规则。关联规则挖掘算法关联规则挖掘算法:The Apriori AlgorithmThe Apriori Algorithm493.2 3.2 关联规则挖掘关联规则挖掘 AprioriApriori算法的原理:算法的原理:项集(项集(itemsetitemset):在数据库中出现的属性值的集合。):在数据库中出现的属
44、性值的集合。频繁项集(频繁项集(frequent itemset):满足最小支持度要求):满足最小支持度要求的项集。的项集。关联规则一定是在满足用户的最小支持度要求的频繁项关联规则一定是在满足用户的最小支持度要求的频繁项集中产生的,因此,关联规则挖掘也就是在数据库中寻找集中产生的,因此,关联规则挖掘也就是在数据库中寻找频繁项集的过程。频繁项集的过程。在寻找频繁项集的过程中,我们遵循一条规则:在寻找频繁项集的过程中,我们遵循一条规则:每个频繁项集的任一子集必定也是一个频繁项集。每个频繁项集的任一子集必定也是一个频繁项集。503.2 3.2 关联规则挖掘关联规则挖掘 假设最小支持度和最小置信度的要
45、求均为假设最小支持度和最小置信度的要求均为50%50%OLTP数据库最后找到的频繁项集是:最后找到的频繁项集是:(A),(B),(C),(A,C)(A),(B),(C),(A,C)513.2 3.2 关联规则挖掘关联规则挖掘 因此,在上述数据库中,我们能找到的关联规则只能是频繁因此,在上述数据库中,我们能找到的关联规则只能是频繁项集(项集(A A,C C)上的。)上的。规则1:A CA C(支持度(支持度50%50%,置信度,置信度66.6%66.6%)规则2:C A C A(支持度(支持度50%50%,置信度,置信度100%100%)523.2 3.2 关联规则挖掘关联规则挖掘 例:在例:在
46、借书借书一例中,假设我们定义关联规则的最小支持一例中,假设我们定义关联规则的最小支持度为度为20%20%如果我们在基本表上做关联规则挖掘,就只能发现一条如果我们在基本表上做关联规则挖掘,就只能发现一条规则:规则:借阅借阅大趋势大趋势一书的是经济系的学生。一书的是经济系的学生。如果在概括关系表如果在概括关系表1 1中做挖掘,得到的关联规则是:中做挖掘,得到的关联规则是:借阅借阅大趋势大趋势一书的是商学院的学生。一书的是商学院的学生。借阅借阅大趋势大趋势一书的是文学院的学生。一书的是文学院的学生。如果在概括关系表如果在概括关系表2 2中做挖掘,得到的关联规则是:中做挖掘,得到的关联规则是:借阅借阅
47、大趋势大趋势一书的是文科的学生。一书的是文科的学生。533.2 3.2 关联规则挖掘关联规则挖掘 例:假设我们定义关联规则的最小支持度为例:假设我们定义关联规则的最小支持度为30%30%如果我们在基本表上做关联规则挖掘,发现不了规则。如果我们在基本表上做关联规则挖掘,发现不了规则。如果在概括关系表如果在概括关系表1 1中做挖掘,得到的关联规则是:中做挖掘,得到的关联规则是:借阅借阅大趋势大趋势一书的是商学院的学生。一书的是商学院的学生。如果在概括关系表如果在概括关系表2 2中做挖掘,得到的关联规则是:中做挖掘,得到的关联规则是:借阅借阅大趋势大趋势一书的是文科的学生。一书的是文科的学生。54什
48、么是数据仓库什么是数据仓库?数据仓库的定义很多,但却很难有一种严格的定义数据仓库的定义很多,但却很难有一种严格的定义它是一个提供决策支持功能的数据库,它与公司的操作它是一个提供决策支持功能的数据库,它与公司的操作数据库分开维护。数据库分开维护。为统一的历史数据分析提供坚实的平台,对信息处理提为统一的历史数据分析提供坚实的平台,对信息处理提供支持供支持 数据仓库区别于其他数据存储系统数据仓库区别于其他数据存储系统“数据仓库是一个面向主题的、集成的、随时间而变化的数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程、不容易丢失的数据集合,支持管理部门的决策
49、过程.”W.H.InmonW.H.Inmon55数据仓库关键特征数据仓库关键特征面向主题面向主题 面向主题,是数据仓库显著区别于关系数据库系统的一个特面向主题,是数据仓库显著区别于关系数据库系统的一个特征征围绕一些主题,如顾客、供应商、产品等围绕一些主题,如顾客、供应商、产品等关注决策者的数据建模与分析,而不是集中于组织机构关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务处理。的日常操作和事务处理。排除对于决策无用的数据,提供特定主题的简明视图。排除对于决策无用的数据,提供特定主题的简明视图。56数据仓库关键特征二数据仓库关键特征二数据集成数据集成 一个数据仓库是通过集成多个异
50、种数据源来构造的。一个数据仓库是通过集成多个异种数据源来构造的。关系数据库,一般文件,关系数据库,一般文件,联机事务处理记录 使用数据清理和数据集成技术。使用数据清理和数据集成技术。确保命名约定、编码结构、属性度量等的一致性。确保命名约定、编码结构、属性度量等的一致性。当数据被移到数据仓库时,它们要经过转化。当数据被移到数据仓库时,它们要经过转化。57数据仓库关键特征三数据仓库关键特征三随时间而变化随时间而变化 数据仓库是从历史的角度提供信息数据仓库是从历史的角度提供信息数据仓库的时间范围比操作数据库系统要长的多。数据仓库的时间范围比操作数据库系统要长的多。操作数据库系统操作数据库系统:主要保