1、广东商学院信息学院1/93广东商学院信息学院 胡建军数据仓库与数据挖掘2/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘3/72n复杂数据对象的多维分析和描述性挖掘复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘4/72n简单数据简单数据 关系数据库、事务数据库、数据仓库n复杂类型数据复杂类型数据 复杂对象、空间数据、多媒体数据、时间序列数据、文本数据、Web数据等 挖掘技术:挖掘技术:基本挖掘技术的扩展 针对复杂数据类型的新技术 实施知识
2、挖掘的方法5/72n商品化数据仓库和OLAP工具用于多维分析的局限:维非数字数据度量聚集值n复杂数据对象的概化及其概化数据的应用n复杂数据的组织及存储方法H类、类/子类H对象:对象标识、属性、方法6/72n复杂结构数据:H集合、元组、列表、树、记录等及其组合;H概化方法:4保持原结构不变,概化其属性4把原结构扁平化,概化扁平化的结构4用高层概念或聚集汇总低沉结构4返回原结构的类型或概貌7/72n集合值集合值一般概化方法:H将集合中的每个值概化为其对应的更高级别的概念H导出集合的一般特征(元素个数、区间、平均值、最大值等)示例:业余爱好网球,曲棍球,国际象棋,小提琴,任天堂游戏 概化:体育,音乐
3、,电子游戏 体育(3),音乐(1),电子游戏(1)8/72n列表值/序列值 类似于集合值属性的概化,要求保持元素的次序。一般概化方法:H将列表中的每个值概化为对应的高层概念H导出列表的一般特征(长度、元素类型、平均值、最大值等)9/72n聚集和近似计算n空间数据例:土地规划n多媒体数据H图像:尺寸、颜色、形状、纹理、方位等H音乐:音调、节拍、乐器等H文本:摘要、关键词等10/72n对象标识符沿类/子类层次结构概化n继承特性数据概化对直接数据与继承数据同等对待n方法 方法本身不能概化,但是可以对方法导出的数据进行概化11/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘空间数据库挖掘n多
4、媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘12/72n空间数据库及其一般特点H存储了大量与空间有关的数据H包含拓扑/距离信息H复杂的、多维的索引结构H访问通过空间数据的方法,通常需要空间推理、地理计算、空间知识表示技术n空间数据挖掘:要综合数据挖掘与空间数据库技术13/72n传统空间数据分析(统计方法)的不足H统计方法通常假设空间分布的数据间是统计上独立的,但现实是空间对象间是相互关联的;H大部分统计模型只有具有相当丰富领域知识和统计方面经验的统计专家才用得起来;H统计方法不适用符号值,或不完整或非确定的数据,对大规模数据库其计算代价也十分昂贵。n空间数据挖掘空间数据
5、挖掘将对传统的空间分析方法加以扩展,重点解决其高效性,可伸缩性,与数据库系统的紧密结合,改进与用户的交互,以及新的知识的发现。14/72 空间关联规则形如:ABs%,c%其中A和B空间和非空间谓词的集合,s%表示规则的支持度,c%表示规则的的可信度。例例:Is_a(X,”school”)close_to(X,“sports_center”)close_to(X,“park”)0.5%,80%此规则表明80%靠近体育中心的学校同时也靠近公园,并且有0。5%的数据符合这一规则。15/72n 空间数据聚类是要在一个较大的多维数据集中根据距离的计算找出簇,或稠密区域。16/72n空间分类空间分类指分析
6、空间对象导出与一定空间特征有关的分类模式,如郊区,高速公路,河流的邻接。n空间趋势分析空间趋势分析处理的是另一类问题:根据某空间维找出变化趋势。例如,当离城市中心越来越远时,我们要分析经济形势的变化趋势,或离海洋越来越远时,气候与植物的变化趋势。17/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘18/72n多媒体数据库多媒体数据库是指存储和管理大量多媒体对象的数据库,如音频数据,图象数据,视频数据,序列数据,以及超文本数据,包含文本,文本标记(text markup),和链接(linkage)。
7、n多媒体数据的相似搜索多媒体数据的相似搜索 主要考虑两种多媒体标引和检索系统:(1)基于描述的检索系统,主要是在图象描述之上建立标引和执行对象检索,如关键字,标题,尺寸,创建时间等;(2)基于内容的检索系统,它支持基于图象内容的检索,如颜色构成,质地,形状,对象,和小波变换等。n多媒体数据的分类和预测分析多媒体数据的分类和预测分析 n多媒体数据中的关联规则挖掘多媒体数据中的关联规则挖掘 19/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘20/72n时序数据库:时序数据库:由随时间变化的序列或事件组成的数据库H等
8、时间间隔测得的数据(regular intervals)H时序数据库是一种序列数据库n序列数据库序列数据库:由有序事件序列组成的数据库H可有时间标记,也可以没有时间标记H可以是时序数据库,也可以不是。如WEB遍历。21/72Time-series plot22/72n趋势分析趋势分析 通过对趋势,循环,季节和非规则成分的运动的系统分析,使人们可以在较合理的情况下,制定出长期或短期的预测(即预报时序)n相似搜索相似搜索 找出与给定查询序列最接近的数据序列。子序列匹配子序列匹配(subsequence matching)是找出与给定序列相似的所有数据序列,整体序列匹配整体序列匹配(whole se
9、quence matching)是找出彼此间相似的序列。例例 如:如:对金融市场的分析(如股票数据分析),医疗诊断(如心电图分析),和科学与工程数据库(如能量消耗分析)等 23/72n序列模式挖掘(序列模式挖掘(sequence pattern mining)是指挖掘相对时间或其它模式出现频率高的模式。n周期分析周期分析(periodicity analysis)对周期模式的挖掘,即在时序数据库中找出重复出现的模式。例如例如:季节,潮汐,行星轨道,每日能源消耗,每日交通模式 24/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖
10、掘文本数据库挖掘nWeb挖掘25/72n文本数据库 H半结构化数据:它既不是完全无结构的也不是完全结构的。例如,一个文档可能包含结构字段,如标题,作者,出版日期,长度,分类,等等,也可能包含大量的非结果化的文本成分,如摘要和内容。n典型的信息检索问题是基于用户的输入(如关键字或样例文档)定位相关的文档。n典型的信息检索系统H联机图书馆目录H联机文档管理系统n信息检索与数据库系统HDB:并发控制、恢复、事务管理、更新HIR:非结构化文档、基于关键字的近似搜索26/72n查准率:反映正确性n查全率:反映全面性|RelevantRetrievedRelevantrecall|RetrievedRet
11、rievedRelevantprecisionRelevantRelevant&RetrievedRetrievedAll Documents应该被检索到的27/72n查准率:反映正确性n查全率:反映全面性|RelevantRetrievedRelevantrecall|RetrievedRetrievedRelevantprecisionRelevantRelevant&RetrievedRetrievedAll Documents实际被检索到的28/72n查准率:反映正确性n查全率:反映全面性|RelevantRetrievedRelevantrecall|RetrievedRetriev
12、edRelevantprecisionRelevantRelevant&RetrievedRetrievedAll Documents29/72n在关键字检索关键字检索中,文档被看作字符串,可用一组关键字识别n查询由关键字表达式构成H例子,汽车 and 修理店H查询应考虑同义词问题,如:修理 和 维修n困难H同义词问题(Synonymy):文档与Key相关,但Key在文档中不出现H多义词问题(Polysemy):同一Key在不同的上下文有不同的含义,如Mine。30/72n相似检索相似检索是指基于一组共同的关键字找出相似的文档n检索结果基于相关度,即:与关键词的近似性,关键词的出现频率等。n非
13、用词表(Stop list)4无关的高频词,如:a,the,of,for,etc.4文档不同时,非用词表也不同31/72n 由于相似文档相似文档具有相似的相对词频相对词频,因此我们可以基于频率表中的相对词频,计算一组文档的相似性。词频矩阵n相似度:基于一组关键词的文档相似性H相关词的出现次数H余弦距离:n缺点:缺点:当词数T和文档数目D很大时,高的维数导致低的计算效率,且出现大的稀疏向量。H用奇异值分解(SVD)技术减小词频矩阵大小H保留词频矩阵中最有意义的K行和K列,K值为几百。|),(212121vvvvvvsim词/文档d1d2 d3d4d5d6d7t132184 31687215430
14、t235491 7156826392t32232 167462892251732/72n1.基于关键字的关联分析n2.文档分类分析33/72n动机H收集经常一起出现的关键字或词汇,然后找出其关联或相互关系n关联分析过程H文档预处理:文本数据分解,词根处理,过滤非用词等H调用关联挖掘算法4将每一文档看作一个事务4将文档中的关键词组看作事务中的一组事务项34/72n动机H自动对大量联机文档(web页面,email等)进行分类组织,以便于对文档进行检索和分析。n分类过程H数据预处理:提出关键字和词汇H定义训练集和测试集H调用分类算法创建分类模式H测试分类模式H应用导出的分类模式对其他新的、未知的联机
15、文档分类n文档分类与关系数据库中的数据分类之间的区别H文档数据库是非结构化的,没有“属性值”对35/72n复杂数据对象的多维分析和描述性挖掘n空间数据库挖掘n多媒体数据库挖掘n时序数据和序列数据的挖掘n文本数据库挖掘nWeb挖掘挖掘36/72n挑战H对数据仓库和数据挖掘而言,Web太庞大了HWeb页面数据太复杂:没有结构,不标准H不断增长,不断变化H广泛的用户群体H仅有很小部分的Web数据是有用的或相关的 99%的Web 信息对99%的Web用户是无用的Internet growth05000000100000001500000020000000250000003000000035000000
16、40000000Sep-69Sep-72Sep-75Sep-78Sep-81Sep-84Sep-87Sep-90Sep-93Sep-96Sep-99Hosts37/72n基于索引:搜索Web页面,对Web页面作索引,建立和存储大量的基于关键字的索引,定位包含关键字的Web页面n不足之处:H对任一范围的话题,返回的文档数太庞大H很多与话题相关的文档并不包含相应的关键字(多义问题)38/72如何高效地发现和利用因特网上的资源?Web挖掘39/72 Web挖掘可分为三类:nWeb内容挖掘(Web content mining),nWeb结构挖掘(Web structure mining),nWeb使
17、用记录的挖掘(Web usage mining)。40/72n权威Web页面:不仅相关,而且高质量,或针对该话题具有权威性n超链能够推断权威页面HWeb页面包含指向其他页面的超链H超链包含了大量人类潜在的注释H超链可以看作是作者对链接页面的认可nWeb超链结构存在的问题H并不是每一个超链都代表对寻找内容的认可4导航、广告H因竞争、商业等原因而不链接权威广告H权威页面很少具有特别的描述41/72nWeb日志记录提供了有关Web动态的丰富信息 典型的Web日志记录条目包含了所请求的URL,发出请求的IP地址,时间戳等n在Weblog记录上可以进行数据挖掘,用于找出关联模式,序列模式,和Web访问趋势等。42/72Questions?Lets discuss it!Thank you!Professor Jiawei Han
侵权处理QQ:3464097650--上传资料QQ:3464097650
【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。