数据挖掘导论-第2章(v4)-ppt课件.ppt

上传人(卖家):三亚风情 文档编号:2604125 上传时间:2022-05-10 格式:PPT 页数:78 大小:3.25MB
下载 相关 举报
数据挖掘导论-第2章(v4)-ppt课件.ppt_第1页
第1页 / 共78页
数据挖掘导论-第2章(v4)-ppt课件.ppt_第2页
第2页 / 共78页
数据挖掘导论-第2章(v4)-ppt课件.ppt_第3页
第3页 / 共78页
数据挖掘导论-第2章(v4)-ppt课件.ppt_第4页
第4页 / 共78页
数据挖掘导论-第2章(v4)-ppt课件.ppt_第5页
第5页 / 共78页
点击查看更多>>
资源描述

1、第第2章章 数据数据数据类型数据类型数据质量数据质量数据预处理数据预处理相似性和相异性度量相似性和相异性度量1PPT课件2.1 数据类型数据类型2.1.1 属性与度量属性与度量2.1.2 数据集的类型数据集的类型2PPT课件数据数据n数据集是数据对象的集合数据集是数据对象的集合n数据对象用一组刻画对象基本特数据对象用一组刻画对象基本特性(如物体质量或事件发生时间)性(如物体质量或事件发生时间)的属性描述的属性描述 n数据对象的其他名称数据对象的其他名称n记录、点、向量、模式、事件、记录、点、向量、模式、事件、案例、样本、观测或实体案例、样本、观测或实体 n属性(属性( attribute )是

2、对象的性质)是对象的性质或特性,他因对象而异,或随时或特性,他因对象而异,或随时间而变化间而变化n属性的其他名称属性的其他名称n变量、特性、字段、特征或维变量、特性、字段、特征或维 Tid Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No 2 No Married 100K No 3 No Single 70K No 4 Yes Married 120K No 5 No Divorced 95K Yes 6 No Married 60K No 7 Yes Divorced 220K No 8 No Single 85

3、K Yes 9 No Married 75K No 10 No Single 90K Yes 10 AttributesObjects属性如何测量和描述,既取决于事物本身的客观性质,也和所掌握的技术手段相关。涉及到 测量精度:海岸线长度。虹膜颜色(分几类颜色描述、RBG均值描述、RBG直方图描述)3PPT课件123557815104ABCDEn测量标度是将数值或符号与对象的属性相关联的规则。n属性的性质不必与用来度量它的值的性质相同。属性的类型属性的类型序性质、可加性序性质4PPT课件属性的类型属性的类型n属性的类型,即测量标度类型,取决于下列属性的类型,即测量标度类型,取决于下列4种数值性质

4、:种数值性质:n属性值(数值)的性质属性值(数值)的性质n1、Distinctness(相异性)(相异性): = n2、Order(序)(序): n3、Addition(加法)(加法): + - nMultiplication (乘法)(乘法) : * /n属性的类型不同,允许的操作不同属性的类型不同,允许的操作不同5PPT课件属性的类型属性的类型nThere are different types of attributesn标称(标称(Nominal)nExamples: 邮编、雇员邮编、雇员IDn序数(序数( Ordinal )nExamples: 成绩、街道号码成绩、街道号码n区间(区

5、间(Interval)nExamples: 日期、温度日期、温度n比率(比率(Ratio)nExamples: 绝对温度、长度、年龄、计数绝对温度、长度、年龄、计数6PPT课件表表2-2 不同的属性类型不同的属性类型属性类型属性类型描描 述述例例 子子操操 作作标称属性的值仅仅只是不标称属性的值仅仅只是不同的名字,即标称值只提供同的名字,即标称值只提供足够的信息以区分对象足够的信息以区分对象(=, )邮政编码、雇员邮政编码、雇员ID号、号、眼球颜色、性别眼球颜色、性别众数、熵、列联相关、众数、熵、列联相关、 2检验检验序数属性的值提供足够的序数属性的值提供足够的信息确定对象的序信息确定对象的序

6、()矿石硬度、矿石硬度、好,较好,好,较好,最好最好、成绩、街道号、成绩、街道号码码中值、百分位、秩相关、中值、百分位、秩相关、游程检验、符号检验游程检验、符号检验对于区间属性,值之间的对于区间属性,值之间的差是有意义的,即存在测量差是有意义的,即存在测量单位单位( , )日历日期、摄氏或华日历日期、摄氏或华氏温度氏温度均值、标准差、皮尔逊均值、标准差、皮尔逊相关、相关、t和和F检验检验对于比率变量,差和比率对于比率变量,差和比率都是有意义的都是有意义的(*,/)绝对温度、货币量、绝对温度、货币量、计数、年龄、质量、计数、年龄、质量、长度、电流长度、电流几何平均、调和平均、几何平均、调和平均、

7、百分比变差百分比变差分类的分类的(定性的定性的)数值的数值的(定量的定量的)标标称称序序数数区区间间比比率率7PPT课件表表2-3 2-3 定义属性层次的变换定义属性层次的变换属性类型属性类型变变 换换注注 释释任何一对一变换,例如值的一个排列任何一对一变换,例如值的一个排列如果所有雇员的如果所有雇员的ID号都重新赋值,不会号都重新赋值,不会导致任何不同导致任何不同值的保序变换,即值的保序变换,即 新值新值= f(旧值旧值),其中其中f是单调函数是单调函数包括概念好、较好、最好的属性可以完包括概念好、较好、最好的属性可以完全等价地用值全等价地用值1, 2, 3或用或用0.5, 1, 10表表示

8、示新值新值 = a旧值旧值+ b,其中其中a、b是常数是常数华氏和摄氏温度标度零度的位置和华氏和摄氏温度标度零度的位置和1度的度的大小(单位)不同大小(单位)不同新值新值= a 旧值旧值长度可以用米或英尺度量长度可以用米或英尺度量分类的分类的(定性的定性的)数值的数值的(定量的定量的)标标称称序序数数区区间间比比率率8PPT课件用值的个数描述属性:离散用值的个数描述属性:离散vs.连续属性连续属性n离散属性离散属性(Discrete Attribute)n有限或无限可数有限或无限可数 (countable infinite )个值个值n例例: 邮政编码邮政编码, 计数计数, 文档集的词文档集的

9、词n常表示为整数变量常表示为整数变量. n注意注意: 二元属性二元属性(binary attributes)是离散属性的特例是离散属性的特例n连续属性连续属性(Continuous Attribute)n属性值为实数属性值为实数n例例: 温度温度, 高度高度, 重量重量. n实践中实践中, 实数只能用有限位数字的数度量和表示实数只能用有限位数字的数度量和表示.n连续属性一般用浮点变量表示连续属性一般用浮点变量表示. 9PPT课件数据集的一般特性数据集的一般特性n维度维度(Dimensionality)n数据集的维度是数据集中的对象具有的属性数目数据集的维度是数据集中的对象具有的属性数目 n维灾

10、难(维灾难(Curse of Dimensionality)n维归约(维归约(dimensionality reduction) n稀疏性稀疏性(Sparsity)n如具有非对称特征的数据集,一个对象的大部分属性上的值都为如具有非对称特征的数据集,一个对象的大部分属性上的值都为0 n只存储和处理非零值只存储和处理非零值n分辨率分辨率(Resolution)n 数据的模式依赖于分辨率数据的模式依赖于分辨率度量尺度度量尺度(scale)n在数米的分辨率下,地球表面看上去很不平坦,但在数十公里在数米的分辨率下,地球表面看上去很不平坦,但在数十公里的分辨率下却相对平坦的分辨率下却相对平坦 n小时标度下

11、的气压变化反映风暴或其他天气系统的移动;在月小时标度下的气压变化反映风暴或其他天气系统的移动;在月标度下,这些现象就检测不到标度下,这些现象就检测不到 10PPT课件数据集类型(三大类)数据集类型(三大类)n记录数据记录数据n数据矩阵(数据矩阵(Data Matrix)n文本数据(文本数据(Document Data ):每篇文档可以表示成一个文档):每篇文档可以表示成一个文档-词矩词矩阵阵 n事务数据(事务数据(Transaction Data)n基于图形基于图形(Graph)的数据的数据nWorld Wide Webn分子结构(分子结构(Molecular Structures)n有序有序

12、(Ordered)数据数据n空间数据(空间数据(Spatial Data)n时间数据(时间数据(Temporal Data)n序列数据(序列数据(Sequential Data )11PPT课件数据集类型数据集类型1:记录数据:记录数据: 数据矩阵数据矩阵n数据矩阵数据矩阵:n如果一个数据集中的所有数据对象都具有相同的数值属性集如果一个数据集中的所有数据对象都具有相同的数值属性集,则数据对则数据对象可以看做是多维空间中的点象可以看做是多维空间中的点,其中每个位代表描述对象的一个不同属其中每个位代表描述对象的一个不同属性。性。n这样的数据集可以用一个这样的数据集可以用一个mXn的矩阵表示的矩阵表

13、示pregplas pres skin insu mass pediageclass61487235033.6 0.62750positive1856629026.6 0.35131negative8183640023.3 0.67232positive12PPT课件数据集类型数据集类型1:记录数据:记录数据: 事务数据事务数据n典型的记录数据:事务数据或购物篮数据典型的记录数据:事务数据或购物篮数据TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk

14、 5 Coke, Diaper, Milk 13PPT课件数据集类型数据集类型2:基于图形的数据:基于图形的数据1n带有对象之间联系的数据带有对象之间联系的数据 nExamples: HTML Links 14PPT课件数据集类型数据集类型2:基于图形的数据:基于图形的数据2n具有图形对象的数据具有图形对象的数据 n对象具有结构,即对象包含具有联系的子对象对象具有结构,即对象包含具有联系的子对象 n例例: 苯分子的球苯分子的球棍图,包含碳原子(黑色)和氢原子(灰色)棍图,包含碳原子(黑色)和氢原子(灰色) 15PPT课件数据集类型数据集类型3:有序数据:有序数据: 时序数据时序数据n有序数据有

15、多种有序数据有多种, 常常涉及时间或空间序常常涉及时间或空间序n时序数据(时序数据(sequential data)n也称时间数据(也称时间数据(temporal data) n时间次序重要时间次序重要, 但具体时间不重要但具体时间不重要n例:事务序列例:事务序列16PPT课件数据集类型数据集类型3:有序数据:有序数据: 序列数据序列数据n序列数据序列数据(sequence data)n个体项的序列个体项的序列 n例:基因组序列数据例:基因组序列数据nDNA都由都由4种核苷酸种核苷酸 A, T, G和和C构造构造n没有时间标记,但与时序数据类似没有时间标记,但与时序数据类似n重要的是在序列中的

16、位置重要的是在序列中的位置GGTTCCGCCTTCAGCCCCGCGCCCGCAGGGCCCGCCCCGCGCCGTCGAGAAGGGCCCGCCTGGCGGGCGGGGGGAGGCGGGGCCGCCCGAGCCCAACCGAGTCCGACCAGGTGCCCCCTCTGCTCGGCCTAGACCTGAGCTCATTAGGCGGCAGCGGACAGGCCAAGTAGAACACGCGAAGCGCTGGGCTGCCTGCTGCGACCAGGG17PPT课件数据集类型数据集类型3:有序数据:有序数据: 时间序列数据时间序列数据n 时间序列数据(时间序列数据(time series data)n特殊的时

17、序数据,其中每个记录都是一个时间序列特殊的时序数据,其中每个记录都是一个时间序列(time series),即,即一段时间的测量序列一段时间的测量序列 n时间自相关(时间自相关(temporal autocorrelation),即如果两个测量的时间),即如果两个测量的时间很接近,这些测量的值通常非常相似很接近,这些测量的值通常非常相似 18PPT课件数据集类型数据集类型3:有序数据:有序数据:空间数据空间数据n空间数据空间数据 n具有空间属性,如位具有空间属性,如位置或区域置或区域n例例: 不同的地理位置收不同的地理位置收集的气象数据(降水集的气象数据(降水量、气温、气压)量、气温、气压)n

18、空间自相关性(空间自相关性(spatial autocorrelation): 物物理上靠近的对象趋向理上靠近的对象趋向于在其他方面也相似于在其他方面也相似 n右图每月是空间数据右图每月是空间数据,显示多月是时间显示多月是时间-空间空间数据数据(Spatial-Temporal Data)19PPT课件2.2 数据质量数据质量20PPT课件2.2 数据质量数据质量2.2.1 测量和数据收集问题测量和数据收集问题1.测量误差和数据收集错误测量误差和数据收集错误2.噪声和伪像噪声和伪像3.精度、偏倚、准确率精度、偏倚、准确率4.离群点离群点5.遗漏值遗漏值6.不一致的值不一致的值7.重复的值重复的

19、值2.2.2 数据质量数据质量: 应用问题应用问题21PPT课件测量误差和数据收集错误测量误差和数据收集错误n测量误差和数据收集错误测量误差和数据收集错误 n测量误差(测量误差(measurement error)n测量过程导致的任何问题测量过程导致的任何问题 ,表现为记录值与实际值不同,表现为记录值与实际值不同n数据收集错误(数据收集错误(data collection error)n遗漏数据对象或属性值,或不正确地包含数据对象等错误遗漏数据对象或属性值,或不正确地包含数据对象等错误 n测量误差和数据收集错误都可能是系统的或随机的测量误差和数据收集错误都可能是系统的或随机的 22PPT课件测

20、量误差和数据收集错误测量误差和数据收集错误n数据中可能存在的问题数据中可能存在的问题n噪声(测量误差的随机部分)噪声(测量误差的随机部分)n离群点(可能同时涉及测量误差和数据收集错误离群点(可能同时涉及测量误差和数据收集错误 )n遗漏值(可能同时涉及测量误差和数据收集错误遗漏值(可能同时涉及测量误差和数据收集错误 )n不一致的值(可能同时涉及测量误差和数据收集不一致的值(可能同时涉及测量误差和数据收集错误错误 )n重复的值(可能同时涉及测量误差和数据收集错重复的值(可能同时涉及测量误差和数据收集错误误 )23PPT课件 噪声和伪像噪声和伪像n噪声是测量误差的随机部分噪声是测量误差的随机部分n可

21、能扭曲值或附加的谬误对象可能扭曲值或附加的谬误对象 nExamples: distortion of a persons voice when talking on a poor phone and “snow” on television screenTwo Sine WavesTwo Sine Waves + Noise24PPT课件精度、偏倚、准确率精度、偏倚、准确率n精度:精度:precisionn偏倚:偏倚:biasn准确率准确率 :accuracy25PPT课件 离群点离群点n离群点离群点(Outliers)ndata objects with characteristics th

22、at are considerably different than most of the other data objects in the data set26PPT课件 遗漏值遗漏值n原因原因nInformation is not collected (e.g., people decline to give their age and weight)nAttributes may not be applicable to all cases (e.g., annual income is not applicable to children)n处理处理nEliminate Data

23、Objects or Attribute删除数据对象或属性删除数据对象或属性nEstimate Missing Values 估计遗漏值估计遗漏值nIgnore the Missing Value During Analysis分析时忽略遗漏值分析时忽略遗漏值27PPT课件 不一致的值不一致的值n数据可能包含不一致的值数据可能包含不一致的值n例如例如, 地址字段,其中列出了邮政编码和城市,但是特定的邮政编码地址字段,其中列出了邮政编码和城市,但是特定的邮政编码区域并不包含在该城市区域并不包含在该城市 n纠正不一致需要附加或冗余信息纠正不一致需要附加或冗余信息 n时间序列数据中的不一致可能是使用

24、不同的测量手段时间序列数据中的不一致可能是使用不同的测量手段n例例: 海洋表面温度(海洋表面温度(SST) n19581982年用船或浮标年用船或浮标 收集收集SSTn1983年之后使用卫星收集年之后使用卫星收集SSTn两组数据两组数据, 每组内的年相互之间趋向于正相关,但与另一组的年每组内的年相互之间趋向于正相关,但与另一组的年负相关负相关 28PPT课件 重复数据重复数据nData set may include data objects that are duplicates, or almost duplicates of one anothernMajor issue when me

25、rging data from heterogeneous sourcesnExamples:n同一个人具有多个同一个人具有多个email地址地址nSame person with multiple email addressesnData cleaningn重复数据需要进行数据清洗重复数据需要进行数据清洗nProcess of dealing with duplicate data issues29PPT课件数据质量数据质量: 应用问题应用问题n时效性时效性 n有些数据收集后就开始老化有些数据收集后就开始老化n例如例如, 顾客的购买行为或顾客的购买行为或Web浏览模式的快照只代表有限时间内的

26、真浏览模式的快照只代表有限时间内的真实情况实情况 n如果数据已经过时,则基于它的模型和模式也已经过时。如果数据已经过时,则基于它的模型和模式也已经过时。n相关性相关性 n可用的数据必须包含应用所需要的信息可用的数据必须包含应用所需要的信息n例如例如, 构造一个模型,预测驾驶事故发生率构造一个模型,预测驾驶事故发生率n如果忽略了关于驾驶员的年龄和性别信息,那么除非这些信息如果忽略了关于驾驶员的年龄和性别信息,那么除非这些信息可以间接地通过其他属性得到,否则模型的精度可能是有限的可以间接地通过其他属性得到,否则模型的精度可能是有限的 30PPT课件2.3 数据预处理数据预处理31PPT课件数据预处

27、理数据预处理n数据预处理方法数据预处理方法n聚集聚集(Aggregation)n抽样抽样(Sampling)n维归约维归约(Dimensionality Reduction)n特征子集选择特征子集选择(Feature subset selection)n特征创建特征创建(Feature creation)n离散化与二元化离散化与二元化(Discretization and Binarization)n属性变换属性变换(Attribute Transformation)32PPT课件聚集聚集nAggregation(聚集)(聚集):n Combining two or more attribut

28、es (or objects) into a single attribute (or object)n将两个或多个对象合并成单个对象将两个或多个对象合并成单个对象nPurposenData reduction(数据归约)(数据归约)n Reduce the number of attributes or objectsnChange of scale(标度转换)(标度转换)n Cities aggregated into regions, states, countries, etcnMore “stable” data(更稳定的数据)(更稳定的数据)n Aggregated data te

29、nds to have less variability n缺点:丢失有趣的细节缺点:丢失有趣的细节33PPT课件聚集聚集: 例子例子nVariation of Precipitation in Australia(澳大利亚降水量)(澳大利亚降水量)平均月降水量标准差直方图平均月降水量标准差直方图平均年降水量标准差直方图平均年降水量标准差直方图34PPT课件抽样抽样n抽样是一种选择数据对象子集进行分析的常用方法抽样是一种选择数据对象子集进行分析的常用方法 n统计学抽样统计学抽样vs数据挖掘抽样数据挖掘抽样n统计学抽样的原因是因为得到感兴趣的整个数据集的代价太高n数据挖掘使用抽样是因为处理所有数

30、据的代价太高n有效抽样的原则有效抽样的原则:n代表性代表性n保留原数据集的性质保留原数据集的性质35PPT课件抽样方法抽样方法n简单抽样简单抽样(Simple Random Sampling)nThere is an equal probability of selecting any particular itemn简单无放回抽样简单无放回抽样(Sampling without replacement)nAs each item is selected, it is removed from the populationn简单有放回抽样简单有放回抽样(Sampling with replac

31、ement)nObjects are not removed from the population as they are selected for the sample. nIn sampling with replacement, the same object can be picked up more than oncen分层抽样分层抽样(Stratified sampling)nSplit the data into several partitions; then draw random samples from each partitionn每组抽相同个数每组抽相同个数vs按比

32、例按比例n自适应自适应(adaptive)或渐进抽样或渐进抽样(progressive sampling)n原因:有时难以预先确定样本集大小原因:有时难以预先确定样本集大小n方法:从一个小样本开始,然后增加样本容量直至得到足够容量的样本方法:从一个小样本开始,然后增加样本容量直至得到足够容量的样本 36PPT课件样本大小样本大小: 例子例子n从从8000个点分别抽个点分别抽2000和和500个点个点n2000个点的样本保留了数据集的大部分结构个点的样本保留了数据集的大部分结构 n500个点的样本丢失了许多结构个点的样本丢失了许多结构8000 points 2000 Points500 Poin

33、ts37PPT课件维归约维归约n数据集包含大量特征数据集包含大量特征n例:文档数据集,数以万计的词对应数以万计的属性例:文档数据集,数以万计的词对应数以万计的属性n维灾难维灾难(curse of dimensionality)n随着数据维度的增加,许多数据分析变得非常困难。特殊地,随着随着数据维度的增加,许多数据分析变得非常困难。特殊地,随着维度增加,数据在它所占据的空间中越来越稀疏维度增加,数据在它所占据的空间中越来越稀疏 n对于分类,这可能意味没有足够的数据对象来创建模型对于分类,这可能意味没有足够的数据对象来创建模型 n对于聚类,点之间的密度和距离的定义(对聚类是至关重要的)对于聚类,点

34、之间的密度和距离的定义(对聚类是至关重要的)变得不太有意义变得不太有意义 n结果结果: 对于高维数据对于高维数据, 许多分类和聚类算法(以及其他数据分析算法)许多分类和聚类算法(以及其他数据分析算法)都有麻烦都有麻烦分类准确率降低,聚类质量下降分类准确率降低,聚类质量下降 n技术技术nPCA:Principle Component Analysis 主成分分析主成分分析nSVD:Singular Value Decomposition 奇异值分解奇异值分解38PPT课件维归约维归约: PCAnGoal is to find a projection that captures the larg

35、est amount of variation in datanFind the eigenvectors of the covariance matrixnThe eigenvectors define the new spacex2x1e39PPT课件特征子集选择特征子集选择n特征子集选择是降低维度的另一种方法。特征子集选择是降低维度的另一种方法。n当存在当存在冗余特征(冗余特征(Redundant features)、不相关特征()、不相关特征(Irrelevant features)时,使用特征的一个子集,能在降低维度的同时避免丢失信时,使用特征的一个子集,能在降低维度的同时避免丢失信

36、息。息。n特征子集选择的技术特征子集选择的技术:nBrute-force approach暴力穷举暴力穷举:nEmbedded approaches嵌入方法嵌入方法:nFeature selection occurs naturally as part of the data mining algorithmnFilter approaches过滤方法过滤方法:nFeatures are selected before data mining algorithm is runnWrapper approaches包装方法包装方法:nUse the data mining algorithm a

37、s a black box to find best subset of attributes40PPT课件特征创建特征创建nCreate new attributes that can capture the important information in a data set much more efficiently than the original attributesn三种一般方法三种一般方法 :n特征提取特征提取Feature Extractionndomain-specific 高度针对具体领域(如:人脸检测、指纹识别)高度针对具体领域(如:人脸检测、指纹识别)n映射数据到新

38、的空间映射数据到新的空间Mapping Data to New Spacen特征构造特征构造Feature Constructionn combining features 从多个原特征构造新的特征从多个原特征构造新的特征41PPT课件特征创建:映射数据到新空间特征创建:映射数据到新空间n傅里叶变换傅里叶变换(Fourier transform)n小波变换小波变换(Wavelet transform)n例例: 傅里叶变换傅里叶变换n左左: 两个两个sin波波; n中中: 两个两个sin波之和波之和+噪声噪声; 检测不到模式检测不到模式n右右: 傅里叶变换到频谱傅里叶变换到频谱; 两个尖峰对应于

39、两个无噪声的时间序列两个尖峰对应于两个无噪声的时间序列 Two Sine WavesTwo Sine Waves + NoiseFrequency42PPT课件特征创建:特征构造特征创建:特征构造n原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法原始数据集的特征具有必要的信息,但其形式不适合数据挖掘算法 n由原特征构造的新特征可能比原特征更有用由原特征构造的新特征可能比原特征更有用 n例例: 文物数据库文物数据库n每件文物的特征包括每件文物的特征包括: 体积和质量,以及其他信息体积和质量,以及其他信息 n文物材质文物材质(类类): 木材、陶土、青铜、黄金木材、陶土、青铜、黄金 n原特

40、征不适合分类原特征不适合分类n构造新特征构造新特征: 密度密度=质量质量/体积体积n常依据专家意见常依据专家意见43PPT课件2022年5月10日星期二数据挖掘导论44离散化和二元化离散化和二元化 n为什么要离散化为什么要离散化/二元化二元化n减少属性值个数,便于挖掘,结果知识表达更简洁、更易于理解、减少属性值个数,便于挖掘,结果知识表达更简洁、更易于理解、更易使用更易使用n离散化产生概念分层结构,可以在不同抽象层进行挖掘离散化产生概念分层结构,可以在不同抽象层进行挖掘n有些算法需要离散属性有些算法需要离散属性n有些算法需要二元属性有些算法需要二元属性n1、离散属性二元化、离散属性二元化n2、

41、连续属性离散化、连续属性离散化 n3、具有过多值的离散属性、具有过多值的离散属性n非监督非监督vs监督离散化监督离散化n差别:是否使用类信息差别:是否使用类信息44PPT课件变量变换变量变换 n变量变量/属性变换(属性变换(variable/attribute transformation) nA function that maps the entire set of values of a given attribute to a new set of replacement values such that each old value can be identified with on

42、e of the new valuesn简单变换简单变换nSimple functions: xk, log(x), ex, |x|, 1/xn注意注意:n可能改变数据的特性可能改变数据的特性 n例例: 变换变换1/x压缩了大于压缩了大于1的值,但是放大了的值,但是放大了0和和1之间的值之间的值 45PPT课件变量变换变量变换: 标准化标准化/规范化规范化n标准化(标准化(standardization)规范化()规范化(normalization)n在数据挖掘中不区分在数据挖掘中不区分 n在统计学有不同涵义在统计学有不同涵义n目标目标: 使整个值的集合具有特定的性质使整个值的集合具有特定的性

43、质 n例例: 设设 是属性值的均值是属性值的均值, sx是它们的标准差是它们的标准差, 变换变换n创建一个新的变量,它具有均值创建一个新的变量,它具有均值0和标准差和标准差1 n可以用中位数取代均值可以用中位数取代均值n可以绝对标准差(可以绝对标准差(absolute standard deviation)取代标准差)取代标准差 x()/xxxxs|1miiAx46PPT课件2.4 相似性和相异性的度量相似性和相异性的度量47PPT课件2.4 相似性和相异性的度量相似性和相异性的度量2.4.1 基础基础1.相似性和相异性的定义相似性和相异性的定义2.相似性和相异性的变换相似性和相异性的变换2.

44、4.2 简单属性间的相似简单属性间的相似/相异度相异度2.4.3 数据对象间的相异度数据对象间的相异度2.4.4 数据对象间的相似度数据对象间的相似度2.4.5 邻近性度量的例子邻近性度量的例子48PPT课件相似性和相异性相似性和相异性 n相似性相似性(Similarity)nNumerical measure of how alike two data objects are.nIs higher when objects are more alike.nOften falls in the range 0,1n相异性相异性(Dissimilarity)nNumerical measure

45、of how different are two data objectsnLower when objects are more alikenMinimum dissimilarity is often 0nUpper limit variesn邻近性邻近性 (Proximity) refers to a similarity or dissimilarity49PPT课件np and q are the attribute values for two data objects简单属性的相似简单属性的相似/相异度相异度50PPT课件数据对象的相异度数据对象的相异度:欧几里得距离欧几里得距离

46、n欧氏距离欧氏距离nn是维数,而是维数,而xk和和yk分别是分别是x和和y的第的第k个属性(分量)个属性(分量) nkkkyxd12)(),(yx01230123456p1p2p3p4pointxyp102p220p331p451p1p2p3p4p102.8283.1625.099p22.82801.4143.162p33.1621.41402p45.0993.1622051PPT课件闵可夫斯基距离闵可夫斯基距离 nMinkowski距离是欧氏距离的推广距离是欧氏距离的推广nWhere r is a parameternr = 1.城市街区距离(又称为曼哈顿距离)城市街区距离(又称为曼哈顿距离

47、) City block (Manhattan, taxicab, L1 norm) distance. nA common example of this is the Hamming distance, which is just the number of bits that are different between two binary vectorsnr = 2.欧几里得距离欧几里得距离Euclidean distancenr .上确界距离上确界距离“supremum” (Lmax norm, L norm) distance. nThis is the maximum diffe

48、rence between any component of the vectorsrnkrkkyxd/11|),(yxrnkrkkryxd/11| lim),(yx52PPT课件距离的性质距离的性质nDistances, such as the Euclidean distance, have some well known properties.1.非负性。非负性。Non-negativity: d(x, y) 0 for all x and y, and d(x, y) = 0 only if x = y. 2.对称性。对称性。Symmetry: d(x, y) = d(y, x) fo

49、r all x and y. 3.三角不等式。三角不等式。Triangle Inequality: d(x, z) d(x, y) + d(y, z) for all points x, y, and z. where d(x, y) is the distance (dissimilarity) between points (data objects), x and y.nA distance that satisfies these properties is a metric53PPT课件非度量的相异度非度量的相异度n有些相异度都不满足一个或多个度量性质有些相异度都不满足一个或多个度量

50、性质 n例例1. 集合差集合差n每个对象是一个集合每个对象是一个集合n相异度用集合差的元素个数定义相异度用集合差的元素个数定义d(A, B) = size(A B)n一般地,可能一般地,可能A B B A, size(A B) size(B A) n定义定义d(A, B) = size(A B) + size(B A) n例例2. 时间时间 2112211221)(24),(ttttttttttd如果如果详见P4354PPT课件2.4 相似性和相异性的度量相似性和相异性的度量2.4.1 基础基础1.相似性和相异性的定义相似性和相异性的定义2.相似性和相异性的变换相似性和相异性的变换2.4.2

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(数据挖掘导论-第2章(v4)-ppt课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|