1、.数据挖掘与商务智能范勤勤物流研究中心.第二章第二章 认识数据认识数据1 1数据对象与属性类型数据对象与属性类型2 2数据的基本统计描述数据的基本统计描述3 3度量数据的相似性和相异性度量数据的相似性和相异性.数据对象与属性类型.4属性及标称属性什么是属性?什么是属性?属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维数、特征属性是一个数据字段,表示数据对象的一个特征。在文献中,属性、维数、特征和变量可以互换的使用,属性可以是和变量可以互换的使用,属性可以是标称的、二元的、序数的标称的、二元的、序数的或或数值的数值的。标称属性标称属性 标称意味着与名称相关。标称属性的值是一些符号或
2、事物的名称标称意味着与名称相关。标称属性的值是一些符号或事物的名称 如:如:hair_color(头发颜色头发颜色)和和marital_status(婚姻状况)是描述人的两个特征。(婚姻状况)是描述人的两个特征。hair_color的可能值为黑色、棕色、淡黄色等,的可能值为黑色、棕色、淡黄色等,marital_status的可能取值是单的可能取值是单身、已婚、离异和丧偶身、已婚、离异和丧偶 标称属性值并不具有有意义的序,并且不是定量的。给定一个对象集,找出这种标称属性值并不具有有意义的序,并且不是定量的。给定一个对象集,找出这种属性的均值或中位数是没有意义的,但可以用众数来表示属性的均值或中位
3、数是没有意义的,但可以用众数来表示.5二元属性二元属性二元属性 二元属性是一种标称属性,只有两个类别或状态:二元属性是一种标称属性,只有两个类别或状态:0或或1,其中,其中0通常表示该属性通常表示该属性不出现,而不出现,而1表示出现。如果两种状态对应于表示出现。如果两种状态对应于true和和false的话,二元属性又称布的话,二元属性又称布尔属性。尔属性。如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性如果一个事物的两种状态具有同等价值并且携带相同的权重,则称一个二元属性是是对称对称的。如:属性的。如:属性gender中的男、女。中的男、女。如果其状态的结果不是同等重要的
4、,则称一个二元属性是如果其状态的结果不是同等重要的,则称一个二元属性是非对称非对称的。如:的。如:HIV化化验的阴性、阳性结果。验的阴性、阳性结果。.6序数属性及数值属性序数属性序数属性 序数属性是一种属性,其可能的值之间具有序数属性是一种属性,其可能的值之间具有有意义的序或秩有意义的序或秩评定,但是相继值之评定,但是相继值之间的间的差是未知的差是未知的,其中心趋势可以用,其中心趋势可以用众数众数和和中位数中位数来表示。来表示。如:如:professional_rank(职位职位)可以按顺序枚举,如对于教师有助教、讲师、副可以按顺序枚举,如对于教师有助教、讲师、副教授和教授教授和教授数值属性数
5、值属性 数值属性是定量的,即它是可度量的量,用数值属性是定量的,即它是可度量的量,用整数整数或或实数值实数值表示。数值属性可以是表示。数值属性可以是区间标度的或比率标度的,其中心趋势度量可以用均值、中位数或众数来表示区间标度的或比率标度的,其中心趋势度量可以用均值、中位数或众数来表示 区间标度属性用区间标度属性用相等的单位尺度相等的单位尺度度量,比如温度度量,比如温度 比率标度属性是具有比率标度属性是具有固定零点固定零点的数值属性,比如重量、高度的数值属性,比如重量、高度.7离散属性与连续属性离散属性与连续属性离散属性与连续属性 离散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性离
6、散属性具有有限或无限可能个值,可以用或不用整数表示。如:属性hair_color、smoker、medical_test和和drink_size都有有限个值,因此是都有有限个值,因此是离散的离散的 如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以如果属性不是离散的,则它是连续的。在文献中,数值属性与连续属性可以互换使用互换使用.数据的基本统计描述.9中心趋势度量中心趋势度量:均值、中位数和众数、均值:中心趋势度量:均值、中位数和众数、均值:NxxxxNxxNNii.3211NNNNiiNiiiwwwxwxwxwwxwx 21221111加权平均:加权平均:主要问题:对极端值很
7、敏感主要问题:对极端值很敏感.10中心趋势度量中位数中位数中列数中列数 数据集的最大值和最小值的平均值数据集的最大值和最小值的平均值众数众数 集合中出现最频繁的值集合中出现最频繁的值 可能最高频率对应多个不同值,导致多个众数可能最高频率对应多个不同值,导致多个众数 有序数据值的中间值有序数据值的中间值 适用于倾斜数据适用于倾斜数据.11度量数据散布niiniixNxN1221221)(1 方差和标准差方差和标准差度量数据散布:极差、四分位数、方差、标准差和四分位数极差度量数据散布:极差、四分位数、方差、标准差和四分位数极差 极差:极差(极差:极差(range)=max()-min()四分位数四
8、分位数 第一个四分位数第一个四分位数Q1 第三个四分位数第三个四分位数Q3 四分位数极差四分位数极差IQR=Q3-Q1 标准差是方差的平方根标准差是方差的平方根.12五数概括五数概括五数概括 分布的五数概括由中位数分布的五数概括由中位数Q2、四分位数、四分位数Q1和和Q3,最小和最大观测值组成,最小和最大观测值组成,按次序按次序Minimum、Q1、Median、Q3、Maximum。.13盒图盒图盒图 一种流行的分布的直观表示。体现了五数概括:一种流行的分布的直观表示。体现了五数概括:盒的端点一般在四分位数上,使得盒的长度是四分位数极差盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQ
9、R 中位数用盒内的线标记中位数用盒内的线标记 盒外的两条线(称作胡须)延伸到最小(盒外的两条线(称作胡须)延伸到最小(Minimum)和最大()和最大(Maximum).14盒图盒图示例盒图示例 如图在给定的时间段如图在给定的时间段ALLElectronics的的4个销售部门的商品单价数据的盒图。对个销售部门的商品单价数据的盒图。对于部门于部门1,我们看到销售商品单价的中位数是,我们看到销售商品单价的中位数是80美元,美元,Q1是是60美元,美元,Q3是是100美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值美元。注意,该部门的两个边远的观测值被个别的描绘出,因为它们的值175
10、和和202都超过都超过IQR的的1.5倍,这里倍,这里IQR=40.180160140120100806040200部门部门1部门部门2部门部门3部门部门4200.15分位数图分位数图分位数图Q1中位数中位数Q3.16分位数-分位数图分位数分位数-分位数图分位数图Q1中位数中位数Q3.17直方图直方图直方图 如果如果X是是标称标称的,则对于的,则对于X的每个已知值,画一个柱或竖直条的每个已知值,画一个柱或竖直条 如果如果X是是数值数值的,的,X的值域被划分成的值域被划分成不相交不相交的连续子域,通常来讲,诸桶是的连续子域,通常来讲,诸桶是等宽等宽的的 对于比较单变量观测组,它可能不如分位数图、
11、分位数图对于比较单变量观测组,它可能不如分位数图、分位数图-分位数图、盒图方法有效分位数图、盒图方法有效.18散点图散点图散点图确定两个数值变量之间是否存在联系、模式或趋势的最有效的图形方法之一确定两个数值变量之间是否存在联系、模式或趋势的最有效的图形方法之一.19散点图散点图还可以用来发现属性之间的相关性散点图还可以用来发现属性之间的相关性a.正相关正相关b.负相关负相关.20相关性三种情况,其中每个数据集中两个属性之间都不存在观察到的相关性三种情况,其中每个数据集中两个属性之间都不存在观察到的相关性.21数据统计数据描述和图形统计显示提供了数据总体情况的有价值的洞察。这有助数据描述和图形统
12、计显示提供了数据总体情况的有价值的洞察。这有助于于识别噪声识别噪声和和离群点离群点,因此,它们对于,因此,它们对于数据清理数据清理特别有用特别有用.度量数据的相似性和相异性.23相似性和相异性都称邻近性相似性和相异性都称邻近性相似性及相异性相似性相似性 量化两组数据的相似性量化两组数据的相似性 物体相似性越大时,值越大物体相似性越大时,值越大 取值范围是取值范围是0,1相异性相异性 量化两组数据的不同的程度量化两组数据的不同的程度 物体相似性越大时,值越小物体相似性越大时,值越小 最小的差异值取最小的差异值取0 上限值根绝实际不同而不同上限值根绝实际不同而不同.24数据矩阵及相异性矩阵数据矩阵
13、数据矩阵 又称对象又称对象-属性结构:存放属性结构:存放n个个对象两两之间的临近度。每行对象两两之间的临近度。每行对应一个对象对应一个对象相异性矩阵相异性矩阵 又称对象又称对象-对象结构:存放对象结构:存放n个对象个对象之间的相邻度之间的相邻度 npx.nfx.n1x.ipx.ifx.i1x.1px.1fx.11x 0.)2,()1,(:)2,3().ndnd0dd(3,10d(2,1)0.25邻近性度量标称属性的邻近性度量标称属性的邻近性度量 m:#of matches,p:total#of variablespmpjid),(二元属性的邻近性度量二元属性的邻近性度量 二元属性只有两种状态:
14、二元属性只有两种状态:0或或1,0表示该属性不出现,表示该属性不出现,1表示该属性出现表示该属性出现 二元属性的列联表二元属性的列联表.26邻近性度量对称的二元属性相异性对称的二元属性相异性 对于对称的二元属性,每个状态都同样重要。对于对称的二元属性,每个状态都同样重要。对象对象i和和j的相异性为:的相异性为:非对称的二元属性相异性非对称的二元属性相异性 对于非对称的二元属性,两个状态不是同等重要的。此时,对于非对称的二元属性,两个状态不是同等重要的。此时,i与与j的相异性表示为:的相异性表示为:对象对象i与与j之间的非对称的二元相似性可以用下式计算:之间的非对称的二元相似性可以用下式计算:(
15、式的系数(式的系数sim(i,j)被称作被称作Jaccard系数)系数).27相异性数值属性的相异性数值属性的相异性 闵可夫斯基距离闵可夫斯基距离 是曼哈顿距离和欧氏距离的推广是曼哈顿距离和欧氏距离的推广 上确界距离是上确界距离是h趋向无穷时闵科夫斯基距离的推广。趋向无穷时闵科夫斯基距离的推广。11(,)limmaxpphhifjfifjfhffd ijxxxx.28邻近性度量序数属性的邻近性度量序数属性的邻近性度量 假设假设f是用于描述是用于描述n个对象的一组序数属性之一,关于个对象的一组序数属性之一,关于f的相异性计算涉及一下步骤:的相异性计算涉及一下步骤:1.第第i个对象的个对象的f值为
16、值为xif,属性属性f有有Mf个有序的状态,表示排位个有序的状态,表示排位1,.,Mf.用对应的用对应的排位来排位来取代取代xif。2.通过通过zif代替第代替第i个对象的个对象的rif来实现数据规格化:来实现数据规格化:3.利用数值属性的距离度量计算,使用利用数值属性的距离度量计算,使用zif作为第作为第i个对象的个对象的f值。值。,.,1fifMr11fififMrz.29相异性混合类型属性的相异性混合类型属性的相异性 假设数据集包含假设数据集包含p个混合类型的属性,对象个混合类型的属性,对象i与与j之间的相异性之间的相异性d(i,j)定义为:定义为:f是数值型的:用标准化的距离公式。是数
17、值型的:用标准化的距离公式。f是标称或二元的:如果是标称或二元的:如果xif=xjf,则则dij(f)=0 if;否则,否则,dij(f)=1 f是序数的:计算排位是序数的:计算排位rij和和 并将并将zif作为属性值对待作为属性值对待上述步骤与前面的各种单一属性类型的处理相同,唯一不同的是对于上述步骤与前面的各种单一属性类型的处理相同,唯一不同的是对于数值属性数值属性的处理的处理)(1)()(1),(fijpffijfijpfdjid11fifMrzif()maxminifjffijhhfhhfxxdxx.30余弦相似性余弦相似性余弦相似性 余弦相似性是一种度量,它可以用来比较文档,或针对给
18、定的查询词向量对文档排余弦相似性是一种度量,它可以用来比较文档,或针对给定的查询词向量对文档排序。令序。令x和和y是两个待比较的向量,使用余弦度量作为相似函数,有:是两个待比较的向量,使用余弦度量作为相似函数,有:yxyxyxsim),(.31作业 假设所分析的数据包括属性假设所分析的数据包括属性age,它在数据元组中的值(以递增序)为,它在数据元组中的值(以递增序)为13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70(1)该数据的均值是多少?中位数是什么?)该数据的均值是多少?中位数是什么?(2)该数据的众数是什么?)该数据的众数是什么?(3)该数据的中列数是多少?)该数据的中列数是多少?给定两个元组(给定两个元组(22,1,42,10)和()和(20,0,36,8)表示的对象)表示的对象(1)计算这两个对象之间的欧氏距离和曼哈顿距离)计算这两个对象之间的欧氏距离和曼哈顿距离(2)使用)使用q=3,计算这两个对象之间的闵科夫斯基距离,计算这两个对象之间的闵科夫斯基距离(3)计算这两个对象的上确界距离)计算这两个对象的上确界距离.谢谢谢谢关关注注欢欢迎迎指指导导