1、大家好大家好1第二章 了解你的数据2014.102目录 2.1 数据对象和属性类型 2.2 数据的基本统计描述 2.3 数据可视化 2.4 衡量数据相似性和相异性 2.5 总结3 2.1 Data Objects and Attribute Types 2.1.1 What is an Attribute? 2.1.2 Nominal Attributes 2.1.3 Binary Attributes 2.1.4 Ordinal Attributes 2.1.5 Numeric Attributes 2.1.6 Discrete versus Continuous Attributes 2.
2、2 Basic Statistical Desciptions of Data 2.3 Data Visualization 2.4 Measuring Data Similarity and Dissimilarity 2.5 Summary42.1 数据对象和属性类型数据集是由数据对象构成的。一个数据对象表示一个实体在销售数据库中,对象可以是顾客、商品或者销售记录。在医学数据库中,数据对象可以是病人。在大学数据库中,数据对象可以是学生、教授和课程。数据对象用属性来描述。数据对象可以是一个抽样、举例、实例、数据点或者对象。如果数据对象存放在数据库中,它们是数据元组。即数据库中行对应数据对象,
3、列对应于属性。52.1.1 什么是属性?一个属性是一个域,表示一个数据对象的一个特征。“属性”、“维度”、“特征”和“变量”这些词在语义上是可交换的。“维度”通常被用在数据仓库中,机器学习中倾向于使用“特征”;统计学倾向使用“变量”,数据挖掘和数据库经常使用“属性”。属性描述一个顾客对象,如:顾客ID,姓名,地址。对给定的属性的可观察值被称为观察。刻画一个给定对象的属性集合被称为属性向量(或特征向量)。6包含单个属性的数据分布被称为单变量的分布;包含2个属性的被称为二变量的分布。属性的类型是有属性可取的值决定的,有名词、二进制型、顺序值或者数值类型。72.1.2 名词属性名词属性的值是事物的标
4、号或者名称。每一个值表示类别、编码或者状态。因此名词属性被称为是分类。值没有次序信息。在计算机领域,也可以称为枚举型。举例如:发色和婚姻状态。发色可以是黑色,棕色,红色,灰色,白色。婚姻状态可以是单身、已婚、离异或者丧偶。这些都是名词属性。8尽管名词属性是标号或者名称,但也可以是数值的表示形式。比如,发色,可以用0表示黑色,1表示棕色等。顾客ID可以是数字。但是,在这种情况,数字并不被当成数值来使用。因为名词属性不包含任何顺序信息也非数值型,所以不用终止或者平均数去衡量这类属性。可以使用属性最多出现的值,“众数”来做中心性测量。92.1.2 二进制属性二进制属性是只有两个类别或状态:0和1.0
5、一般表示属性缺失,1表示存在。二进制属性也即bool型,两个状态表示真和假。举例。如,病人对象的吸烟属性,1表示吸烟,0表示不吸烟。再比如,病人的某个医学检查结果有两种情况。1表示结果为阳性,0表示为阴性。如果二进制属性的两个状态是同等有价值的具有相同的权重,则为对称的。2个属性被标为1或者0都可以,比如性别属性的两个值男和女。如果两个状态不是同等重要的,则为非对称的。比如HIV检查的结果呈阴性和阳性。通常,用1表示更重要的通常是更稀少的结果,其他的用0表示。102.1.4 次序属性次序属性具有次序或者级别的意义。但是相邻值的级别未知。举例:例如饮料尺寸,可以是“小杯”,“中杯”,“大杯”。值
6、有顺序的意义,但是不能分辨中杯比大杯大多少。再比如,成绩等级A+, A,A-,B+职称:助理,副教授,教授次序属性被用来衡量无法客观衡量的属性,用主观的评估定质量。在调查中常用来排序。比如,参与者作为顾客,他们的满意度可以是:0:非常不满意,1 有点不满意,2 中立 3 满意 4 很满意11把数值数据离散化,把它们按照值的范围分类,也可以得到次序属性的数据。次序属性的中心性可以用众数和中值来衡量,但是不能计算平均数。名词属性、二进制属性和次序属性都是定性的。它们在描述一个对象的特征时不给出具体的尺寸和数量。值通常是一个词表示类别,即使以整数的方式表现,也不是表示数量。122.1.5 数值型属性
7、 数值型属性是定量的,是可测量的数值,为整数或实数。分为间隔尺度和比例尺度。13间隔尺度属性间隔尺度使用同等大小的单元来衡量。间隔尺度属性有大小,可以是正,0或者负值。除了能对属性值排序,还可以比较和衡量不同值的差值大小。举例:温度属性是间隔尺度。20摄氏度高于15摄氏度。日历也是间隔尺度,以及年份。Celsius和Fahrenhet是两个温度,没有绝对0点,并且我们能计算温度的差值,但是不能说一个值是另一个值的多少倍,例如10摄氏度比5摄氏度温暖2倍。间隔尺度是数值型的,可以计算平均值,中值和众数。14比例尺度比例尺度属性是数值型的,有固定的0值。如果一个测量是比例尺度,则可以以比率来衡量两
8、个值,也可以计算值的差值,以及中值,均数和众数。例如:Kelvin温度有一个真正的0点。另外,计数属性,经验年数,单词个数,体重,身高,速度,货币都是比例尺度。152.1.6 离散和连续属性 离散属性有有限的或者可数的值集合,可能不能表示为整数。例如发色,是否吸烟,医学检查结果,饮料尺寸,都有有限的值,因此是离散的。 离散值可能是数值型的,比如二进制的0和1,年龄的0到110. 一个属性是可数无限的如果可能的值集合是无限的但是值和自然数有一一对应的关系。比如,顾客ID是可数无限的。邮政编码也是。16 如果值不是离散的,则是连续的。数值属性或者连续属性是含义上是一样的。172.2 数据的基本统计
9、描述 为了更好的做数据预处理,对数据有整体的了解很关键。基本的统计描述能鉴别数据,分辨出噪声和离群点。182.2.1 中心性度量:平均数,中位数,众数 假定我们有一些属性X,例如薪资,有一系列数据对象的记录。令x1, x2,.xN是属性X的N个观察到的值。如果我们画出薪资的点图,绝大部分的值会落在哪里呢?这就是数据的中心性问题。 衡量中心性的测量有均值、中值、众数和中列数。19 平均数: 最常用和最有效的测量是数据的(算术)平均数。计算公式是:20 有时候,每一个xi有一个关联的权重wi,权值表示相应值的重要性、显著性或者发生频率。这时候,平均值的计算公式为: 称为加权算术平均值或者加权平均。
10、21 平均值对极端值比较敏感。比如一个公司的员工平均薪水可能被少数高新的经理提高很多。同样,班级的平均分也可能被少数的低分拉低很多。 为了处理这种由少数极端值带来的效果,可以使用削减均值,即去掉极端大和极端小的值之后的平均值。比如,把薪水排序,然后去掉2%的最大值和最小值。应该避免削减太多(比如20%),这会导致数据信息的丢失。22 对于偏斜(不对称)的数据,使用中值(中位数)是更好的中心性测量。中值是一系列排序好的数据的中点的值。该值把数据集分成2个部分,一半值大的,一半值小的。 在概率统计中,中值一般用在数值型数据上。这里,中值可以扩展到次序属性上。将数据集的N个值按升序排列。如果N为奇数
11、,中值即是排序集合的中点的值;如果N为偶数,中值可以是中点的2个值中的任意值。如果X是数值型数据,传统上中值取两个中点数的均值。232425众数 众数是另一个衡量中心性的测量。众数是一系列数据中出现频率最高的值。 众数可以是定性的也可以是定量的属性。有可能好几个不同的值都出现大量的频率,导致众数不止一个。众数有1个、2个、3个的分别称为unimodal(单峰值), bimodal(二峰值), trimodal(三峰值). 一个极端的例子,如果每隔数据值都仅出现一次,则没有众数。26 举例:例子2.6中有2个众数:52和70. 对于单峰值的数值型数据来说,数据是适度偏斜的(不对称),有一下的经验
12、性关系: 这表明,如果平均数和中值已知,适度倾斜的单峰频率曲线的众数可以近似得到。27中列数 中列数是数据集中最大值和最小值的平均值。可以用来评估数值型数据的中心性趋势。 利用sql语言的聚集函数max()和min()很容易计算。 举例:例2.6中,中列数是:30+110/2=70.28数据的对称和偏斜 在对称的单峰频率曲线数据分布中,平均数,中值和众数都在同样的中点值上。 实际应用中,绝大部分都不是对称的。如果众数的值小于中值,称为正偏斜;如果众数的值大于中值,称为负偏斜。 见图2.1.29302.2.2 数据分散性的度量:极差、四分位数、方差、标准差、四分位差 1、极差、四分位数、四分位差
13、 令x1, x2, xN是某个数值属性X的一系列观察,数据集的极差表示的是最大值和最小值的差。 假设数据按照属性X以升序排列。想象我们可以挑选特定的数据点,这样可以把数据分割成大小相等的连续数据集,如图2-2. 数据点称为分位点。分位点是数据分布上有规律率的间隔的数据点,将其分成相等大小的连续的数据集。3132 给定数据分布的第K个q-分位点x, 是至多k/q的数据值小于x,至多q-k/q的数据值大于x,k是大于0小于q的整数。 共有q-1个q-分位点。 2-分位点是把数据分布分割成较小值和较大值两半的数据点。即中位数。 4-分位点是把数据分布分成4个等量大小的3个数据点,每一个部分表示数据分
14、布的1/4.它们被称为四分位数。33 100-分位数更通常被称为百分位数,它们将数据集分成100个大小相等的连续集合。 中位数,四分位数和百分位数是使用最广泛的分位数。 分位数反应了分布的中心,散布以及形状。 第1个四分位数,表示为Q1, 是第25个百分位点。它把数据值最低的25%切断。第3个四分位数,表示为Q3,是第75个百分位数。它切断了数据值低的75%。34 Q1和Q3的距离,简单反应了数据中心的一半数据的范围。这个距离被称为四分位差。被定义为:35五数概括、箱子图、离群点 单个的数值分散测量在描述偏斜的分布时都不够有效。在对称的分布中,中值把数据分成大小相等的2部分。但对偏斜的数据来说
15、并非如此。因此,使用Q1,Q3和中值一起会更加有信息量。一个通用的鉴别可疑的离群点的规则是挑选出落在Q3以上或者Q1以下1.5*IQR以上的数据值。 Five-number summary是包含了中值,Q1, Q3,最小值和最大值的分布,按次序表示为:Minimum, Q1, Median, Q3, Maximum. 箱线图是常用的描述数据分布的方法。3637 箱线图中: 箱子的长度是四分位差 中值是箱子中间的线 箱子外面的两根须是观察的最小值和最小值。 当处理相当数量的观察时,单个的绘出潜在的离群点是值得的。 箱线图中为了处理这个,须被扩展到最大值和最小值仅当这些值小于1.5*IQR时。否则
16、的话,须的末端是1.5*IQR处。 箱线图的计算时间复杂度是o(nlogn).38方差和标准差 方差和标准差是测量数据分散度的。比较低的标准差表示数据观察倾向于靠近均值。高标准差表示数据值分布在一个比较大的范围区间。 N个观察x1,x2,xN的方差: 其中, 是均值。 是标准差。 Ps: 方差的公式有问题?39 标准差的基本属性: 1、标准差测量的是数据偏离均值的发散程度,因此只有在均值接近数据中心的时候才考虑。 2、标准差为0只有在所有数据值都相等时才发生。 根据Chebyshevs 不等式,至少 (1-1/k2)*100%的数据不会远离均值的K个标准差的范围。所以,标准差是一个很好的衡量数据分散度的指标。402.2.3 数据基本统计特征的图形化描述 分位数点图 直方图 散点图和数据相关性41分位数图422.3 数据可视化 2.3.1 面向像素的可视化技术 2.3.2 几何投影可视化技术 2.3.3 基于图标的可视化技术 2.3.4 分层可视化技术 2.3.5 复杂数据和关系的可视化432.4 衡量数据相似性和相异性 2.4.1 数据相异性矩阵 2.4.2 名词属性的相邻性度量 2.4.3 二进制属性的相邻性度量 2.4.4 数值型数据的相异性:Minkowski距离 2.4.5 次序属性的相邻性度量 2.4.6 混合类型的相异性 2.4.7 余弦相似性44