1、第四章第四章 数据处理与应用数据处理与应用 学会根据实际需求,对表格数据进行简单整理、计算。学会使用数据排序功能,把数据变为有序。学会使用数据筛选功能,筛选出符合要求的数据。能采用合适的方法分析数据和可视化呈现数据,并能从中提取有用信息,形成结论。乔布斯是世界上第一个对自身所有DNA和肿瘤DNA进行排序的人。为此,他支付了高达几十万美元的费用。他得到的不是样本,而是包括整个基因的数据文档。医生按照所有基因按需下药,最终这种方式帮助乔布斯延长了好几年的生命。在生产生活中,人们经常遇到以二维表方式二维表方式组织存储的数据,如、家庭收支数据等。数据处理的数据处理的核心核心是是数据数据,数据的质量直接
2、影响数据分析的结果。但获取的数据并不都是优质的,常常存在缺失、重复、错误、数量级不同等问题缺失、重复、错误、数量级不同等问题。因此,在数数据分析和数据挖掘据分析和数据挖掘前,通常先对数据进行整理对数据进行整理。那我们针对不同的数据问题要如何进行整理呢?那我们针对不同的数据问题要如何进行整理呢?知识点一:数据整理知识点一:数据整理数据整理的目的:是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。常见的数据问题:数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。最简单的方法最简单的方法是忽略含有缺失值的实例或属性(数据集数据集不完整,致使不完整,致使后续统计结果后续统计结果出现
3、偏差。出现偏差。)。通常采用通常采用平均平均值、中间值或值、中间值或概率统计值概率统计值来来填充缺失值。填充缺失值。重复数据会导致重复数据会导致数据冗余数据冗余,浪费,浪费存储空间存储空间和和网络网络带宽带宽,在数据分,在数据分析中还可能会析中还可能会误误导用户导用户。可以采用可以采用基于字基于字段段或或基于记录基于记录的的算法进行检测,算法进行检测,在进一步审核的在进一步审核的基础上进行基础上进行合并合并或或删除等删除等处理。处理。不符合一般规不符合一般规律律的数据对象。的数据对象。可能是要去掉可能是要去掉的的噪音噪音,也可,也可能是含有重要能是含有重要信息的信息的数据对数据对象象。数据集中
4、的属数据集中的属性值与实际值性值与实际值不符,或违背不符,或违背业务规则或逻业务规则或逻辑。辑。通过检测字段通过检测字段中中各属性有效各属性有效数据值的范围数据值的范围可以判断该值可以判断该值错误。错误。不同来源的数据不同来源的数据可能存在格式不可能存在格式不一致的情况。一致的情况。需要进行统一标需要进行统一标准化表达的准化表达的,以便形成,以便形成一个适合后续分一个适合后续分析和挖掘的描述析和挖掘的描述形式。形式。知识点二:数据计算知识点二:数据计算数据计算是的常用方法之一。日常简单的数据处理可以使用ExcelExcel软件软件完成;专业的数据处理和统计分析工具软件工具软件有等,也可以通过等
5、计算机语言计算机语言编程编程进行数据处理。曾经,有一堆数据摆放在我的面前,我没有头绪整理,等到我抓狂的时候才后悔莫及,人世间最痛苦的事莫过于此。如果上天能够给我再来一次的机会,我会对那堆数据说5个字:!如果非要使用武器,我希望是 EXCELEXCEL!公式公式:在Excel软件中,可以应用=表达式表达式进行数据的计算计算。公式以以“=”“=”开头开头,表达式是由常数、函数、常数、函数、单元格引用和运算符单元格引用和运算符组成的式子(公式不仅用于计算,更重要的是构建计算模型构建计算模型)。例如:例如:单元格引用单元格引用:是指对工作表中的单元格单元格或单元格区域单元格区域的引用引用。单元格地址单
6、元格地址E3区域地址区域地址连续区域E3:G4不连续区域E3:G3,E5:G6相对引用相对引用相对引用和绝对引用相对引用和绝对引用:公式公式不仅用于计算,更重要的是构建计算模型构建计算模型。从编辑栏中可看出:引用的单元格区域发生改变从编辑栏中可看出:引用的单元格区域发生改变绝对引用绝对引用:在列号或行号前都加上$号,则无论公式复制或移动到哪,引用的单元格地址的行或列都不会改变。运算符:算术运算符:用于进行基本的数学运算算术运算符:用于进行基本的数学运算算术运算符含义举例+加法运算=A5+B3-减法运算=66-B3*乘法运算=D3*50/除法运算=D6/C3%百分号百分号=40%乘方运算乘方运算
7、=33比较运算符:用于比较两个值,结果为逻辑值比较运算符:用于比较两个值,结果为逻辑值TRUETRUE或或FALSEFALSE运算符描述举例值=等于=B6=团员 不等于=B210 小与=60大于=6635TRUETRUE(真)(真)=小于等于=B2=大于等于=B2=100:可以连接一个或多个文本字符串,生成可以连接一个或多个文本字符串,生成一段文本。一段文本。函数:是预定义的公式,通过使用参数按特定顺序或结构进行计算。,或。记住要输入记住要输入“=”=”知识点三:数据图表呈现知识点三:数据图表呈现图表是用视觉形式视觉形式向人们展示数据的一种方法。通常依据数据间的关系依据数据间的关系选择相应的图
8、表类型。常见的图表类型图表类型有柱形图、折线图、饼图、雷达图、散点图、气泡图等。柱形图:柱形图:用于显示一段时间内的用于显示一段时间内的数据变化数据变化或显示或显示各项各项之间的比较情况之间的比较情况。折线图:折线图:可以显示可以显示随时间而变化随时间而变化的连续数据,非常适的连续数据,非常适用于显示在相等时间间隔下用于显示在相等时间间隔下。饼图:饼图:主要用于表示一个样本(或总体)中各组成部主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的分的数据占全部数据的比例比例。雷达图:雷达图:也称为网络图也称为网络图蜘蛛图蜘蛛图星图。星图。可以表示可以表示不同对象多个参数不同对象多个参数的
9、比较情况。的比较情况。也可以表示也可以表示单个对象多个参数单个对象多个参数的情况。的情况。散点图:散点图:一般研究一般研究2个变量个变量之间的之间的关系关系,图上的点在哪,图上的点在哪个位置,是由其个位置,是由其X值和值和Y值确定的,也叫值确定的,也叫XY散点图散点图。判断两变量之间是否存在判断两变量之间是否存在或总结坐标点的或总结坐标点的气泡图:气泡图:可用于展示可用于展示三个及以上变量三个及以上变量之间的之间的关系关系,它它与散点图类似。与散点图类似。使用使用ExcelExcel创建图表创建图表1.1.分析数据分析数据3.3.检查图表检查图表:是检测和修正错漏的数据、整合数据资源、规整数据格式、提高数据质量。数据缺失、数据重复、数据异常、逻辑错误、格式不一致等。公式以“=”开头,由常数、函数、单元格引用和运算符组成的式子(公式不仅用于计算,更重要的是构建计算模型)。1.1.分析数据;分析数据;2.2.创建图表(创建图表(););3.3.检查图表。检查图表。