1、从 0 开 始 完 成 从 原 始 数 据 到 可 视 化 图 表 分 析 报 告 的 制 作 流 程XXX目 录CONTENT12345PROJECT BACKGROUNDDATA IMPORTDATA CLEANINGDATA ANALYTICSDATA VISUALPROJECT BACKGROUND项目介绍产生订单准备发货现场服务接收货物最终验收准备开票历史数据概览本月销售预测关键订单追踪核心客户分类某制造业大厂,在XX市场拥有上千的客户,每月会产生数以万计的订单,所有订单经历“发货-运输-接受-服务-验收”的流程,最终与客户的财务部门完成交易流程。目前业务部门能够从订单系统中定期导出
2、所有已完成和进行中单的流水清单,并希望从这些数据中获取有用的指导业务的数据。基础数据源订单编号SALES ID订单金额AMMOUNT订单编号COST大区创建日期CREATED完成日期COMPLETED预计完成日期ESTIMATE计划员产品类型订单状态客户订单类型销售人员货品状态关键指标-KPI|SALES AMMOUNT对所有订单的销售金额求和得到总金额。|COST AMMOUNT对所有订单的成本金额求和得到总金额。|SALES COUNT对所有订单的数量进行统计计数。|MARGIN总的销售额减去总成本的金额。|PROFITABILITY总利润相对于总销售额的百分比。|WORKING IN P
3、ROGRESS所有进行中订单的成本求和得到总金额。YTDYTD对今年年初到今天的订单进行统计计算对今年年初到今天的订单进行统计计算月视图按每月对订单进行分类及统计计算周视图按每周对订单进行分类及统计计算日视图按每日对订单进行分类及统计计算本月对本月的订单进行统计计算关注按照预设的条件对订单进行筛选,然后进行统计计算|STATISTICS ENVIRONMENT构建一个统计环境,指定左侧各种KPI的在哪个订单范围内计算。从数据到图表数据无处不在,并以各种方式存储在各个不同的位置,需要针对性的进行读取。常见的存储格式包括:Excel、数据库,网页、TXT等。数据导入原始数据经常不是数据分析所需要的
4、格式进行存储。因此导入数据之后需要对数据进一步处理,得到利于分析的结构化一维数据。当数据来源于不同的途径时,非常有必要将不同的数据源以关键字的方式进行配对。基于关系模型的计算是数据分析的核心基础根据实际的需要,将数据进行各种的分类、聚合、统计等。将结果以适合的图或表来进行可视化展示。数据清洗加工建立关系模型展示分析结果最终报告效果展示BI工具介绍财富500强公司使用种语言支持数据中心部署全球客户遍布全球社区成员BI工具介绍 历史Power Pivot作为插件可以加入Excel2013版本使用PowerBI作为一款独立的产品发布Excel2016及之后的版本自带PQ和PP组件支持智能日期函数,在
5、涉及到日期的相关计算中带来极大便利支持书签导航,将数据报告以更完美地形式来展现支持参数字段,可以根据需要更加动态展示数据支持矩阵进行数据展示,可以用以构建复杂的报表支持计算组,可以极大节省度量值地书写云端支持增量刷新,可以极大地节约数据刷新时间BI工具介绍 优势实用性复用性美观难度灵活性BI工具1实用性复用性美观难度灵活性BI工具2实用性复用性美观难度灵活性BI工具3BI工具介绍 现状78%37%45%63%BI工具1BI工具2BI工具3BI工具4BI工具介绍 竞争力支持多种多样的数据源存储在本地或网络上的各种文件,包括Excel,TXT,CSV,PDF等市面上几乎所有主流的数据库读取;网页、
6、流、API等特殊途径的数据读取;数据处理自动化PQ擅长对原始数据进行格式化处理。PP擅长对数据进行统计计算,得出分析结果。PV擅长数据可视化处理过程已经确定就无需更改,当数据源更新时,分析结果随之更新。高效的处理性能即使是面对百万级甚至千万级的数据量,并且需要进行动态的计算处理时,BI工具依然可以表现的非常出色。同时它拥有强大的云计算能力,在你需要将分析结果共享给其他人时获得不次于本地操作的分析体验。BI工具介绍 应用场景可以帮助客户获取外部,本地的各种财务数据,利用可视化工具,完善客户对财务状况的分析。客户可以监控并分析当前的市场状况,从而将营销资源投入到更有效的渠道上管理公司的各种销售渠道
7、,用户只需要通过仪表盘就能查看相关数据帮客户收集和监测所有重要数据,帮助用户追踪合规性、人员编制和其他信息用户可以创建各种仪表盘,从而监控来自数据库的各种服务数据。能够监测来自Excel、云服务、数据库等多种来源的数据,并为用户的产品、绩效等发现新的可能DATA IMPORT从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据从单个Excel中的单独
8、一个工作表中导入数据课前预习从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据半结构化数据网页种常用的XML,JSON等数据格式,虽然没有规整的格式,但是符合固定的规律,可通过键值进行查询非结构化数据例如文本存储的内容,没有规律或者说没有统一的规律。统一、规整的数据通常以行和列的形式组成标准表结构在数据库中存储的数据必须是结构化数据在数据分析种,对
9、于结构化数据的统计已经用有大量的案例以及多种多样的分析方法和分析模型逆透视课前预习从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据表中的每一行都是一条独立的记录,除了关键数据(可以是多个)外,其它都是纬度信息每一列中所有的数据都是相同属性/维度/格式的值在每一行中,任意两列中都没有同一纬度的值Power BI需要一维表存储的数据,用于后续的分析和
10、计算表中的行由一个或维度列组成表头表中的列是另外一个维度的值组成表头行和列所有维度的交叉处是具体的值Excel中需要借助二维表的数据来进行绘图透视QuestionAnswer从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据开始挑战我的数据存储在电脑上的Excel文件中,可以用Power Query来读取吗?1.1.11.1.1从Power BI
11、Desktop和Excel中都可以快速打开PQ编辑器PQ的数据源中直接提供了对Excel文件的导入支持PQ的导航器会帮助选择需要导入的文件和工作表PQ支持非常多的数据转换操作,大部分步骤都可以通过鼠标点击实现每一步操作背后实质上都是在调用M函数从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据操作视频演示答案解析:问题描述:从Excel导入数据从一
12、个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据课后习题Excel格式文件二进制数据数据表数字和文字此函数读取的是一个二进制的数据,对于这个数据应该怎样转换成能够识别的内容,取决于文件的类型。例如,可以用Excel.workbook()这个函数对Excel文件产生的二进制的数据进行解析。如果是别的类型文件,那么就会识别出错。在PowerBI中,支持多种数据源的导入,其中
13、,本地文件读取所采用的M函数是File.Content(),现在已经通过此函数读取了一个Excel文件,对于PowerBI来说,这个读取的内容是()从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据在PQ中执行的任何操作步骤,本质上都是通过调用对应的一个或多个M函数来完成数据的转化。常规的数据类型包括:文本、数字、逻辑日期、时间、二进制等。此外PQ
14、还有:列表、记录和表三种结构化数据类型“let”表达式封装一组要计算、分配名称的值,然后在“in”语句后面的后续表达式中使用。从指定的路径,将文件读取为二进制数据。二进制数据是必须要进行正确的解析才能转换成能够识别的信息。将Excel文件所对应的二进制数据简析为能够识别的数据内容。不同类型的文件有不同的解析函数来进行数据转换。在PQ中,标题也叫字段,如果需要读取列的值,必须通过对应的字段名称来进行。重点 难点 小结小结恭喜通过关卡从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理
15、不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据开始挑战QuestionAnswer我修改了工作表名称之后,在PQ中刷新数据时提示出现错误,应该怎么办?1.1.21.1.2默认情况下,PQ从Excel表中取数据时使用工作表名作为关键字来进行搜索当工作表名修改后,PQ搜索不到原来的表名就会报错如果表名经常会变,那么可以观察需要导入的表是不是始终固定在某个位置,例如第一页的位置,这种情况下,就可以采用序号读取的方式来读取指定工作表数据PQ中表中的某一列实际上是一个列表,因此用 n 就能够方便进行读取。需要注意的时
16、,PQ中的顺序是从0开始的。从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据课前预习|PIVOT从一维表的形式转换为多维表称为“透视”一维表中维度列中的值,根据需要转变为多维表中的行表头和列表头,在行列交叉的位置即对应一维表中所对应的维度值的行(如果筛选后不止一行,则需要使用聚合函数)透视经常会导致一部分数据信息的丢失。|UNPIVOT从多维表的
17、形式转换为一维表称为“逆透视”多维表中行表头不变动,但是其中的每一行都会根据列表头的列数转变为新表中的多行,新表中会新增维度列对应原表中的列表头,新增数据列对应原行列表头交叉格的值。逆透视之后得到的表,它的信息容量跟原表是完全一致的。从Excel导入数据从一个Excel中的一个工作表导入按工作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据课前预习从Excel导入数据从一个Excel中的一个工作表导入按工
18、作表名称导入数据按工作表顺序导入数据通过行列筛选剔除无效信息通过超级表剔除无效信息不规范数据表合并单元格处理不规范数据表标题、小计的处理规范二维表数据导入和转换复杂多维表数据导入和转换单个Excel文件多工作表汇总多个Excel文件中汇总数据|AGGREGATION平均值AVERAGE对一组值,取它们的算术平均值最大值MAX对一组值,取它们的最大值最小值MIN对一组值,取它们的最小值求和SUM对一组值,求它们的和计数COUNT对一组值,取它们的数量不重复计数DISTINCTCOUNT对一组值,去掉所有的重复值后,取它们的数量在对表进行透视时,经常性会遇到的一个情况就是在行和列的交叉单元格所对应
19、的值不止一个。为了解决这个冲突,就需要选择一个值来对多个值进行描述,这种选择没有固定的要求,需要根据实际的需要来正确的选择。这个过程叫做聚合。DATA CLEANING对数据加工处理非结构化数据处理Excel问卷表汇总Word问卷表汇总网页问卷表汇总纯文字数据处理电子设备导出数据表处理纯信息表建立日历表建立信息扩展需求描述QuestionAnswer我现在手上有上千张存储在Excel中的信息采集表,现在需要根据这些信息采集表来做一些数据分析,应该如何进行?3.1.13.1.1对数据加工处理非结构化数据处理Excel问卷表汇总Word问卷表汇总网页问卷表汇总纯文字数据处理电子设备导出数据表处理纯
20、信息表建立日历表建立信息扩展思路详细解析根据实际的需要设计标准化的采集表格用表格密码和有效性验证来保证信息的规范录入收集所有现场填写完毕的信息表格务必保证所有采集表的结构完全一致只保留包含信息表内容的列每一行刚好对应一张信息表在PQ中导入存储数据的文件或文件夹进入任意一个采集表记录关键信息所在的索引位置回到原来的表中为所有的关键信息新建列也可以直接在一列中构建包含所有关键信息的“记录”根据需要修改数据类型进入后续的数据分析环节删除原始记录列将构建好的记录展开到表中的新列中对数据加工处理非结构化数据处理Excel问卷表汇总Word问卷表汇总网页问卷表汇总纯文字数据处理电子设备导出数据表处理纯信息
21、表建立日历表建立信息扩展课前预习|RECORD“记录”是一组字段,用一对 包含起来的形式。“字段”是名称/值对,其中名称是在字段的记录中唯一的文本值。记录值的语法允许将名称写成不带引号的形式,这种形式也称为“标识符”。|IDENTIFY 个人信息表姓名:张三性别:男年龄:35职务:经理姓名 =“张三”,性别 =“男”,年龄 =35,职务 =“经理”两种形式:姓名 =“张三”#“姓名”=“张三”|VALUE 采用 RecordItem的形式来获取需要得到的值。例如:使用“记录A姓名”可以得到某一个员工表中某人的姓名,其它属性类似。|EXAMPLE 重点 难点 小结小结对数据加工处理非结构化数据处
22、理Excel问卷表汇总Word问卷表汇总网页问卷表汇总纯文字数据处理电子设备导出数据表处理纯信息表建立日历表建立信息扩展|FILTER 在存在大量文件和工作表时,如何挑选出所需要的内容。事先定好统一的规则是比较好的做法。如果确实找不到统一的规律,手动删除不需要的工作表页也是有效的方法。|FORMATION 所收集的数据信息格式不统一,必须进行数据清洗后才能做后续的分析。所以在设计采集表时,1.尽可能用选项来替代开放性的输入;2.使用数据有效性来限制输入的内容。|EXPAND 记录是PQ中一种结构化的数据,因此它也可以作为一个值存在于表格中的某一列。当表格中的某一列内容是记录时,可以在同一行内进
23、行列扩展,字段名自动变为新列的字段名,字段的值则会自动变为新列中在这一行的值。DATA VISUAL目标进度报表数据可视化历史数据YTD每月数据每日数据本月数据预测重点订单追踪核心客户分类12011015013017015190100200300400500600700800周一周二周三周四周五周六周日每日销售值日累加值目标累加目标值本周目标值本周完成值完成率本周销售数据产品销量对比报表数据可视化历史数据YTD每月数据每日数据本月数据预测重点订单追踪核心客户分类明星产品潜力产品一般产品653254947231ABCDEF产品销售数据立 即 动 手 完 成 自 己 的 数 据 分 析 报 告谢谢观看