1、5.1 走进数据分析 第5单元 数据分析与人工智能学学 习习 目目 标标重点)重点)数据分析是指用恰当的统计分析方法对收集来的数据进行计算、处理,从而得出有意义的结论的技术。数据分析数据分析 任务一 体验公交出行活动1 分析公交高峰期 小明每天乘坐公交车往返于家和学校之间。他早晨7:00乘坐27路车去学校,17:00左右放学回家。他觉得每天往返途中,公交车上并不拥挤。而妈妈8:00乘坐49路出发,18:00下班,她却总是抱怨乘车者太多。请尝试进行数据分析。平均分析平均分析 数据分析应用对象应用对象:现状分析、原因分析和预测分析。数据分析的过程过程:首先要根据分析的目标提出假设,然后选择恰当的分
2、析方法进行分析,验证假设是否正确,继而得出相应的结论。数据分析的方法方法:对比分析、平均分析等。对比分析是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律。对比分为横向对比和纵向对比。横向对比指的是类似的事物或者同类的事物之间进行比较;纵向对比指的是和相同事物的不同时期进行比较。对比分析对比分析平均分析平均分析 平均分析就是运用计算平均值的方法,来反映总体在一定时间、地点条件下某一数量特征的一般水平。平均分析和对比分析常结合使用,例如比较不同线路的平均客流量。以图形、图像和动画等方式更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和
3、规律等的表达方式称为数据可视化表达。shu ju ke shi hua biao da数据可视化表达数据可视化表达i 图表是最常用的数据可视化表达方式之一。基本的图表类型有:柱形图、饼图和折线图,利用一般的表格加工软件即可绘制。常用图表制作方法:选定表格的数据区域插入图表应用“图表向导”工具,根据需要选择不同类型的图表。数据可视化表达数据可视化表达i 柱形图,此图反映了27路车在不同时间点客流量。主要用于数据间大小关系的比较。数据可视化表达数据可视化表达i 柱形图,此图反映了27、49路车在不同时间点客流量的对比情况主要用于反映事物的发展变化。数据可视化表达数据可视化表达i 柱形图,此图反映了
4、27、49路车在6点客流量的对比情况 主要用于比例关系。数据可视化表达数据可视化表达 xi 数据分析报告数据分析报告是项目研究结果的展示,也是数据分析结论的有效承载形式。通过报告不仅是把数据分析的起因、过程、结果及建议完整的展现出来,更为决策者提供科学、严谨的决策依据。在数据分析报告中,首先需要明确数据分析的目的和背景,阐述目前存在的问题及通过分析希望解决的问题;其次需要描述数据来源和数据分析的思路、方法和模型;最后需要重点呈现数据分析的过程、结论和建议。数据分析报告数据分析报告i大数据大数据 大数据:大数据:是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,它正快速发展为对数量
5、巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识,创造新价值、提升新能力的新一代信息技术和服务业态。意义:意义:我们有可能从如此庞大的数据中挖掘出有价值的数据,并运用于管理、农业、金融、医疗和教育等各个社会领域,为社会发展服务。大数据分析大数据分析的应用的应用 利用掌上公交、“等车来”软件可以查看相关公交信息。健康码除了报备个人健康外,主要是掌握一个人的行动轨迹。假如有人不幸被查出新冠肺炎,那么把这个人的健康码行动轨迹导出,通过系统后台数据库,把当天所有与这个人到过同一地方的人的健康码免费升级换个颜色,以便找到接触者进行隔离观察,这就是利用了大数据分析技术。大数据分析的大数据分析的流程流程 因为大数据的量大到不能再使用常规的方法进行存储和处理,所以大数据分析和普通的数据分析也有所区别。大数据分析的一般流程可以表示如下图拓展知识拓展知识 存储是分布的呀!“分布式”的存储为以后“分布式处理”做准备,“分布”是高效处理的前提,否则大数据处理怎么这么快。处理也是分布!在分析之前对数据进行规整化是处理阶段的重要工作。一切为了提高效率!大数据分析的方法有很多,统计分析和数据挖掘也是大数据分析。大数据采集分布式文件存储分布式数据库存储分布式处理分析拓展知识拓展知识