1、5.1 走近数据分析难点重 点学 习 目 标5.1 走近数据分析(第一课时)繁忙的交通公共自行车案例一 某同学每天早上7:00乘坐27路车去学校,17:00左右回家,他觉得每天往返途中,公交车上并不拥挤。而妈妈每天8:00乘坐49路车出发,18:00下班,她总是抱怨乘车者太多,请尝试进行数据分析。课堂导入 学生可以提出多种假设,例如:(1)假设27路公交车7:00平均客流量小于49路公交车8:00平 均客流量、27路公交车17:00平均客流量小于49路公交车18:00平均客流量;(2)27路公交车平均客流量小于49路公交车;(3)27路公交车在上下班高峰期平均客流量小于49路公交车。案例一1、
2、数据分析 数据分析数据分析是指用恰当的统计分析方法对收集来的大量数据进行分析,提取有用信息,并形成结论的过程 数据分析的一般过程为根据分析的目标提出假设,然后收集有关数据,选用恰当的分析方法进行分析,验证假设是否正确,继而得出相应的结论。数据分析的基本方法有对比分析和平均分析。数据分析是指用恰当的统计分析方法对收集来的大量数据进行分析,提取有用信息,并形成结论的过程。数据分析提出假设收集数据验证假设得出结论选用恰当的数据分析方法进行分析2、对比分析 对比分析对比分析是指将两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律。对比分为横向对比和纵向对比。横
3、向对比横向对比指的是类似的事物或者同类的事物之间进行比较;纵向对比纵向对比指的是和相同事物的不同时期进行比较。3、平均分析 平均分析平均分析就是运用计算平均值的方法,来反映总体在一定时间、地点条件下某一数量特征的一般水平。平均分析和对比分析常结合使用。数据分析过程:步骤一:步骤一:依据活动1要求,提出假设:步骤二:步骤二:27路和49路公交线路的月平均分时段客流量如下表所示,表中“6”表示6:007:00,其他以此类推。请分析表中数据。参考答案:参考答案:学生的假设:(有多种)(1)假设27路公交车7:00平均客流量小于49路公交车8:00平均客流量、27路公交车17:00平均客流量小于49路
4、公交车18:00平均客流量;(2)27路公交车平均客流量小于49路公交车;(3)27路公交车在上下班高峰期平均客流量小于49路公交车。由于假设不同,结论也可能不同。例如:(1)27路公交车7:00平均客流量130人次小于49路公交车8:00平均客流量211人次、27路公交车17:00平均客流量120人次小于49路公交车18:00平均客流量123人次。假设成立。(2)27路公交车在6:00-19:00平均客流量小于49路公交车,因此假设不完全准确。如何界定上下班高峰期,假设中必须加以说明,然后才能得出相应结论。你的结论是:4、数据可视化表达 数据可视化表达数据可视化表达是以图形、图像和动画等方式
5、更加直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等的表达方式。图表是最常用的数据可视化表达方式之一。基本的图表类型有:柱形图、饼图和折线图,利用一般的表格加工软件即可绘制。基本的图表类型有:柱形图、饼图和折线图,利用一般的表格加工软件即可绘制。三种图形化表示的特点及表示如下:制作图表,分析两条公交线路的高峰期出现时间和特点(学生可分组讨论)图表的制作过程:选定表格的数据区域插入图表应用“图表向导”工具图表如下:结论:结论:两条线路的高峰期基本相同,分别在8:00-9:00和17:00-19:00。早高峰27路公交车平均客流量小于49路公交车;晚高峰两路公交车人次大致相当。柱
6、形图。主要用于数据间大小关系的比较。数据可视化表达此图反映了27路车在不同时间点客流量 折线图,主要用于反映事物的发展变化趋势。数据可视化表达此图反映了27、49路车在不同时间点客流量的对比情况 饼图,主要用于反映事物的比例关系。数据可视化表达此图反映了27、49路车在6点客流量的对比情况 数据可视化表达n 手机健康数据数据可视化表达5、数据分析报告 数据分析报告数据分析报告是项目研究结果的展示,也是数据分析结论的有效承载形式。通过报告不仅是把数据分析的起因、过程、结果及建议完整的展现出来,更为决策者提供科学、严谨的决策依据。在数据分析报告中,首先需要明确数据分析的目的和背景,阐述目前存在的问
7、题及通过分析希望解决的问题;其次需要描述数据来源和数据分析的思路、方法和模型;最后需要重点呈现数据分析的过程、结论和建议。学生以小组为单位上交一份调查报告。附:分析报告范例信息时代的社会生活中,每天都会产生大量的数据,这些数据也在改变着我们的生活。课外作业:气温与出行课外作业:气温与出行活动:气温和公交客流量的相关性活动描述:某同学感觉天气越冷,乘公交车的人越少。该同学选取了所乘公交线路连续8周周二的7:00-8:00时段的公交客流量和平均气温数据,见下表。请帮他进行分析,探讨气温和公交客流量是不是有一定的关联?周次周次气温(气温()客流量(人次)客流量(人次)1202032211993181
8、9241619151518661817471114288157气温和客流量数据表首先首先需要根据研究问题,初步确定自变量和因变量参考答案:然后然后绘制散点图,初步判断自变量和因变量是否存在线性相关关系,建立回归模型,并进行检验最终最终确定回归模型进行预测。图气温-客流量散点图在散点图中,气温是自变量,客流量是因变量,观察这些点的分布规律,仿佛围绕着一条直线上下波动,这条直线被称为趋势线。趋势线可以用回归方程y=ax+b描述。趋势方程的拟合程度常用判定系数来判断。判定系数R2取值范围是0,1。R2越接近于1,表明自变量和因变量之间相关性越强;R2越接近于0,表明两者之间几乎没有线性相关关系。5.
9、1 走近数据分析(第二课时)大 数 据 大数据:大数据:是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合,它正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析,从中发现新知识,创造新价值、提升新能力的新一代信息技术和服务业态。大数据的意义 意义:意义:我们有可能从如此庞大的数据中挖掘出有价值的数据,并运用于管理、农业、金融、医疗和教育等各个社会领域,为社会发展服务。大 数 据大数据分析的应用活动 公交车距离我多远体验一款实时公交软件,输入起点和终点,获取所需的公交方案,并了解公交车和你之间的距离并填写下表。(高德实时公交)高德实时公交)实 时 公 交 信 息
10、 查 询 软 件 使 用 体 验序号序号体验并思考问题结果1查看该软件为用户提供了哪些实用功能?2如果有条件,乘公交车出行时使用该软件,并回答以下问题:1.它所提供的公交车运行信息是否及时准确?2.它是否可以提供多种出行方案?3定位公交车位置信息需要哪些技术?它们各有什么优缺点?实时公交信息查询软件使用体验实时公交信息查询软件使用体验序号序号体验并思考问题体验并思考问题结果结果1查看该软件为用户提供了哪些实用功能?查看该软件为用户提供了哪些实用功能?路线、时间及距离查询路线、时间及距离查询2如果有条件,乘公交车出行时使用该软件,并回答如果有条件,乘公交车出行时使用该软件,并回答以下问题:以下问
11、题:1.它所提供的公交车运行信息是否及时准确?它所提供的公交车运行信息是否及时准确?2.它是否可以提供多种出行方案?它是否可以提供多种出行方案?基本准确基本准确可以提供多种出行方案可以提供多种出行方案3定位公交车位置信息需要哪些技术?它们各有什么定位公交车位置信息需要哪些技术?它们各有什么优缺点?优缺点?GPS/北斗定位技术、北斗定位技术、3G/4G通信技术、通信技术、GIS地理信息系地理信息系统技术统技术活动 公交车距离我多远体验一款实时公交软件,输入起点和终点,获取所需的公交方案,并了解公交车和你之间的距离并填写下表。(高德实时公交)高德实时公交)大数据分析的应用(软件界面)(公交查询)(
12、线路查询)(时间及距离查询)总结:总结:实时公交信息查询软件实时公交信息查询软件可以实时反馈公交车辆的运行信息,实时反馈公交车辆的运行信息,提升乘客的出行效率。提升乘客的出行效率。利用掌上公交、“等车来”软件可以查看相关公交信息。大数据分析的应用利用电子健康,对出行人员行踪进行监测、判断,若发生疫情,能快速锁定相关到过疫区人员,利用疫情大数据分析的应用 大数据分析带来价值的同时,也在隐私保护、安全问题等方面带来了危害。因此,合理健康地使用大数据,遵循“数据道德”是我们的必备品质。大数据分析的流程 因为大数据的量大到不能再使用常规的方法进行存储和处理,所以大数据分析和普通的数据分析也有所区别。存
13、储是分布的呀!“分布式”的存储为以后“分布式处理”做准备,“分布”是高效处理的前提,否则大数据处理怎么这么快。处理也是分布!在分析之前对数据进行规整化是处理阶段的重要工作。一切为了提高效率!大数据分析的方法有很多,统计分析和数据挖掘也是大数据分析。大数据采集分布式文件存储分布式数据库存储分布式处理分析大数据分析的一般流程可以表示为:案例分析:根据大数据发现人们的出行规律 在美国旧金山举行的KDD2016学术会议上,罗格斯大学的熊辉等学者向大家报告了他们的研究论文。论文指出,北京在2014年的前9个月就有350名扒手在地铁交通系统上被抓,490名扒手在公交车上被抓。因此,他们认为可以通过对北京智能公交一卡通数据进行分析研究,根据异常交通记录分析来抓小偷。如要实现这个功能,要调用哪些数据呢?同学们也可以上网搜索相关资料,了解大数据专家是如何分析的。案例来源于熊辉等学者提交的论文。论文中阐述了他收集乘客的公交一卡通数据记录,分析了896条地铁经过的44524个公交车站和18条地铁经过的320个地铁站的数据。从出行轨迹提取特征。例如正常行人在从A地区到B地区会考虑最短时间、距离,或者最少换乘,但是类似“A-C-D-B”这种无目的的异常交通方式为异常行为。如果异常行为足够多,则他可能是一名扒手。具体的算法和模型,可见论文详细描述。(有兴趣的同学,再继续研究)参考答案:Thank you