1、 3.3 数据分析与可视化 教学目标掌握常用的数据分析方法,能根据需要选择恰当的方法进行数据分析。了解数据可视化的形式,能选用合适的工具进行数据可视化表达与呈现。通过项目研究,感受数据分析和可视化表达对日常生活的影响。体验探究你能读懂这些数据吗?为了解近年来我国水资源状况,访问国家统计局政府网站获得如P105图3.3.1所示的数据和图表。思考思考:1.利用该网站数据可视化功能,调整水资源数据指标和数据呈现方式,进一步分析不同类型图表所表达信息的异同。2.根据自己的需求,浏览网站栏目,了解相应的数据,并分析其中蕴含的信息。3.3.1数据分析 采集了所需要的数据,并对数据进行了组织和整理后,为了获
2、得有价值的信息,还需要对数据做进一步的分析。数据分析数据分析指用适当的计算方法与工具对收集来的数据进行用适当的计算方法与工具对收集来的数据进行处理处理,提取提取有用有用信息信息,形成形成结论从而支持决策结论从而支持决策。3.3.1数据分析 数据分析的作用数据分析的作用 了解事物的现状现状 通过数据分析,可以帮助我们更好地认识所调研事物的目前状况。例如,通过分析游客人数变化、旅游花费等数据,如图3.3.2所示,能够了解旅游业当前整体的发展状况,帮助旅游业经营者有针对性的调整经营策略,制订发展方案。3.3.1数据分析 数据分析的作用数据分析的作用 剖析事物的发展历程发展历程 通过数据分析,可以剖析
3、事物的发展历程,了解事物的过去,揭示某些现象产生的原因。例如,分析全国27个主要城市近50年来月平均降水量和降水天数,再对比相关城市航班正常率的数据,可以发现航班正常率的走向与月降水量和天数呈相反方向变化的趋势。对航空公司、空中交通管理措施和天气等各方面大量历史数据的分析研究,可以帮助管理者找到影响航班正常运行的干扰因素,从而选择最佳的应对措施。3.3.1数据分析 数据分析的作用数据分析的作用 预测事物的未来走向未来走向 通过数据分析,可以预测事物未来可能会发生什么,推断未来的发展趋势,并为制订相应的目标及策略提供依据。目前利用数据分析进行预测已经应用于各个领域,包括体育赛事预测、用户行为预测
4、、能源消耗预测、交通行为预测和人体健康预测等。例如,通过各个家庭安装的智能电表,对电力的使用状况进行监控,检测出用电模式,从而对用电需求做出预测。3.3.1数据分析 数据分析的基本方法数据分析的基本方法从统计应用上讲,数据分析可以分为描述性数据分析、探索性数据分析和验证性数据分析。描述性数据分析侧重于对数据的各种特征数据的各种特征进行分析,对变量之间的关系变量之间的关系进行估计和描述;探索性数据分析主要用于在数据之中发现新的特征新的特征;验证性数据分析侧重于验证已有假设的真伪验证已有假设的真伪。常用的数据分析方法有对比分析法对比分析法、平均分析法平均分析法和结构分析法结构分析法等。3.3.1数
5、据分析 数据分析的基本方法数据分析的基本方法 对比分析法 对比分析法也叫比较分析法,是将两个或两个以上两个或两个以上的数据进行比较,分析它们的差异,揭示出这些数据所反映的事物规律的方法,是一种常用的分析方法。对比分析法通常用于从数量上展示和说明研究对象规模大小、水平高低、速度快慢及各种关系是否协调等。例如,在商品生产中,已完成商品数量与目标数量的差距对比,本月生产的数量与上月生产数量的对比,同公司各部门间的对比等都是对比分析法的典型应用。3.3.1数据分析 数据分析的基本方法数据分析的基本方法 对比分析法对比分析法分为横向横向和纵向纵向对比两大类。任务完成量与目标量的对比,部门之间、地区之间的
6、对比都是横向对比,而不同时期的比较则为典型的纵向对比。3.3.1数据分析 数据分析的基本方法数据分析的基本方法 平均分析法平均分析法是运用计算平均数计算平均数的方法来反映总体在一定时间、地点等条件总体在一定时间、地点等条件下某一数量特征的一般水平下某一数量特征的一般水平。平均指标中最常用的是算术平均数算术平均数,如平均身高、平均工资和平均降水量等。3.3.1数据分析 数据分析的基本方法数据分析的基本方法 平均分析法平均分析法多用于比较同类现象在同类现象在不同地区、不同行业、不同类型单位不同地区、不同行业、不同类型单位等之间的差异程度,分析现象之间的依存关系,进行数量上的推算;也可以对某某一现象
7、在不同时间一现象在不同时间的水平进行比较,以说明现象的发展规律及趋势。3.3.1数据分析 数据分析的基本方法数据分析的基本方法 结构分析法结构分析法也称构成分析法,是将各个部分将各个部分与总体进行与总体进行对比对比,是分析事物内部的结构和部分与整体之间关系的方法。结构分析法的基本表现形式就是计算结构指标计算结构指标。结构指标即各个部分相对于总体所占的百分比,因此总体中各结构指标的总和等于100%。3.3.1数据分析 体验数据分析体验数据分析确定了数据分析方法后,我们还需要借助合适的工具合适的工具才能更快捷地进行数据分析。计算机普及前,数据分析主要依靠人工方式完成。随着计算机的广泛应用,涌现出很
8、多功能强大的数据分析工具,例如电子表格软件、在线数据分析平台和程序设计语言编写的程序等。3.3.1数据分析 体验数据分析体验数据分析 用电子表格软件电子表格软件进行数据分析 电子表格软件可对数据进行格式编辑、统计计算和图表处理等。在电子表格软件中通常用若干工作表存储数据。3.3.1数据分析 体验数据分析体验数据分析 用在线数据分析平台在线数据分析平台进行数据分析随着数据规模越来越大,应用范围越来越广,分析数据和挖掘数据价值的需求也越来越多,许多在线数据分析平台应运而生。这些平台集成了多种分析功能,提供了简单易用的交互界面,使得多种数据分析需求得以实现。3.3.1数据分析 体验数据分析体验数据分
9、析 用在线数据分析平台在线数据分析平台进行数据分析数据分析除了可以对数值型数据进行统计和描述以外,还可以对文本、图像等数据进行分析。常用的文本分析文本分析有字词频率统计、语句分词、句法分析、分类分析和情感分析等。3.3.1数据分析u 实践实践活动活动:使用在线数据分析平台分析全国供水情况使用在线数据分析平台分析全国供水情况登录国家统计局网站,查找全国供水数据,体验在线数据分析平台分析数据的过程和方法。思考:思考:1.注册账号并登录,熟悉国家统计局网站在线数据分析平台的使用方式;2.查找全国供水数据,根据平台的提示,尝试完成在线数据分析,查看并保存分析结果;3.分析该平台的数据分析功能,有哪些优
10、缺点。3.3.1数据分析 体验数据分析体验数据分析 使用编程工具编程工具进行数据分析除了使用现成的工具分析数据,也可以根据需要编写程序进行数据分析。例如,可以使用 Python语言编写程序对公共交通运营数据进行分析,找出不同线路的发展特点,针对线路的历史成本,分析线路发展的基本规律,从而找出有用的信息;还可以编写程序分析海量用户行为数据,从而了解用户的真实需求,为用户建立独有的行为档案,提供个性化服务。3.3.1数据分析 体验数据分析体验数据分析 使用编程工具编程工具进行数据分析例1:编写程序统计分析南水北调中线工程各地区水资源情况。问题:分析南水北调中线工程各地区水资源数据,有助于了解我国水
11、资源的分布情况。将采集并整理后的中线工程各地区水资源数据保存为“07-16nsbd.csv”文件,如图3.3.10所示。编写程序,计算中线工程各地区2007-2016年水资源总量的平均值,并将结果保存到CSV文件中。3.3.1数据分析 体验数据分析体验数据分析 使用编程工具编程工具进行数据分析例1:编写程序统计分析南水北调中线工程各地区水资源情况。(1)分析问题已知条件:已有中线工程各地区水资源数据文件“07-16nsbd.csv”,其中包含了2007-2016年相关地区水资源数据。求解目标:统计计算中线工程各地区2007-2016年水资源总量的平均值,将统计结果保存为CSV文件“nsbd_a
12、vg.csv”,并显示中线工程各地区十年来的平均水资源总量。3.3.1数据分析 体验数据分析体验数据分析 使用编程工具编程工具进行数据分析例1:编写程序统计分析南水北调中线工程各地区水资源情况。(1)分析问题已知与未知的关系:可以根据中线工程各地区水资源数据文件“07-16nsbd.csv”中的2007-2016年水资源数据,计算出各地区这十年水资源总量的平均值。3.3.1数据分析 体验数据分析体验数据分析 使用编程工具进行数据分析例1:编写程序统计分析南水北调中线工程各地区水资源情况。(2)规划问题求解流程首先导入用到的库,读入“07-16nsbd.csv”文件中的全部数据,然后统计各地区十
13、年水资源总量的平均值,生成一个数据表,并将统计结果写入CSV文件。3.3.1数据分析 体验数据分析体验数据分析 使用编程工具进行数据分析例1:编写程序统计分析南水北调中线工程各地区水资源情况。(3)编程实现与调试3.3.1数据分析u 实践实践活动活动:编写程序计算京津地区人均水资源量编写程序计算京津地区人均水资源量 中国水资源短缺,且时空分布不均,南方水多,北方水少。例如,黄淮海流域水资源严重短缺,人均水资源量约为全国平均水平的21%。请利用前面收集到的全国各地区水资源数播,计算京津地区人均水资源量是全国平均水平的百分之几。思考:思考:1.分析问题,写出已知条件和求解目标。2.设计算法并编程实
14、现。3.依据水资源数据,从某个角度分析实施南水北调工程的必要性。3.3.2数据可视化 数据数据可视化可视化是以图形、图像图形、图像和和动画动画等方式直观生动地呈现数据及数据分析结果,揭示数据之间的关系、趋势和规律等,便于人们更好地理解数据。可视化的作用体现在多个方面,如观察事物变化的趋势,揭示想法和关系,总结或汇聚数据,形成论点或意见等。3.3.2数据可视化 数据可视化的形式数据可视化的形式数据可视化的形式丰富多样,常见的有图表云等。例如,图3.3.15形象地展示了某公交线路的路线及客流情况。图中的蓝色线条显示了公交车行进的路线,右侧的柱形显示了各站点乘车的人数,折线图显示出客流随时间的变化情
15、况。3.3.2数据可视化u 实践实践活动活动:了解数据可视化了解数据可视化 了解各种数据可视化形式,体验数据可视化效果和魅力。思考:思考:1.访问国家统计局网站,了解数据可视化在国家数据统计分析领的应用(如图3.3.16所示),体验数据可视化效果。2.上网查找数据可视化的网站,熟悉各种数据可视化形式。3.举例说明数据可视化效果,填入表3.3.1中。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化图表是数据处理中常用的数据可视化形式之一。常用的图表包括折线图、折线图、柱形图饼图、散点图和雷达图柱形图饼图、散点图和雷达图等,各种图表呈现数据的形式各有特点,应该根据实际
16、需要选择不同的图表进行数据呈现。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化 折线图折线图:折线图可显示随时间而变化的连续数据,常用于分析相等时间隔下数据的发展趋势。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化 柱形图柱形图:通常用于显示一定范围内数据的变化情况或用于各项数据的比较。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表将数据可视化 饼图饼图:用于显示各部分数据在总数据中的大小和比例关系。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化 散点图散点图:用于表示若干数据系列中
17、各数值之间的关系,以便判断两个变量之间是否存在某种关联,适用于三维数据集,但其中只有两维需要比较。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化 雷达图雷达图:用来比较每个数据相对中心的数值变化,适用于多维数据的呈现,且每个维度可以排序。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化使用Python语言可以灵活地制作出以上图表,绘制时可以使用Matplotlib库库。该库是提供数据绘图功能的第三方扩展库,其子库主要用于实现各种数据图表的绘制。绘图时可使用import.matplotlib.pyplot as plt语句导入该库,在
18、后读的代码中,则用由代替plt代替pyplot。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化 例如,使用pyplo子库中的画图函数plot(x,y)可以绘制折线图,程序如下:3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化若将plot(x,y)修改为plot(x,y.o,则可给制出散点图(函数中的o表示的是点形标记符),程序运行效果如图所示:3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化例2:编写程序用图表可视化呈现南水北剥中线工程各地区水资源总量数据。问题:前面,我们已经计算出中线工程各地区水资源
19、总量的10年平均值,为便于直观地对比分析中线工程各地区水资源情况。雷编写程序绘制适当的图表进行呈现。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化例2:编写程序用图表可视化呈现南水北剥中线工程各地区水资源总量数据。(1)分析问题已有需要进行可视化的水资源数据,即供水区湖北省数据,受水区河南省、河北省、北京市和天律市数据,需制作图表呈现数据。为了便于对比各区域数据,选择用柱形图呈现。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化例2:编写程序用图表可视化呈现南水北剥中线工程各地区水资源总量数据。(2)规划问题求解流程 首先导入绘制图
20、表需要用到的Matplotlib库,然后从“nsbd_avg.csv”文件中读取数据,再绘制图表。设置图表标题和横、纵坐标轴,最后显示出柱形图。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化例2:编写程序用图表可视化呈现南水北剥中线工程各地区水资源总量数据。(3)编程实现与调试 3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化例2:编写程序用图表可视化呈现南水北剥中线工程各地区水资源总量数据。(3)编程实现与调试 3.3.2数据可视化 数据可视化的实现数据可视化的实现 用图表图表将数据可视化例2:编写程序用图表可视化呈现南水北剥中线
21、工程各地区水资源总量数据。(4)保存文件,调试运行程序 3.3.2数据可视化 数据可视化的实现数据可视化的实现 用词云词云将数据可视化词云是目前常用的关键词可视化关键词可视化形式,它能直接抽取文本中的关键词,并将其按照一定顺序和规律整齐美现地呈现在屏幕上。关键词是从文本的文字描述中提取的语义单元,可反映出文本内容的重点。用词云可视化文本数据可以帮助人们快速地了解文本的内容和特征等信息。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用词云词云将数据可视化词云通使用字体的大小和颜色字体的大小和颜色表示关键词关键词的重要程度或出现频次的重要程度或出现频次。图3.3.26是为50首唐诗制作的
22、词云,字越大表示该关键词使用频率越高。从图中可以看出,50首唐诗中使用频率比较高的词有长安、门前、子夜等。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用词云词云将数据可视化例3:编写程序制作词云。问题:2016年中国水资源公报中从水资源量、蓄水动态、水资源开发利用和水资源质量4个方面全面描述了我国2016年水资源的整体情况编写程序对(2016年中国水资源公报中的文字进行词分析,并生成词云。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用词云词云将数据可视化例3:编写程序制作词云。(1)分析问题已知条件:已有水资源公报文本文件“2016年中国水资源公报.txt“,制作词云需
23、要用到SciPy、wordcloud、jieba和Matplotlib等第三方扩展库;求解目标:为“2016年中国水资源公报.txt“文件制作词云;已知与未知的关系:利用第三方扩展库可以对已有的文本文件进行分词,生成并绘制词云。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用词云词云将数据可视化例3:编写程序制作词云。(2)规划问题求解流程首先导入用于制作词云的第三方扩展库,再读入报告的文本文件,然后进行分词,随后配置制作词云的各项参数,如字体、背景色和词云形状等,最后生成词云图片。3.3.2数据可视化 数据可视化的实现数据可视化的实现 用词云词云将数据可视化例3:编写程序制作词云。
24、(3)编程实现与调试 3.3.2数据可视化 数据可视化的实现数据可视化的实现 用词云词云将数据可视化例3:编写程序制作词云。(4)保存文件,调试运行程序 3.3.2数据可视化u 实践实践活动活动:编写程序为编写程序为新一代人工智能发展规划新一代人工智能发展规划制作词云制作词云人工智能的速发展将深刻改变人类的社会生活改变世界为把住人工智能发展的重大战略机遇。构筑我国人工智能发展的发优势加快建设创新型国和世界科技强国,2017年我国政府发布了新一代人工智能发展规为快速了解规划内容和重点,请写程序为其制作词云开对词云的形状和颜色进行创意设计。思考思考:1.分析问题,写出已知条件和求解目标。2.设计算法并编程实现。练习提升练习提升1.现有5名篮球队员的比赛数据,如表3.3.5所示。试分析比较他们在各项能力上的差异。思考:哪种图表形式适合呈现队员的数据,比较他们在各个能力维度上的强弱。2.案例分析:中国天气网对天气大数据进行分析研究我国多云天气对太阳能发电量的影响。报告部分内容如P124图3.3.28所示。该报告通过分析云量、日照时长等数据,发现北京等9地雨天气导致空中云量明呈增加,造成太阳能充伏发电量火幅下降。登录中国天气网查相关报告,思考以下问题填写表3.3.6。相关报告分析的数据有哪些。使用了哪种数据分析方法,采用该方法的原因?采用了哪些可视化形式呈现分析果,使用该形式的原因?