1、第五章第五章 数据处理与可视化表达数据处理与可视化表达 5.3数据的分析 课题数据的分析课时1 课时 教学目标 1、能够体验多种数据分析技术; 2、能够掌握选用恰当的工具处理数据; 3、能够掌握总结和归纳数据分析的方法和步骤; 重点与难点 重点:了解数据预处理及分析;体验多种数据分析技术。 难点:体验多种数据分析技术。 辅助手段多媒体,机房广播演示系统 教法学法讲授法、任务驱动法,小组合作法,自主探究法。 课前准备课代表同学负责班级分组(4-6 人一组)。 教学设计 创设情境 激趣导入 首先通过多媒体呈现问题:同学们,通过前面两节课的学习,我们了解了数 据,知道了数据的采集与保护,那么我们获取
2、的数据可以直接拿过来用吗? 激发大家的学习兴趣,进而引入本节课题-数据的分析。 任务驱动与 知识讲授 任务一:体验特征探索 以小组为单位,阅读课本 104-106 页,通过查找资料、学习和交流,填写下 表。 特征探索的定义 对数据进行预处理,发现和处理缺失值,异常数 据、绘制直方图,观察数据分布的特征,求最大 值、最小值、极差等描述性统计量。 小程序体验:数据预处理.py 修改“数据预处理.py”代码,对采集到的商品销售数据进行预处理,包括发 现和处理缺失值、处理异常数据、求最大值、最小值、极差、组距、绘制直 方图,观察数据的分布特征,以小组为单位,通过学习、交流,探究(课本 112-113
3、页内容) #异常值处理、画散点图(横轴:价格,纵轴:评论数)找到异常值 data2=data.T 任务驱动与 知识讲授 自主探究 price=data2.values2 comt=data2.values3 plt.xlabel(price)#显示 X 坐标标签 plt.ylabel(paynum)#显示 Y 坐标标签 pyl.plot(price,comt,o) pyl.show() #求最值 pricemax=da22.max() pricemin=da22.min() paynummax=da23.max() paynummin=da23.min() #极差 pricerg=pricem
4、ax-pricemin paynumrg=paynummax-paynummin #组距 pricedst=pricerg/13 paynumdst=paynumrg/13 #绘制价格直方图 #npy.arrange(最小,最大,组距) pricesty=npy.arange(pricemin,pricemax+1,pricedst) plt.xlabel(price)#显示 X 坐标标签 plt.ylabel(number)#显示 Y 坐标标签 pyl.hist(da22,pricesty) pyl.show() #绘制销量数直方图 paynumsty=npy.arange(paynummi
5、n,paynummax+1,paynumdst) plt.xlabel(paynum)#显示 X 坐标标签 plt.ylabel(number)#显示 Y 坐标标签 pyl.hist(da23,paynumsty) pyl.show() 任务二:体验关联分析 关联分析的定义分析发现存在于大量数据之间的关联性和相关 性,从而描述一个事物的共同规律和模式。 小程序体验: 运行关联分析.py”体验关联分析。 修改 关联分析.py”代码,对采集到的店铺销售订单数据进行关联分析,寻 找商品之间的关联性,观察关联分析结果,以小组为单位,通过学习、交流, 探究和实践, 任务三:体验聚类分析 以小组为单位,通
6、过学习和交流,填写下表。 聚类分析的定义 是一种探索性的分析。不必事先给出一个分类标 准,而是让其自动分类。 体验小程序: 修改 聚类分析.py”代码,对采集到的商品销售数据“data_sample.csv”进行聚 类分析,观察数据分析结果,以小组为单位,通过学习、交流,探究和实践。 from sklearn.cluster import KMeans #导入商品样本数据 fname=data_sample.csv dataf=pda.read_csv(fname,encoding=gbk) x=dataf.as_matrix() #聚类分析 kms=KMeans(n_clusters=3)
7、y=kms.fit_predict(x) print(y) 任务四:数据分类 数据分类 是数据分析中最基本的方法。先基于样本数据构 建分类器。然后进行预测。 运行数据分类.py”,体验数据分类。 通过修改或优化数据分类 py”代码, 对特征值 A 为 128.8,特征值 B 为 158,特征 值 C 为 4.7 的商品进行分类,观察该商品分类结果,以小组为单位,通过学 习、交流,探究和实践, 课堂练习 1、数据分析最基本的方法(B ) A 特征探索 B. 数据分类 C.聚类分析 D. 关联分析 2、下列有关数据分析说法错误的是(A ) A.特征探索的主要任务是发现大量数据间的关联性。 B.关联分析的主要任务是发现大量数据间的关联性 c. 聚类分析无需事先给出分类标准 D.数据分类是数据分析处理中最基本的方法。 课堂总结由学生总结归纳本节课所学知识,教师进行点拨。 板书设计 5.3 数据的分析 一、特征探索 二、关联分析 三、聚类分析 四、数据分类 课后作业完成测试题,下节课前由小组长批阅,课代表汇总。