5.3 数据的分析 ppt课件+视频-2023新粤教版(2019)《高中信息技术》必修第一册.rar

相关 举报
  • 5.3 数据的分析 ppt课件+视频_2023新粤教版(2019)《高中信息技术》必修第一册
    • 视频
      • KMeans聚类原理 动画演示 - .mp4
      • 什么是 K-Means(K均值聚类)?.mp4
    • 5.3 数据的分析1.0.pptx--点击预览

文件预览区

资源描述
BIG DATABIG DATA5.3 数据的分析第 五 章S H U J U D E C A I J IS H U J U D E C A I J I”授课人:XXX知识回顾新授处理数据的一般过程:数据采集数据分析数据可视化表达新授处理数据的一般过程:数据采集数据分析数据可视化表达特征探索关联分析聚类分析数据分类运用数字化工具和技术探索数据内在的结构和规律诊断过去、预测未来什么是数据分析数据分析:数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。什么是数据分析数据分析:数据分析就是在一大批杂乱无章的数据中,运用数字化工具和技术,探索数据内在的结构和规律,构建数学模型,并进行可视化表达,通过验证将模型转化为知识,为诊断过去、预测未来发挥作用。运用数字化工具和技术探索数据内在的结构和规律诊断过去、预测未来ONEONE特征探索01对数据进行预处理发现和处理缺失值、异常数据特征探索数据特征探索:主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。特征探索数据特征探索:主要任务是对数据进行预处理,发现和处理缺失值、异常数据,绘制直方图,观察分析数据的分布特征,求最大值、最小值、极差等描述性统计量。对数据进行预处理发现和处理缺失值、异常数据补全特征探索学号体温()00136.900200337.300447.600537.2缺失异常请观察表格,其中的数据存在哪些问题?需要做哪些处理?修正特征探索学号体温()00136.900200337.300447.600537.2缺失异常请观察表格,其中的数据存在哪些问题?需要做哪些处理?补全特征探索学号体温()00136.900200337.300447.600537.2缺失异常请观察表格,其中的数据存在哪些问题?需要做哪些处理?补全修正特征探索学号体温()00136.900200337.300400537.2请观察表格,其中的数据存在哪些问题?需要做哪些处理?37.137.1取平均值特征探索散点图发现异常值观察数据的分布情况特征探索直方图观察数据的分布特征特征探索特征探索的步骤:数据清洗绘制散点图计算数据分布特征绘制直方图处理缺失值处理异常值TWOTWO关联分析02发现数据之间的关联性同时出现的规律关联分析关联分析:就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。关联分析关联分析:就是分析并发现存在于大量数据之间的关联性或相关性,从而描述一个事物中某些属性同时出现的规律和模式。发现数据之间的关联性事物同时出现的规律对数据进行预处理发现和处理缺失值、异常数据关联分析典型应用:购物篮分析指导商品摆放01制定促销策略02寻找潜在用户03对数据进行预处理发现和处理缺失值、异常数据关联分析例:尿布与啤酒对数据进行预处理发现和处理缺失值、异常数据关联分析如何进行关联分析?序号商品1可乐,鸡蛋,火腿2可乐,尿布,啤酒3可乐,尿布,啤酒,火腿4尿布,啤酒对数据进行预处理发现和处理缺失值、异常数据关联分析步骤一:扫描数据,建立项集,统计频率次数序号商品1可乐,鸡蛋,火腿2可乐,尿布,啤酒3可乐,尿布,啤酒,火腿4尿布,啤酒C1项集出现频率次数可乐鸡蛋火腿尿布啤酒31233关联分析步骤二:计算各个集合的支持度序号商品1可乐,鸡蛋,火腿2可乐,尿布,啤酒3可乐,尿布,啤酒,火腿4尿布,啤酒C1项集出现频率次数支持度可乐3鸡蛋1火腿2尿布3啤酒33/4=0.751/4=0.252/4=0.53/4=0.753/4=0.75关联分析步骤三:设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L1C1项集出现频率次数支持度可乐30.75鸡蛋10.25火腿20.5尿布30.75啤酒30.75频繁项集L1可乐火腿尿布啤酒关联分析步骤四:将L1中的数据两两拼接,先形成候选项集C2,再形成频繁项集L2频繁项集L1可乐火腿尿布啤酒候选项集C2支持度可乐,火腿2/4=0.5可乐,尿布2/4=0.5可乐,啤酒2/4=0.5火腿,尿布1/4=0.25火腿,啤酒1/4=0.25尿布,啤酒3/4=0.75频繁项集L2可乐,火腿可乐,尿布可乐,啤酒尿布,啤酒关联分析步骤五:重复前面的步骤,继续将数据进行拼接,直到形成最终频繁项集频繁项集L2可乐,火腿可乐,尿布可乐,啤酒尿布,啤酒候选项集C3支持度可乐,火腿,尿布 1/4=0.25可乐,火腿,啤酒 1/4=0.25可乐,尿布,啤酒2/4=0.5频繁项集L3可乐,尿布,啤酒关联分析主要步骤:1.扫描数据,建立项集,统计频率次数2.计算各个集合的支持度3.设置最小支持度=0.4,筛选出支持度不小于最小支持度的数据项,形成频繁项集L14.将L1中的数据两两拼接,先形成候选项集C2,再形成频繁项集L25.重复前面的步骤,继续将数据进行拼接,直到形成最终频繁项集6.计算最终频繁项集中所含物品之间的置信度,过滤掉小于最小置信度的项集7.根据步骤6的结果生成关联规则THREETHREE聚类分析03聚类分析聚类:利用事物(样本)之间的相似性,将相似的事物(样本)划分为一簇(组)。距离相似性角度相似性聚类分析聚类分析:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。不必事先给出一个分类的标准聚类分析聚类分析:是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。不必事先给出一个分类的标准聚类分析经典聚类分析方法:K-平均算法(K-means算法)问题:1.怎样选择初始的K个中心点?2.怎么判断其余的数据点属于哪一类?聚类分析观看视频,了解K-平均算法(K-means算法)聚类分析问题:1.怎样选择初始的K个中心点?2.怎么判断其余的数据点属于哪一类?随机选择依次判断数据点与K个中心点的距离,选择离得最近的中心点作为同类聚类分析聚类分析的基本算法聚类分析聚类分析的基本算法:1.从数据点集合中随机选择K个点作为初始的聚集中心。2.对其余的每个数据点,依次判断其与K个中心点的距离,距离最近的表明它属于这项聚类。3.重新计算新的聚族集合的平均值即中心点。整个过程不断迭代计算,直到达到预先设定的造代次数或中心点不再顿繁波动。FOURFOUR数据分类04要先训练构建分类函数或者分类模型数据分类数据分类:数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。数据分类数据分类:数据分析处理中最基本的方法。数据分类通常的做法是,基于样本数据先训练构建分类函数或者分类模型(也称为分类器),该分类器具有将待分类数据项映射到某一特点类别的功能。要先训练构建分类函数或者分类模型课堂小结课堂练习1.大数据()能从规模巨大的数据中,分析并提取出有潜在价值的信息。A.采集技术 B.分析与挖掘技术 C.预处理技术 D.可视化与应用技术B.分析与挖掘技术 B课堂练习2.对疫情数据分析之前,一般要先对数据进行预处理,以下不属于预处理的是()。A补全缺失数据 B处理异常数据 C校正错误数据 D处理数据关系D处理数据关系D课堂练习3.某超市曾经研究销售数据,发现购买方便面的顾客购买火腿肠、卤蛋等商品的概率很大,进而调整商品摆放位置。这种数据分析方法是()A.聚类分析 B.分类分析 C.关联分析 D.回归分析C.关联分析 C课堂练习4.K-平均算法是一种经典的()算法。A.关联分析 B.数据分类 C.聚类分析 D.数据可视化C.聚类分析C课堂练习5.数据聚类分析的主要任务是()A.对数据进行预处理,发现和处理缺失值,是常数据、绘制直方图,观察数据分布的特征,求最大值,最小值、极差等描述性统计量B.分析发现存在于大量数据之间的关联性和相关性,从而描述一个事物的共同规律和模式。C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。D.是数据分析中最基本的方法,先基于样本数据构建分类器,然后进行预测。C.是一种探索性的分析。不必事先给出一个分类标准,而是让其自动分类。CBIG DATABIG DATA那就下次再聊吧第五章授课人:XXX
展开阅读全文
相关搜索
资源标签
版权提示 | 免责声明

1,本文(5.3 数据的分析 ppt课件+视频-2023新粤教版(2019)《高中信息技术》必修第一册.rar)为本站会员(Q123)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


当前位置:首页 > 高中 > 信息 > 粤教版(2019) > 必修1 数据与计算


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|