1、2019粤教版信息技术必修一 数据与计算 5.1认识大数据 5.2数据的采集 5.35.3数据的分析数据的分析 5.4数据的可视化表达 第五章 数据处理和可视化表达 5.3.15.3.1特征探索特征探索 5.3.25.3.2关联分析关联分析 5.3.35.3.3聚类分析聚类分析 5.3.45.3.4数据分类数据分类 5.35.3数据的分析数据的分析 数据分析 数据分析就是在一堆杂乱无章的数据中,运用数字 化工具和技术,探索数据内在的结构和规律,构建 数学模型,并进行可视化表达,通过验证将模型转 化为知识,为诊断过去,预测未来发挥作用。 数据分析 特征探索关联分析 聚类与分 类 建立模型模型评价
2、 特征探索特征探索 特征探索 数据特征探索的主要任务是对数据进行数据特征探索的主要任务是对数据进行 预处理,发现和处理缺失值、异常数据,预处理,发现和处理缺失值、异常数据, 绘制直方图,观察分析数据的分布特征,绘制直方图,观察分析数据的分布特征, 求最大值、最小值、极差等描述性统计求最大值、最小值、极差等描述性统计 量。量。 关联分析 关联分析就是分析并发现存在于大量数关联分析就是分析并发现存在于大量数 据之间的关联性或相关性,从而描述一据之间的关联性或相关性,从而描述一 个事物中某些属性同时出现的规律和模个事物中某些属性同时出现的规律和模 式。式。 关联性分析的基本算法 (1)扫描历史数据,
3、并对每项数据进行频率次数 统计。 (2)构建候选项集C1,并计算其支持度,即数据 出现频率次数与总数的比。 (3)对候选项集的支持度进行筛选,筛选的数据 项支持度应当不小于最小支持度, 从而形成频繁 项集L1。 (4)对频繁项集L2进行连接生成候选项集C2,重 复上述步骤,最终形成频繁K项集或 者最大频繁 项集。 聚类分析聚类分析 聚类分析 聚类分析是一种探索性的分析,在分类聚类分析是一种探索性的分析,在分类 的过程中,人们不必事先给出一个分类的过程中,人们不必事先给出一个分类 的标准,聚类分析能够从样本数据出发,的标准,聚类分析能够从样本数据出发, 自动进行分类。自动进行分类。 K-平均算法
4、 基本思想就是在空间N个点中,初始选择K个点作为 中心聚类点,然后将N个点分别与K个点计算距离, 选择自己最近的点作为自己的中心点,再不断更新 中心聚集点,以达到“物以类聚,人以群分”的效 果。 聚类分析的基本算法 (1)从数据点集合中随机选择K个点作为初始的聚 集中心,每个中心点代表着每个聚集中心的平均值。 (2)对其余的每个数据点,依次判断其与K个中心 点的距离,距离最近的表明它属于这项聚类。 (3)重新计算新的聚簇集合的平均值即中心点。 整个过程不断迭代计算,直到达到预先设定的迭代 次数或中心点不再频繁波动。 数据分类数据分类 数据分类 数据分类是数据分析处理中最基本的方法。 数据分类通
5、常的做法是,基于样本数据先训练 构建分类函数或者分类模型(也称为分类器), 该分类器具有将待分类数据项映射到某一特点 类别的功能。数据分类和回归分析都可用于预 测,预测是指从基于样本数据记录,根据分类 准则自动给出对未知数据的推广描述,从而实 现对未知数据进行预测。 贝叶斯分类技术 贝叶斯分类技术通过对已分类的样本子集进行训练, 学习归纳出分类函数(对离散变量的预测称作分类, 对连续变量的分类称为回归),利用训练得到的分 类器实现对未分类数据的分类。 练习 选择题 1.下面关于关联分析的基本算法错误的是( ) A.扫描历史数据,并对每项数据进行频率次数统计。 B.构建候选项集C1,并计算其支持度,即数据出现 频率次数与总数的比。 C.对候选项集的支持度进行筛选,筛选的数据项支 持度应当小于最小支持度, 从而形成频繁项集L1。 D.对频繁项集L2进行连接生成候选项集C2,重复上 述步骤,最终形成频繁K项集或 者最大频繁项集。 2.数据分析的方法不包括() A.线性分析 B.关联分析 C.聚类分析 D.数据分类