Python数据分析基础第1章数据分析概述课件.pptx

上传人(卖家):三亚风情 文档编号:3371777 上传时间:2022-08-24 格式:PPTX 页数:14 大小:431.38KB
下载 相关 举报
Python数据分析基础第1章数据分析概述课件.pptx_第1页
第1页 / 共14页
Python数据分析基础第1章数据分析概述课件.pptx_第2页
第2页 / 共14页
Python数据分析基础第1章数据分析概述课件.pptx_第3页
第3页 / 共14页
Python数据分析基础第1章数据分析概述课件.pptx_第4页
第4页 / 共14页
Python数据分析基础第1章数据分析概述课件.pptx_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、第1章 数据分析概述学习目标:学习目标:l 了解数据、数据类型的基本概念。l 了解数据分析的基本概念。l 了解数据分析的过程。l 了解数据分析的作用。l 了解数据分析的常用工具。所谓数据就是描述事物的符号,是对客观事物的性质、状态以及相互关系等进行记载的物理符号或者是这些物理符号的组合。在计算机系统中,各种文字、字母、数字符号的组合、图形、图像、视频、音频等统称为数据,数据经过加工后就成为信息。在现实生活中,数据无所不在,如天气预报、居民身份证号码、快递单和火车时刻表中就包含了大量的数据。人们就是通过数据来认识世界,交流信息。1.1.1 数据的概念 数据与信息是既有联系,又有区别。数据是信息的

2、表现形式和载体,而信息则是数据的内涵,信息是加载于数据之上,对数据作具体含义的解释。数据是符号,是物理性的,信息是对数据进行加工处理之后所得到的并对决策产生影响的数据,信息是数据有意义的表示。当信息转化为一组有助于更好地理解特定机制的规则时,信息就已经转化为知识,人们就可以利用这些知识来预测事件的演变。1.1.1 数据的概念 1.1.2 数据类型 数据可以分为两个不同的类别:类别型:定类和定序。数值型:离散和连续。类别型数据是指可以被分成不同组或类别的值或观察结果。有两种类别型数据:定类(nominal)和定序(ordinal)。数值型数据通过测量得到的数值或观察结果。有两种数值型数据:离散型

3、和连续型。1.2.1 数据分析的概念 数据分析是指用适当的统计分析方法对收集来的大量原始数据进行分析,为提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析的目的是抽取不易推断的信息,而一旦理解了这些信息,就能够对产生数据的系统的运行机制进行研究,从而对系统可能的响应和演变作出预测。数据分析最初用作数据保护,现已发展成为数据建模的方法论。模型实际上是指将所研究的系统转化成数学形式,一旦建立了数学或逻辑模型,对系统的响应能做出不同精度的预测。1.2.2 数据分析的过程数据分析可以概括为下面几个阶段:1.问题定义2.数据采集3.数据预处理4.数据探索5.数据可视化6.预测模型7.评

4、估模型8.部署解决方案1.2.2 数据分析的过程1.问题定义 在数据分析前,首先需要明确数据分析目标,既本次数据分析要研究的主要问题和预期的分析目标等,这称为问题定义。2.数据采集 问题定义步骤完成后,在分析数据之前,首先要做的就是获取数据。数据的获取方式有以下几种:利用SQL语句直接从企业管理数据库中调取相关业务数据。到特定的网站上去下载一些科研机构、企业、政府开放的公开数据集。编写网页爬虫,去收集互联网上的数据。1.2.2 数据分析的过程3.数据预处理 数据预处理就是将数据采集所获得的原始数据,经过数据清洗和数据转换后,将原始数据转变为“干净”的数据。4.数据探索 探索数据的本质是从图形或

5、统计数字中搜寻数据,以发现数据中的模式、联系和关系。5.数据可视化 数据可视化是获得信息的最佳方式之一。通过视觉化呈现数据的方式,不仅能快速抓住要点信息,而且,还可以揭示通过简单统计不能观察到的模式和结论。1.2.2 数据分析的过程6.预测模型 预测模型是指用于预测的,用数学语言或公式所描述的事物间的数量关系。模型主要有两个方面的用途。使用回归模型来预测系统所产生数据的值。使用分类模型或聚类模型为新数据分类。根据输出结果的类型,模型可分为以下三种。分类模型:模型输出结果为类别型。回归模型:模型输出结果为数值型。聚类模型:模型输出结果为描述型。1.2.2 数据分析的过程7.评估模型 模型评估阶段

6、也就是测试阶段,该阶段是从整个数据分析的初始数据集中抽取出一部分用作验证集,并用验证集去评估使用先前采集的数据所创建的模型是否有效。一般来说,用于建模的数据称为训练集,用于验证模型的数据称为验证集。8.部署解决方案 数据分析的最后一步是部署,旨在展示结果,也就是给出数据分析的结论,通常这个阶段也称为数据报告的撰写。数据报告的撰写应详细描述分析结果、决策部署、风险分析和商业影响评估。1.2.3 数据分析的作用 数据分析具有三大作用:第一:现状分析。所谓现状有两层含义,一层含义是指已经发生的事情,另一层含义是指现在所发生的事情。通过对企业的基础周报或月报分析,可了解企业的整体运营情况,发现企业经营

7、中的问题,明确企业的现状。第二:原因分析。如果通过现状分析,了解了企业存在着某种隐患,则需要去分析该隐患。了解该隐患为什么会存在?是如何产生的?第三:预测分析。在分析了现状,也分析了原因后,就需要进行预测分析。通过现在所掌握的数据,来预测未来发展的趋势等。1.2.4 数据分析的常用工具 目前主流的数据分析语言有Python、R、MATLAB这3种。表1-1从语言学习难易程度、使用场景、第三方支持、流行领域和软件成本5方面比较了Python、R、MATLAB这3种数据分析工具。本章小结 本章介绍了数据和数据分析的基本概念,重点介绍数据分析的过程,包括问题定义、数据采集、数据预处理、数据探索与数据可视化、预测模型、评估模型和部署等,以及数据分析的作用和数据分析的常用工具。谢谢!

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(Python数据分析基础第1章数据分析概述课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|