ImageVerifierCode 换一换
格式:PPTX , 页数:14 ,大小:7.26MB ,
文档编号:7671796      下载积分:15 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-7671796.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(momomo)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(《数据清洗基础与实践》课件第二章 数据格式类型与编码.pptx)为本站会员(momomo)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

《数据清洗基础与实践》课件第二章 数据格式类型与编码.pptx

1、数据格式类型与编码数据格式类型与编码主 讲:主 讲:X X XX X X目录C o n t e n t文件及文件格式文件及文件格式1归档与压缩归档与压缩2数据类型数据类型3字符编码字符编码4数据转换数据转换5常见的文件格式 文本是计算机保存数据的主要方式,文本有多种不同的格式,常见的文本格式有txt、doc、zip、jpg和HTML等。Windows操作系统下常见的文本格式:txt、doc、xls格式等。类(UNIX)操作系统下常见文本格式:dmg、tar格式等。网络文本格式:HTML、xml、php、jsp、css格式等。(1)JSON 和XML都是纯文本。(2)JSON和XML都具有“自我

2、描述性”。(3)XML和JSON都可以通过JavaScript进行解析。(4)XML有结束标签而JSON没有。(5)JSON传输一般比XML更短、速度更快。xls及xlsx文件格式 xlsx是Microsoft Office Excel 2007或者更新版本保存的文件格式,是用新的基于XML的压缩文件格式取代了其之前专有的文件格式。此文件格式在传统的文件扩展名后面添加了字母x(“.docx”取代“.doc”,“.xlsx”取代“.xls”),使文件占用系统的空间更小。xls格式的文件能用所有版本的Microsoft Excel打开。存储 存储成本下降JSON文件格式 JSON全称是JavaSc

3、ript Object Notation,即JavaScript对象标记,是一种轻量级的数据传输格式,常用于网络信息的传输。JSON基于 ECMAScript 规范,采用独立于编程语言的文本格式来存储和表示数据。JSON具有简洁和清晰的层次结构,是一种当下较为理想的数据传输语言。因为JSON易于阅读和编写,也易于机器解析和生成,因此能有效地提升网络传输效率,在现有的客户端和服务器数据交换传输中,JSON的应用非常广泛。如下所示,为JSON的举例:存储存储 存储成本下降HTML文件格式 HTML全称是HyperText Markup Language,即超文本标记语言,这里的“超文本”指的是页面

4、内可以包含图片、链接,甚至音乐、程序等非文字元素,HTML是标准通用标记语言下的一个应用。如下所示,为一个典型的HTML文件内容:XML文件格式 与JSON功能相同的另一种格式是XML,其全称是Extensible Markup Language,即可扩展标记语言,也是标准通用标记语言下的一个应用。XML 是各种应用程序之间进行数据传输最常用的工具。如下图所示,为一个典型的xml文件内容:XML和JSON格式的比较存储 存储成本下降JSON 和XML都是纯文本01JSON和XML都具有“自我描述性”02XML和JSON都可以通过JavaScript进行解析03JSON传输一般比XML更短、速度

5、更快05XML有结束标签而JSON没有04归档与压缩 (1)归档文件就是一个对内部包含了许多文件的独立文件的归档。在这些文件的内部可以包含文本文件或二进制文件,或者二者兼有。(2)终端窗口和命令行界面,比如Mac OS X上的Terminal程序或Linux上的bash程序。(3)适合程序员使用的编辑器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad+、Sublime编辑器等。(4)Python客户端程序,如Enthought Canopy。另外,还需要足够的权限来安装一些程序包文件。(5)电子表格程序,如Microsoft Exc

6、el和Google Spreadsheets。其可用于数据呈现和可视化,并且以恰当的方式展示数据分析和挖掘的结果。(6)数据库软件,如MySQL数据库和Microsoft Access等。数据类型 数据类型是一种数据结构,包括定义一个值的集合以及定义在这个值集上的一组操作。通常根据数据的特点将数据划分为不同的类型。按照计算机的存储特性,编程语言和数据库应用都会把数据划分为特定的几种类型:Java数据类型:Java的基础数据类型可分为4类8种,包含整型(byte、short、int、long)、浮点型(float、double)、逻辑型(boolean)以及符型(char)。具体内容如下:MYS

7、QL数据类型 1、数值类型:MySQL支持所有标准SQL数值数据类型。2、日期和时间类型:表示时间值的日期和时间类型有DATE、TIME、YEAR、DATATIME和TIMESTAMP。3、字符串类型:CHAR、VARCHAR、TEXT、ENUM和SET等。字符编码 1、字节、字符和字符集:字节(Byte)是计算机信息技术用于计量存储容量的一种单位,通常情况下一字节等于八位二进制位,同时也表示一些计算机编程语言中的数据类型。字符是指计算机中使用的字母、数字、字和符号。字符集(Character Set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字

8、符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。2、内码:内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的。3、编码与字符集:编码(Ecoding)和字符集不同,字符集只是字符的集合,不一定适合网络传送、处理,有时需要经过编码以后才能实现应用。4、空值和乱码:(1)空值:在数据库中,空值(NULL)用来表示实际值未知或无意义的情况 (2)乱码:乱码主要指用文本编辑器打开文本时,使用了不对应的字符集和编码,从而造成文本解码错误,导致文本的部分字符或所有字符无法被正确显示的情况

9、数据转换 1、电子表格转换:据信息一般使用专门软件处理,常见的有Excel、Access、MySQL和SQL Server。目前主要用的数据库是RDBMS,即关系型数据库管理系统(Relational Database Management System),它将数据组织为相关的行和列,而管理关系数据库的软件就是关系数据库管理系统,其具有数据以表格的形式出现、每行为各种记录名称、许多的行和列组成一张表单、若干的表单组成数据库等特点。2、RDBMS数据转换:常见的RDBMS有Oracle、MySQL、Access、SQL Server等。在日常业务中,可能存在数据规模的变化,出现数据库管理系统的变化,例如MySQL转换到Oracle数据库管理系统等.大多数据库管理系统均有数据的导入、导出工具,可以实现数据源到目标的转换。例如,SQL Server可以通过数据库客户端(SSMS)的界面工具实现数据库与Excel、数据库与数据库之间的相互转换。Thanks谢谢您的聆听!谢谢您的聆听!

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|