1、数据格式类型与编码数据格式类型与编码主 讲:主 讲:X X XX X X目录C o n t e n t文件及文件格式文件及文件格式1归档与压缩归档与压缩2数据类型数据类型3字符编码字符编码4数据转换数据转换5常见的文件格式 文本是计算机保存数据的主要方式,文本有多种不同的格式,常见的文本格式有txt、doc、zip、jpg和HTML等。Windows操作系统下常见的文本格式:txt、doc、xls格式等。类(UNIX)操作系统下常见文本格式:dmg、tar格式等。网络文本格式:HTML、xml、php、jsp、css格式等。(1)JSON 和XML都是纯文本。(2)JSON和XML都具有“自我
2、描述性”。(3)XML和JSON都可以通过JavaScript进行解析。(4)XML有结束标签而JSON没有。(5)JSON传输一般比XML更短、速度更快。xls及xlsx文件格式 xlsx是Microsoft Office Excel 2007或者更新版本保存的文件格式,是用新的基于XML的压缩文件格式取代了其之前专有的文件格式。此文件格式在传统的文件扩展名后面添加了字母x(“.docx”取代“.doc”,“.xlsx”取代“.xls”),使文件占用系统的空间更小。xls格式的文件能用所有版本的Microsoft Excel打开。存储 存储成本下降JSON文件格式 JSON全称是JavaSc
3、ript Object Notation,即JavaScript对象标记,是一种轻量级的数据传输格式,常用于网络信息的传输。JSON基于 ECMAScript 规范,采用独立于编程语言的文本格式来存储和表示数据。JSON具有简洁和清晰的层次结构,是一种当下较为理想的数据传输语言。因为JSON易于阅读和编写,也易于机器解析和生成,因此能有效地提升网络传输效率,在现有的客户端和服务器数据交换传输中,JSON的应用非常广泛。如下所示,为JSON的举例:存储存储 存储成本下降HTML文件格式 HTML全称是HyperText Markup Language,即超文本标记语言,这里的“超文本”指的是页面
4、内可以包含图片、链接,甚至音乐、程序等非文字元素,HTML是标准通用标记语言下的一个应用。如下所示,为一个典型的HTML文件内容:XML文件格式 与JSON功能相同的另一种格式是XML,其全称是Extensible Markup Language,即可扩展标记语言,也是标准通用标记语言下的一个应用。XML 是各种应用程序之间进行数据传输最常用的工具。如下图所示,为一个典型的xml文件内容:XML和JSON格式的比较存储 存储成本下降JSON 和XML都是纯文本01JSON和XML都具有“自我描述性”02XML和JSON都可以通过JavaScript进行解析03JSON传输一般比XML更短、速度
5、更快05XML有结束标签而JSON没有04归档与压缩 (1)归档文件就是一个对内部包含了许多文件的独立文件的归档。在这些文件的内部可以包含文本文件或二进制文件,或者二者兼有。(2)终端窗口和命令行界面,比如Mac OS X上的Terminal程序或Linux上的bash程序。(3)适合程序员使用的编辑器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad+、Sublime编辑器等。(4)Python客户端程序,如Enthought Canopy。另外,还需要足够的权限来安装一些程序包文件。(5)电子表格程序,如Microsoft Exc
6、el和Google Spreadsheets。其可用于数据呈现和可视化,并且以恰当的方式展示数据分析和挖掘的结果。(6)数据库软件,如MySQL数据库和Microsoft Access等。数据类型 数据类型是一种数据结构,包括定义一个值的集合以及定义在这个值集上的一组操作。通常根据数据的特点将数据划分为不同的类型。按照计算机的存储特性,编程语言和数据库应用都会把数据划分为特定的几种类型:Java数据类型:Java的基础数据类型可分为4类8种,包含整型(byte、short、int、long)、浮点型(float、double)、逻辑型(boolean)以及符型(char)。具体内容如下:MYS
7、QL数据类型 1、数值类型:MySQL支持所有标准SQL数值数据类型。2、日期和时间类型:表示时间值的日期和时间类型有DATE、TIME、YEAR、DATATIME和TIMESTAMP。3、字符串类型:CHAR、VARCHAR、TEXT、ENUM和SET等。字符编码 1、字节、字符和字符集:字节(Byte)是计算机信息技术用于计量存储容量的一种单位,通常情况下一字节等于八位二进制位,同时也表示一些计算机编程语言中的数据类型。字符是指计算机中使用的字母、数字、字和符号。字符集(Character Set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字
8、符集、GB2312字符集、BIG5字符集、GB18030字符集、Unicode字符集等。2、内码:内码是指计算机汉字系统中使用的二进制字符编码,是沟通输入、输出与系统平台之间的交换码,通过内码可以达到通用和高效率传输文本的目的。3、编码与字符集:编码(Ecoding)和字符集不同,字符集只是字符的集合,不一定适合网络传送、处理,有时需要经过编码以后才能实现应用。4、空值和乱码:(1)空值:在数据库中,空值(NULL)用来表示实际值未知或无意义的情况 (2)乱码:乱码主要指用文本编辑器打开文本时,使用了不对应的字符集和编码,从而造成文本解码错误,导致文本的部分字符或所有字符无法被正确显示的情况
9、数据转换 1、电子表格转换:据信息一般使用专门软件处理,常见的有Excel、Access、MySQL和SQL Server。目前主要用的数据库是RDBMS,即关系型数据库管理系统(Relational Database Management System),它将数据组织为相关的行和列,而管理关系数据库的软件就是关系数据库管理系统,其具有数据以表格的形式出现、每行为各种记录名称、许多的行和列组成一张表单、若干的表单组成数据库等特点。2、RDBMS数据转换:常见的RDBMS有Oracle、MySQL、Access、SQL Server等。在日常业务中,可能存在数据规模的变化,出现数据库管理系统的变化,例如MySQL转换到Oracle数据库管理系统等.大多数据库管理系统均有数据的导入、导出工具,可以实现数据源到目标的转换。例如,SQL Server可以通过数据库客户端(SSMS)的界面工具实现数据库与Excel、数据库与数据库之间的相互转换。Thanks谢谢您的聆听!谢谢您的聆听!