1、第2章 数据的表示2.3非数值数据的编码表示非数值数据的编码表示2.3.1逻辑数据 逻辑数据是表示事物相对立的两种可能值,比如“真”或“假”,“是”或“否”等。逻辑数据在计算机中也是用一位二进制数表示,一个事件成立用1表示,不成立用0表示。有时用n位二进制位表示n个逻辑数据,其中的每一位代表的是逻辑概念的0和1。逻辑数据只能参加逻辑运算,按位进行运算,如“与”、“或”、逻辑左移、逻辑右移等。2.3.2西文字符 西文字符是指由拉丁字母、数字、标点符号及一些特殊符号组成的字符集。西文字符的编码方案有多种,目前国际上普遍采用的是美国国家信息交换标准代码(American Standard Code
2、for Information Interchange),简称ASCII码。ASCII码编码标准中规定8位二进制数中最高位为0,余下7位可以有128个编码,表示128个字符。ASCII字符编码集见表2-3。2.3.2西文字符2.3.3汉字字符汉字字符 为了适应汉字信息处理的不同需要,汉字编码方案根据用途可分为三类:汉字输入码、汉字内码和汉字字模码。(1)汉字输入码 将每个汉字用一组键盘按键表示,这样形成的汉字编码成为汉字输入码。常见的汉字输入码有数字编码(如区位码等)、字音编码(如微软拼音输入法等)和字形编码(如五笔字型码等)。2.3.3汉字字符汉字字符(2)汉字内码 为了使汉字信息交换有一个
3、通用的标准,1981年我国制定推行了信息交换用汉字编码字符集(基本集)(GB2312-80)。这个标准称为国标码,又称国标交换码。GB2312国标字符集中为每个字符规定了一个唯一的二进制代码。每个编码字长为2个字节,每个字节占用7位二进制,最高位为0。这个14位的代码表示该字符在字符集码表中的区号和位号。为了信息处理和存储方便,以及与ASCII码兼容,计算机系统将汉字国标码的每个字节的最高位置1,作为该汉字的“机内码”,即汉字内码。目前PC机中汉字内码的表示大多数采用此种方式。非数值数据的编码表示非数值数据的编码表示(3)汉字字模码 每一个汉字的字形首先预存在计算机内,GB2312国标汉字字符
4、集中的所有字符的字形信息集合在一起称为字形信息库。不同的字体(如宋体、楷体等)对应着不同的字形库。汉字的字形主要有两种描述方法:字模点阵描述和轮廓描述。字模点阵就是将汉字用n行n列点的方阵来表示,在字符中有点的地方用“1”表示,没点的地方用“0”表示,这样形成的二进制点阵数据称为汉字的字模点阵码。汉字的轮廓描述法是把汉字笔画的轮廓用一组直线和曲线来描述,记下每一直线和曲线的数学描述公式。2.3.4多媒体信息 (1)图的编码表示 计算机内的图有两种表示形式:图像和图形。图像表示法类似于汉字的字模点阵码。把原始图像离散成mn个像素点所组成的一个矩阵。每个像素的颜色或灰度用二进制数表示。颜色深度越多
5、,描述一个像素的二进制位数越大。图形表示法是将画面中的内容用几何元素(如点、线、面、体)和物体表面材料与性质和环境的光照位置等信息来描述。2.3.4多媒体信息(2)声音的编码表示 从物理学的角度看,声音可以是用一种连续的随时间变化的声波波形来表示。计算机要表示和处理声音,必须将声波波形转换为二进制表示形式,这个转换过程称为声音的“数字化编码”。声音数字化编码过程分为三步:1)采样:以固定的时间间隔对声音波形进行数据采集,使连续的声音波形变成一个个离散的样本值。每秒钟采样的次数被称为采样频率。采样频率越高声音的质量越好。通常计算机采用的采样频率有44.1KHz、22.05KHz和11.025KHz。2)量化:对采样的每个样本值用一个二进制数字量来表示。转换的二进制位数越多,量化精度越高,声音的质量越好。一般有16位或8位。3)编码:对产生的二进制数据进行编码,按照规定的格式进行表示。2.3.4多媒体信息(3)视频信息的表示 计算机通过视频获取设备(如视频卡),将视频信号转换为计算机内部的二进制数字信息,这个过程称为视频信号的“数字化”。对一幅彩色画面的亮度、色差进行采样和量化,得到一幅数字图像。视频信息的数字化过程以一幅幅彩色画面为单位进行的,所以数字视频信息的数据量非常大,解决这个问题采用压缩编码技术。