1、第2单元 编程计算第1单元 初识数据与计算第3单元 认识数据第4单元 计算与问题解决第5单元 数据分析与人工智能信息技术信息技术(必修(必修1 1)3.1 3.1 数据编码数据编码了解各类数据采集的基本方法了解各类数据采集的基本方法能够解释文本、音频等数据的编码原理能够解释文本、音频等数据的编码原理理解数据编码的意义和作用理解数据编码的意义和作用1 13 32 2学习目标学习目标智能公交系统是智慧城市的重要组成部分,它的应用提高了城市公交的运营效率,方便了人们的出行。市民在办理市民卡时,一般要到指定地点办理录入信息、拍摄照片等手续。想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?生活中
2、还有哪些数据可以采集以及如何采集?表现形式表现形式实例实例采集该数据的设备采集该数据的设备文本姓名、家庭住址、性别、手机号键盘、手写输入、语言输入数字年龄、身高、体重、身份证号键盘、手写输入、数字化采集仪图像照片手机、相机、扫描仪声音讲话的声音、音乐、其他声音手机、录音机、录音笔视频监控视频、电影摄像机、手机、摄像头想一想,在办理市民卡的流程中,管理系统都收集了哪些数据?生活中还有哪些数据可以采集以及如何采集?这些数据计算机能直接处理吗?这些数据计算机能直接处理吗?编码就是信息从一种形式或格式转换成另一种形式或格编码就是信息从一种形式或格式转换成另一种形式或格式的过程。式的过程。指用预先规定的
3、方法将文字、数字或其他对象编成可以指用预先规定的方法将文字、数字或其他对象编成可以存储在计算机里的数值。存储在计算机里的数值。编码编码模拟信号与数字信号模拟信号与数字信号模拟信号模拟信号一般用传感器直接获得,如声音、温度、压强等。模拟信号的值随时间而连续变化,波形光滑。外部信息存入计算机内部必须以二进制形式存储数字信号数字信号一般随时间而产生非连续的变化。数字信号可以由模拟信号转化而来,数字信号的值即数字数据,可直接用计算机所能理解的二进制表示,方便计算机对其处理。模拟信号:连续变化,温度可以自己估读出来,可以是区间里的任何一个数字数字信号:离散,不连续,只能是固定的数字将模拟声音数据转换为数
4、字数据的这一个过程,称为声音的数字化。01采样采样02量化量化03编码编码对模拟声音信号按给定的时间间隔进行采样对采样数据进行量化将量化后的数据用二进制数值表示声音数字化声音数字化第一步 采样。在时间轴上按照一定的时间间隔取一系列时刻,得到每个时刻对应的声波信号的振幅值。声音的数字化过程在横轴上按一定的时间间隔,从信号中取一个瞬时值,这个过程称为采样。录音设备在1秒内对声音信号的采样次数称为采样频率,常用的CD音质的采样频率就是44.1kHz。第二步 量化。将第一步所得的振幅瞬时值往最接近的整数取整。声音的数字化过程 将信号波形的纵轴划分为若干区间,落到某一区间的采样点按四舍五入的规则取整选值
5、,这个过程称为量化。第三步 编码。时刻12345678910十进制1234322233二进制数值001010011100011010010010011011将样本值用二进制表示的过程称为编码。量化位数:每个幅值用16个二进制位记录,CD音质的量化位数为16位,即用16个二进制位记录一个数值,因此可记录216=65536种不同的数值。声音的数字化过程二进制数有0和1两种不同的数字,其基本计数规则是逢二进一,即1+1=10。计算机存储数据的最小单位是二进制位,用比特(bit)表示。计算机存储数据的基本单位是字节(Byte,简写为B),8比特为一个字节。字节单位太小,常用的存储单位有KB,MB,GB
6、等。1KB=210B=1024B1MB=210KB=220B=1048576B1GB=210MB=220KB=230B=1073741824B1比特能表示两种(21)状态(即0和1);2比特能表示00、01、10、11四种(22)状态;3比特能表示八种(23)状态;1字节能表示28(256)种状态。二进制与数制转换数制系统数制系统十进制10二进制2N进制n数 位权 值二进制转十进制权 值结 果十进制数按权展开求和十转二进制基 数十进制数余 数第0位第1位第2位第3位第4位低位高位除2取余法55十进制R进制除R取余法二进制八进制十六进制按权展开求和11011167375588 67066 7 O
7、8081*48+7=55 D551616 37033 7 H160161*48+7=55 D5522 2712 131 61 3022 112 011 1 0 1 1 1 B202122232425*32+16+0+4+2+1=55 D 2021Binary 二进制Octal 八进制Decimal 十进制Hexadecimal 十六进制二进制转八进制方法为:3位二进制数按权展开相加得到1位八进制数。(注意事项,3位二进制转成八进制是从右到左开始转换,不足时补0)。拓展拓展八进制转成二进制方法为:八进制数通过除2取余法,得到二进制数,对每个八进制为3个二进制,不足时在最左边补零。二进制转十六进制
8、方法为:与二进制转八进制方法近似,八进制是取三合一,十六进制是取四合一。(注意事项,4位二进制转成十六进制是从右到左开始转换,不足时补0)。十六进制转二进制方法为:十六进制数通过除2取余法,得到二进制数,对每个十六进制为4个二进制,不足时在最左边补零。八进制 转十六进制方法:将八进制转换为二进制,然后再将二进制转换为十六进制,小数点位置不变。十六进制转八进制方法:将十六进制转换为二进制,然后再将二进制转换为八进制,小数点位置不变。10110100 B=()D 3D H=()D255 D=()H 56 D=()B18061FF111000练一练练一练ord:ord:字符字符编码编码chr:chr
9、:编码编码字符字符必须在二进制数之前加必须在二进制数之前加“0b”“0b”,表,表示一个二进制数值示一个二进制数值bin:bin:十进制十进制 二进制二进制 查看数据编码查看数据编码文本数据包括字母、数字、标点符号、汉字等ASCII码和Unicode码是最经典的两种编码方案文本数据的编码通过对其中每一个字符进行编码实现字符编码字符编码用于文本数据字符编码的方案有多种类型,其中ASCII码和unicode是典型的2种方案。u ASCII码标准ASCII码(用7位二进制数表示一个字符):集中定义了大小写英文字母、标点符号、数字等字符和符号,共128个。ASCIIASCII码(十进制)码(十进制)字
10、符字符031控制字符或通信专用字符(不可见)32空格4857数字096590大写英文字母AZ97122小写英文字母az其他英文标点符号、运算符号、括号ASCIIASCII码码扩展ASCII码(用8位二进制数表示一个字符):计算机内部用一个字节来存放一个ASCII码字符,最高位用0表示。例如,“A”的ASCII码为01000001,即65。计算机要处理汉字,必须对每个汉字进行编码,每个汉字至少需要计算机要处理汉字,必须对每个汉字进行编码,每个汉字至少需要2 2个字节。我国先后制定了多个汉字个字节。我国先后制定了多个汉字编码方案:编码方案:(1 1)GB 23121980GB 23121980字符
11、集共收录字符集共收录67636763个汉字个汉字(2 2)GBKGBK字符集,兼容字符集,兼容GB 23121980GB 23121980标准,收入标准,收入2100321003个汉字个汉字(3 3)GB 180302000GB 180302000字符集,包含字符集,包含GBKGBK字符集和字符集和CJKCJK统一汉字扩充统一汉字扩充A A的汉字,共计的汉字,共计2753327533个汉字;个汉字;(4 4)GB 180302005GB 180302005字符集,在字符集,在GB 180302000GB 180302000的基础上,增加了的基础上,增加了CJKCJK统一汉字扩充统一汉字扩充B
12、B的汉字及其他汉的汉字及其他汉字,字,共计共计7024470244个汉字。个汉字。UnicodeUnicode码码Unicode码 为解决传统字符编码方案的局限性而产生了为解决传统字符编码方案的局限性而产生了Unicode Unicode 码,它可以用码,它可以用2 2个字个字节表示一个符号,还可以用更多字节来对字符进行编码。节表示一个符号,还可以用更多字节来对字符进行编码。UnicodeUnicode码兼容码兼容ASCIASCII I码。原来用码。原来用ASCIIASCII码能表示的字符,其对应的码能表示的字符,其对应的unicodeunicode码只是在原来的码只是在原来的ASCIIASCII码前加上码前加上8 8个个0 0。比如。比如“a”“a”的的ASCIIASCII码是码是0110000101100001,其,其unicodeunicode码是码是00000000 000000000 011000011100001。Unicode字符集,是全球可以共享的编码字符集,涵盖了世界上主要文字的字符,其中包括简繁体汉字,共计74686个汉字。如汉字“男”的Unicode编码为30007(十进制),用十六进制表示为7537,用二进制表示为0111010100110111。小结小结