1、苏州大学:中文信息处理第二章 汉字代码体系 苏州大学 中文信息处理 公开课 苏州大学:中文信息处理内容提要v中文信息在计算机内的表示vISO/IEC 2022v汉字编码字符集vGB2312-80vBIG-5vUnicode和ISO10646vGBK和GB18030苏州大学:中文信息处理1.1 ASCII码及其扩展vASCII码v扩展ASCIIvCJK-Roman苏州大学:中文信息处理1.1.1 ASCII码苏州大学:中文信息处理1.1.1 ASCII码vASCIIAmerican Standard Code for Information Interchange表示英文、数字及其常用符号表示英
2、文、数字及其常用符号和现有的英文键盘相对应和现有的英文键盘相对应v1991年ISO定义为ISO/IEC 646:1991信息交换用7-位编码字符集(ISO 7-bit coded character set for information interchange)苏州大学:中文信息处理1.1.2 ASCII码内容v7位二进制数,定义128个字符:94个图形字符(可显示字符)0-9:30H-39HA-Z:41H-5AHa-z :61H-7AH30个控制字符v00-19H1个空格字符v20H1个Del(删除)符v7FH苏州大学:中文信息处理1.1.3 ASCII码布局控制符控制符控制符苏州大学:中
3、文信息处理1.2 扩展ASCIIv8位表示扩展128 256v扩展的字符集有16个定义:从ISO 8859-1到ISO 8859-16,分别定义了相应国家的文字和符号。苏州大学:中文信息处理1.2.1 ISO 8859内容 vISO 8859第1至第16部分(Information Processing8 Bit Single-Byte Coded Graphic Character Set)。定义新增的128个码元。每个部分分别定义ASCII码和其扩展的字符集(针对不同拉丁语言)。苏州大学:中文信息处理1.2.2 ISO 88591.2.2 ISO 8859代码空间图代码空间图 苏州大学:中
4、文信息处理1.2.3 ISO/IEC 8859 举例vISO/IEC 8859-1(Latin-1)-西欧语言vISO/IEC 8859-2(Latin-2)-中欧语言vISO/IEC 8859-3(Latin-3)-南欧语言。世界语也可用此字符集显示。vISO/IEC 8859-4(Latin-4)-北欧语言vISO/IEC 8859-5(Cyrillic)-斯拉夫语言vISO/IEC 8859-6(Arabic)-阿拉伯语vISO/IEC 8859-7(Greek)-希腊语vISO/IEC 8859-8(Hebrew)-希伯来语(视觉顺序)vISO 8859-8-I-希伯来语(逻辑顺序)v
5、ISO/IEC 8859-9(Latin-5 或 Turkish)-它把Latin-1的冰岛语字母换走,加入土耳其语字母。vISO/IEC 8859-10(Latin-6 或 Nordic)-北日耳曼语支,用来代替Latin-4。vISO/IEC 8859-11(Thai)-泰语,从泰国的 TIS620 标准字集演化而来。vISO/IEC 8859-13(Latin-7 或 Baltic Rim)-波罗的语族vISO/IEC 8859-14(Latin-8 或 Celtic)-凯尔特语族vISO/IEC 8859-15(Latin-9)-西欧语言,加入Latin-1欠缺的芬兰语字母和大写法语重
6、音字母,以及欧元()符号。vISO/IEC 8859-16(Latin-10)-东南欧语言。主要供罗马尼亚语使用,并加入欧元符号。苏州大学:中文信息处理1.3 CJK-RomanvASCII码一样,7位二进制数编码。v收录字符基本与ASCII码一样,个别字符作了调整。v符合本国使用需要货币单位 ($(美国)-¥(中国)v中、日、韩字符编码标准:GB-Roman(中国ASCII码字符集ASCII字符编码标准,代号为GB 1988-89);CNS-Roman(台湾ASCII码标准,代号为CNS 5205-1989);JIS-Roman(日本ASCII码标准,代号为JIS X 0201-1997);
7、KS-Roman(韩国ASCII码标准,代号为KS X 1003:1993)。苏州大学:中文信息处理CJK-Roman特殊字符码元值ASCII码GB-RomanCNS-RomanJIS-RomanKS-Roman0 x24$(美圆)¥(人民币)$0 x5C(反斜杠)(反斜杠)(反斜杠)(日圆)(韩圆)0 x7E(波浪线)(顶线)(顶线)(顶线)(顶线)苏州大学:中文信息处理内容vASCII码及其扩展vISO/IEC 2022v汉字编码字符集vGB2312-80vBIG-5vUnicode和ISO10646vGBK和GB18030苏州大学:中文信息处理2.1 概述v最早在计算机内表示中文信息:I
8、BM、富士通、日立等计算机生产厂家。采用的编码形式互不兼容。v为了通用性,ISO、IEEE以及各个使用汉字的国家和地区,都制定了各种各样的汉字编码字符集。v汉字代码:汉字在计算机内表示汉字在计算机内表示。v通过扩充ASCII码编码长度实现ASCII码(扩展)最多256个码位汉字数量成千上万如何放?苏州大学:中文信息处理2.1.1 汉字代码v汉字代码是真实世界的汉字信息在计算机系统中的最基本表示。v根据在计算机内部使用的目的和存储的方式,汉字代码有各种不同的形式和称谓:输入码字形码苏州大学:中文信息处理2.1.2 汉字交换码v用于信息交换的汉字代码。v双字节、3字节和4字节。v一般不能直接用于信
9、息处理例如,在GB2312中,“码”字的交换码为十六进制的42H/6BH。无法与ASCII码的“Bk”相区别。v在实际使用中,交换码必须转换为机内码。交换码必须转换为机内码。v例外:ISO/IEC 10646和Unicode中,交换码与机内码一致ASCII码也采用双字节表示苏州大学:中文信息处理2.1.2 汉字机内码v用于信息处理的汉字代码,也称:v汉字处理码汉字处理码v处理码处理码v机内码机内码v内码内码v汉字内码长度2-4字节,通常是双字节。v单字节操作系统内核,汉字代码为了与ASCII码相区分,往往把内码的两字节(至少把第一个字节)的最高位(Bit 7)置为1。苏州大学:中文信息处理2.
10、1.3 相互关系vGB2312 中中56 50(交换码)D6 D0(机内码)vUnicode 中中4E2DH(交换码)4E2DH(机内码)0 1 0 1 0 1 1 0 0 1 0 1 0 0 0 01 1 0 1 0 1 1 0 1 1 0 1 0 0 0 0苏州大学:中文信息处理内容vASCII码及其扩展v中文信息在计算机内的表示v汉字编码字符集vGB2312-80vBIG-5vUnicode和ISO10646vGBK和GB18030苏州大学:中文信息处理3.ISO 2022标准 v国际标准化组织于1976年制订了ISO 2022国际标准,ISO 2022定义了七位代码和八位代码的空间及其
11、代码空间扩充的技术。v多数计算机系统所采用的字符集都是以ISO 2022为基础。v我国根据ISO 2022制订了国家标准GB 2311。苏州大学:中文信息处理3.1 单八位代码空间图 苏州大学:中文信息处理3.2 单八位代码空间布局v00-31(00H-1FH)第一个控制字符集C0编码区域v32(20H):Spacev127(十六进制为7FH):DELETEv128-160(80H-A0H)第二个控制字符集C1编码区域v33-126(GL)和161-254(GR)两个图形字符编码区域苏州大学:中文信息处理3.3 扩充编码空间的方法vISO 2022扩充编码空间的方法,可以用多个7位单元或8位对
12、字符进行编码,但是必须跳过控制字符区(即C0和C1的区域)。v采用该标准扩充的编码空间为94n,n为编码单元的个数,若n=2,则可以获得8836个编码,若n=3,则可以获得830584个编码。苏州大学:中文信息处理3.4 字符代码空间苏州大学:中文信息处理3.5 汉字位置 苏州大学:中文信息处理3.5.1 体系结构特点v代码空间狭小C0,C1回避不用没有利用80 H以上的空间v按国家/地区分别编码。v需要一整套复的控制功能来区分不同代码空间。苏州大学:中文信息处理3.5.2 问题v字符集判别问题苏州大学:中文信息处理3.5.3 ISO 2022字符集ISO-2022-JP-日语文字vISO-2
13、022-JP-1-加上一组转义字串vISO-2022-JP-2-加上四组转义字串,提供多语言支援 vISO-2022-JP-3-加上两组转义字串 vISO-2022-JP-2004-加上一组转义字串 ISO-2022-KR-朝鲜文 ISO-2022-CN-中文v ISO-2022-CN-EXT-加上六组转义字串ESC$(D 转为JIS X 0212-1990苏州大学:中文信息处理内容vASCII码及其扩展v中文信息在计算机内的表示vISO/IEC 2022vGB2312-80vBIG-5vUnicode和ISO10646vGBK和GB18030苏州大学:中文信息处理4.汉字编码字符集v按照一组
14、无歧义的规则而定义的汉字字汇的有序集合。每一个汉字与它的代码表示之间具有一一对应关系v在信息处理技术中用于汉字信息的表示、交换、传输、处理、存储、输入及显示vISO定义中:“无歧义的规则”很重要,确保编码的唯一性,避免重码苏州大学:中文信息处理4.1 常用汉字编码字符集vGB2312-80vBIG-5vISO10646/UnicodevGB13000vGBKvGB18030-2000苏州大学:中文信息处理4.2 代码页v代码页可用于信息处理的字符集支持多文种环境vIBM称呼电脑BIOS本身支持的字符集编码的名称EBCDIC代码页vMicrosoft在DOS和Windows使用代码页每个具体的字
15、符集赋予一个代号,称为“代码页ID”874(泰语)932(日语Shift-JIS)936(简体中文GBK)949(韩文)950(繁体中文Big5)1258(越南语)苏州大学:中文信息处理内容vASCII码及其扩展v中文信息在计算机内的表示vISO/IEC 2022v汉字编码字符集vBIG-5vUnicode和ISO10646vGBK和GB18030苏州大学:中文信息处理5.GB2312-80v信息交换用汉字编码字符集(基本集)v双字节内码v每个字节使用低7位“0000,0001”-“0101,1110”1-0 x5E(1-94)v内码的空间:94*94=8836v收录汉字6763个,符号682
16、个v简体字符集苏州大学:中文信息处理5.1 国标码和区位码v高位字节(1-94):94个区v低位字节(1-94):94个位v国标码:16进制v区位码:10进制v如汉字“啊”,在第16区中的第1位,则国标码:1001(H)区位码:1601苏州大学:中文信息处理5.2 符号区v1-9区,682个符号一般符号(间隔、标点、运算、制表)202个序号60个数字22个希腊字母48个俄文字母66个汉语拼音26个拉丁字母52个日文假名169个汉语注音37个v2-9区有空位164个苏州大学:中文信息处理5.2 符号区苏州大学:中文信息处理5.2 符号区苏州大学:中文信息处理5.2 符号区苏州大学:中文信息处理5
17、.3 汉字区v10-15区:空v88-94区:空v16-87区:6763个汉字16-55区:一级汉字3755个55区有5个空位,从89-9456-87区:二级汉字3008个一级汉字按照音、笔形排列二级汉字按照部首排列苏州大学:中文信息处理5.3 汉字区苏州大学:中文信息处理5.3 汉字区苏州大学:中文信息处理5.4 区位码v汉字交换码的另一种形式v在GB2312中,交换码方阵为9494v区位码纵向定义为区号(取值范围为十进制数的0-94)横向定义为位号(取值范围为十进制数的0-94)两个坐标明确了一个汉字的位置区号和位号的编号:1-94v例如,在GB2312-80中“码”字所在的区号为“34”
18、,位号为“75”,故其区位码为“3475”苏州大学:中文信息处理5.5 交换码/区位码/内码关系v存在着简单的转化关系v假如:交换码为JH(J为高位,H为低位,为十六进数)区位码为QW(Q为区号,W为位号,为十进制数)处理码为CL(C为高位,L为低位,为十六进制数)则:J=Q+32 -再转换为十六进制数H=W+32 -再转换为十六进制数C=J+80HL=H+80H苏州大学:中文信息处理5.6 转换例子 “心心”v区位码:48 36 -30H 24Hv交换码:50H 44H30H+20H=50H24H+20H=44Hv机内码:D0H C4H50H+80H=D0H44H+80H=C4H苏州大学:中
19、文信息处理内容vASCII码及其扩展v中文信息在计算机内的表示vISO/IEC 2022v汉字编码字符集vGB2312-80vUnicode和ISO10646vGBK和GB18030苏州大学:中文信息处理6.BIG-5v繁体用汉字编码字符集v交换码和内码一致 v台湾、香港、澳门等地使用v取码范围:高位:0 x81-0 xfe 94低位:0 x40-0 x70,0 xa1-0 xfe 157苏州大学:中文信息处理6.1 BIG-5布局v94*157的矩阵94区,每区157位最多14758个码位v收录了13494个字符13053个汉字441个非汉字图形字符 苏州大学:中文信息处理6.2 BIG-5
20、 代码空间图 苏州大学:中文信息处理6.3 代码分布举例苏州大学:中文信息处理6.4 两岸文字的不一致性v 苏 州 大 学vCB D5 D6 DD B4 F3 D1 A7苏州大学 GB2312vCC 4B D6 DD B4 F3 8C 57蘇州大學 GBKvC4 AC A6 7B A4 6A BE C7默厩 BIG-5苏州大学:中文信息处理内容vASCII码及其扩展v中文信息在计算机内的表示vISO/IEC 2022v汉字编码字符集vGB2312-80vBIG-5vGBK和GB18030苏州大学:中文信息处理7.Uincode和 ISO10646v本地化编码问题苏州大学:中文信息处理7.1.1
21、 本地化编码的问题v现状世界各国采用了不同的编码标准。例如:香港及台湾使用繁体字,通常采用BIG-5v中国内地使用简体字,通常采用GB2312各种不同的编码标准互不兼容。一个编码在不同的编码标准内可能代表不同的字符。苏州大学:中文信息处理7.1.2 例子 苏州 香港明天我到香港来签合同,请准备相关文档。f)Y b0R /n eg TT 鹽Y黲sQch 0?苏州大学:中文信息处理7.1.3 统一文字编码v提供一套统一的字符编码标准包含世界上所有文字使通讯及资料交换不需转码在一个电脑上处理多种语言文本v采用该标准后不同的电脑系统之间能更准确地储存、处理、传递及显示各种文字信息加强各地间文字信息的流
22、通推动电子交易苏州大学:中文信息处理7.2 ISO 10646 v1984年发起制定新的编码字符集国际标准vWG2负责,命名为UCS(Universal Character Set)v字符码长为4个八位的字节(Octet)v编码仍坚持遵循ISO 2022v字符编码区必须要避开C0和C1控制区v编号为ISO 10646苏州大学:中文信息处理7.3 Unicodev一些著名的IT公司认为:ISO 2022避开C0、C1区,降低编码效率主张采用统一、连续编码主张采用统一、连续编码v1988年初,施乐Joe Becker倡议以新编码标准:字符集编码的基本单位由7位或者8位扩充为16位充分利用65536
23、个编码位置容纳全世界各种语言的字符和常用符号新标准被命名为Unicodev1991年1月,IBM、DEC、Sun、Microsoft、Xerox、Apple、Novell等成立Unicode技术委员会苏州大学:中文信息处理7.3.1 Unicode的含义vUnicode委员会负责Unicode字元搜集、整理、编码等vUnicode的含义和目标是“3Uni”:Unique(唯一)Unified(统一)Universal(通用)v所有文字均采用16位代码v任何代码没有二义性苏州大学:中文信息处理7.3.2 ISO 10646和Unicodev由于Unicode技术委员会成员的实力和影响力Unico
24、de方案的科学性Unicode技术委员会对WG2持续的游说和施压vWG2改用Unicode的编码方式:所有字符的码长均等同进行连续编码不再避开C0和C1区vWG2在1991年10月达成了协议将Unicode并入ISO10646,成为ISO 10646的第0字面苏州大学:中文信息处理7.3.4 UCS-4vISO10646的正规形式为32位 4个八位字节,称为UCS-4v组(Group):128组(组号为007Fh)v面(Plane):256面(面号为00FFh)v行(Row):256行(行号为00FFh)v位(Cell):256位(位号为00FFh)编码的Bit31(即首字节最高位)必须为0苏
25、州大学:中文信息处理7.3.5 ISO 10646的编码空间vISO10646编码空间总共为:25612832768个字面每个字面为256256265534个编码位置合计65534327682147418112个编码位置ISO10646规定,每个字面的最后两个编码位置FFFEh和FFFFh保留不用苏州大学:中文信息处理7.3.6 编码结构示意图苏州大学:中文信息处理7.3.7 基本多文种字面v基本多文种字面(Basic Multi-lingual Plane,BMP):ISO10646的第0组第0字面(组和面的值都为00h)编码字元与Unicode相同。vUCS-2:只用BMP,每个字符只用1
26、6位编码苏州大学:中文信息处理BMP(Unicode)编码v0000007Fh:基本拉丁字母区0000001Fh为C0控制码0020h为空格(space)0021007Eh为ASCII图形字符007Fh为控制码DEL把前8位去掉即8位ASCII码v008000A0h:控制码区0080009Fh为C1控制码00A0h为不中断空格(no-break space)苏州大学:中文信息处理拼音文字区拼音文字区v00A11FFFh:拼音文字区除基本拉丁字母以外的各种拼音文字欧洲各国语言希腊文斯拉夫语文希伯来文阿拉伯文亚美尼亚文马来文等苏州大学:中文信息处理符号区v 200028FFh:符号区标点符号上下标
27、钱币符号数字箭头数学符号工程符号光学辨识符号苏州大学:中文信息处理中日韩符号区v2E8033FFh:中日韩符号区康熙字典部首中日韩辅助部首注音符号日本假名和日本的假名组合韩文音符中日韩的符号标点带圈或带括符文数字、月份、单位、年号、月份、日期、时间等苏州大学:中文信息处理中日韩符号区苏州大学:中文信息处理中日韩认同表意文字区v34004DFFh中日韩认同表意文字扩充A区总计收容6,582个中日韩汉字v4E009FFFh中日韩认同表意文字区收容20,902个中韩汉字 苏州大学:中文信息处理中日韩认同表意文字区苏州大学:中文信息处理 其它区vAC00D7FFh:韩文拼音组合字区vD800D800D
28、FFFhDFFFh:S S区(代理区),专门用於区(代理区),专门用於UTF-16UTF-16vE000F8FFh:专用字区,保留供使用者自行添加vF900FAFFh:中日韩相容表意文字区苏州大学:中文信息处理 专用字面和辅助字面v除BMP,其余32767字面分为:专用字面(Private Use Planes)v供用户自己定义ISO 10646中未收录的字符,共有8226个v包括00h组的0Fh、10h、E0hFFh号34个字面,以及60h7Fh组内的全部字面辅助字面(Supplementary Planes)v供WG2陆续定义各国文字字符v24541个字面苏州大学:中文信息处理00h组字面
29、示意图苏州大学:中文信息处理使用字面v除BMP,WG2仅使用:00h组中的01h和02h号字面第01h号字面:定义BMP内未收集的各国非表意文字和符号第02h号字面:定义BMP内未收集的各国表意文字和符号,如:vCJK表意文字扩充B区,共计42807个汉字vCNS11643兼容字符区,共计527个字符Unicode明确提出,只会使用00h组前17个字面(即00h10h号字面)苏州大学:中文信息处理版本vISO 10646:1993即:Unicode 2.0、GB13000.1收录20902个汉字vISO 10646:2000即:Unicode 3.0、GB13000.2收录27484个汉字vI
30、SO 10646:2003即:Unicode 4.0、GB13000.3收录70198个汉字,加符号共96243个苏州大学:中文信息处理版本(续)vISO/IEC 10646:2003 plus Amendment 1,2,3 Unicode 5.071226汉字,加符号共98884vISO/IEC 10646:2011 Unicode 6.075616汉字,加符号共109242vUnicode 6.2(最新)2012.475619汉字,加符号共109974苏州大学:中文信息处理内容vASCII码及其扩展v中文信息在计算机内的表示vISO/IEC 2022v汉字编码字符集vGB2312-80v
31、BIG-5vUnicode和ISO10646苏州大学:中文信息处理8.1 GB 13000v中国1993年:GB13000.1-1993(信息技术通用多八位编码字符集(UCS)和ISO10646:1993(Unicode 2.0)在字符集上基本一致最初共收录了20902个汉字,以后将跟随ISO10646的增补,同步进行增补。苏州大学:中文信息处理8.2 GBKv2字节汉字编码v在内码上兼容GB2312-80v在字汇上兼容GB13000/ISO10646v是GB2312向GB13000过渡的中间代码v收录21886个汉字和符号v从8140H-FEFEH,除了xx7F一条线v简繁一体苏州大学:中文
32、信息处理8.2.1 GBK码位分布图类别简称范围码位字符字符名备注符号标准区GBK/1A1A1-A9FE846717图形符号GB2312为主GBK/5A840-A9A0192166图形符号BIG5结构符小计1038883图形符号汉字标准区GBK/2B0A1-F7FE67636763汉字GB2312GBK/38140-A0FE60806080汉字GB13000GBK/4AA40-FEA081608160汉字GB13000等小计2100821003汉字用户自定义区1区AAA1-AFFF5642区F8A1-FEFE6583区A140-A7A0672限制使用小计1894总计2394021886苏州大学
33、:中文信息处理8.2.2 GBK码位图苏州大学:中文信息处理8.2.3 GBK字符v87 v 嘆 嘇 嘊 嘋 嘍 嘐 嘑 嘒 嘓 嘔 嘕 嘖 嘗 嘙 嘚 嘜 v 嘝 嘠 嘡 嘢 嘥 嘦 嘨 嘩 嘪 嘫 嘮 嘯 嘰 嘳 嘵 嘷 v 嘸 嘺 嘼 嘽 嘾 噀 噁 噂 噃 噄 噅 噆 噇 噈 噉 噊 v 噋 噏 噐 噑 噒 噓 噕 噖 噚 噛 噝 噞 噟 噠 噡 v 噣 噥 噦 噧 噭 噮 噯 噰 噲 噳 噴 噵 噷 噸 噹 噺 v 噽 噾 噿 嚀 嚁 嚂 嚃 嚄 嚇 嚈 嚉 嚊 嚋 嚌 嚍 嚐 v 嚑 嚒 嚔 嚕 嚖 嚗 嚘 嚙 嚚 嚛 嚜 嚝 嚞 嚟 嚠 嚡 v 嚢 嚤 嚥 嚦 嚧 嚨 嚩 嚪 嚫
34、 嚬 嚭 嚮 嚰 嚱 嚲 嚳v 嚴 嚵 嚶 嚸 嚹 嚺 嚻 嚽 嚾 嚿 囀 囁 囂 囃 囄 囅 v 囆 囇 囈 囉 囋 囌 囍 囎 囏 囐 囑 囒 囓 囕 囖 囘 v 囙 囜 団 囥 囦 囧 囨 囩 囪 囬 囮 囯 囲 図 囶 囷 v 囸 囻 囼 圀 圁 圂 圅 圇 國 圌 圍 圎 圏 圐 圑 苏州大学:中文信息处理8.2.4 21个兼容字vISO定义字形和我国不符v Unicode:F92C(GBK)v郞 Unicode:90DE 苏州大学:中文信息处理8.3 GB18030-2000v2000-3-17发布v2001年年9月作为国家标准强制实施月作为国家标准强制实施 v信息交换用汉字编码字
35、符集基本集的扩充2000年ISO发布ISO 10646-1:2000(Unicode 3.0)增加中日韩统一汉字Extension A的6,582个字符vGB18030-2000在 GBK 编码标准的基础扩充增加四字节(32位)编码汉字后到达了27533个汉字总编码空间超过150万个码位苏州大学:中文信息处理GB18030-2000vGB18030标准采用单字节 (ACCII)双字节(GBK)四字节(Extension A的6,582个字符)v四字节的编码顺序为四字节部分 第一字节0 x81-0 x82第二字节0 x30-0 x39第三字节0 x81-0 xFE第四字节0 x30-0 x39
36、6530 6530 CJK统一汉字扩充A 苏州大学:中文信息处理8.3.1 GB18030-2000码位分布字节数码位空间码位数单字节0 x000 x7F128 个码位双字节第一字节第一字节23940 个码位0 x810 xfe0 x400 x7e,0 x800 xfe四字节第一字节第二字节第三字节第四字节1587600 个码位苏州大学:中文信息处理8.3.2 新增汉字苏州大学:中文信息处理8.3.4 GB18030-20058.3.4 GB18030-2005vGB18030-2005信息技术中文编码字符集收录了70244个汉字包含多种我国少数民族文字(如藏、蒙古、傣、彝、朝鲜、维吾尔文等)的超大型中文编码字符集强制性标准四字节部分 第一字节0 x95-0 x98第二字节0 x30-0 x39第三字节0 x81-0 xFE第四字节0 x30-0 x39 42711 42711 CJK统一汉字扩充B 苏州大学:中文信息处理作业vP1-6