1、4.1文本信息加工克州三中克州三中2011年年9月月复习:模式识别模式识别机器翻译机器翻译智能机器人智能机器人计算机博弈计算机博弈智能代理智能代理专家系统、专家系统、机器证明、机器证明、数据挖掘数据挖掘利用人工智能技术加工信息4.1.1 文字及其处理技术 文字是人类为了更加流畅地表述意义,传递经验发明的工具,人们利用文字记载自然变化、历史沿革、生产经验、建设成果等各种信息,极大促进人类文明的发展进程。思考:汉字是怎么造出来的?思考:汉字是怎么造出来的?汉字的造字法有四种:象形、指事、会意、形声。汉字的造字法有四种:象形、指事、会意、形声。 从字体上看,就是本字倒过来。上部为树从字体上看,就是本
2、字倒过来。上部为树头,下部为树梢,在树梢上加一小横,就表示头,下部为树梢,在树梢上加一小横,就表示这里是树梢。因此,末的最初的意义是树梢。这里是树梢。因此,末的最初的意义是树梢。(上、下、刃等)(上、下、刃等) 象形文象形文用图画依照物体的形状或者样子描绘出来表示的文字将一些很难解释的事物当做一个字。金文明为日月幷照之会意字。(信金文明为日月幷照之会意字。(信=人人+言)言) 字的一部分是字的一部分是“形旁形旁”表示字义,一部分是表示字义,一部分是“声旁声旁”表示表示读音,如:读音,如: “清清”是是“水水”形形“青青”声,声,“河河”是是“水水”形形“可可”声。声。 指把两个字拼在一起变成另
3、一个字一般是将两字和在一起变成另一个字,一边表示声音,一边表示形态(休)(采)(焚)(甘) (刃) 东巴文是一种原始的图画象形文字,主要为东东巴文是一种原始的图画象形文字,主要为东巴教徒传授使用,书写东巴经文,故称东巴文。巴教徒传授使用,书写东巴经文,故称东巴文。纳西话叫纳西话叫“思究鲁究思究鲁究”,意为,意为“木迹石迹木迹石迹”,见木画木,见石画石见木画木,见石画石 。东巴文字是唯一活着的象形文字。东巴文字是唯一活着的象形文字。云南云南 纳西族纳西族 东巴文字东巴文字猜猜看,上面的象形文字究竟表示什么意思?猜猜看,上面的象形文字究竟表示什么意思?靠靠睡睡登登越越喝喝牙齿牙齿看书看书去去东巴象
4、形文字是目前世界上仅存的为数不多的古象形文字之一,并且是世界上唯一仍在使用的古象形文字,是文字史上的活化。 东巴象形文字在工艺美术设计具有很高的审美价值。 实践:电子东巴(5分钟)安装 电子东巴5.0 版本拼音输入法 提示:网上查找 电子东巴5.0下载安装该输入法输入以下东巴文字 我 喝茶 吃饭 爱 树 母亲中午晚上颜色红色 字号初号提示:输入法中选择 “电子东巴”输入法。思考:中国汉字的发展过程是怎么样的?思考:中国汉字的发展过程是怎么样的?文字之旅:第文字之旅:第1站站甲骨文甲骨文龟壳龟壳兽骨兽骨金文金文文字之旅:第文字之旅:第2站站金文金文小篆小篆大篆大篆文字之旅:第文字之旅:第3、4站
5、站大篆、小篆大篆、小篆隶书(张迁碑)隶书(张迁碑) 草书(张旭)草书(张旭) 行书(王羲之)行书(王羲之) 文字之旅:第文字之旅:第N站站隶书、草书、行书隶书、草书、行书3 书法是一种凝结了我国民族文化精髓的特殊的艺术形式书法是一种凝结了我国民族文化精髓的特殊的艺术形式兰亭集序(局部) 晋王羲之徐冰徐冰方块英文方块英文将将26个字母改造成类似中国汉字的偏旁部首个字母改造成类似中国汉字的偏旁部首Art For The PeopleTi yan qing jing : pin yin yu han zi 体验情境:拼音与汉字村居村居 (清清) 高高 鼎鼎 草长莺飞二月天,草长莺飞二月天, 拂堤杨柳
6、醉春烟。拂堤杨柳醉春烟。 儿童散学归来早,儿童散学归来早, 忙趁东风放纸鸢。忙趁东风放纸鸢。 历史上使用的文字处理技术历史上使用的文字处理技术手写手写刻字刻字雕版印刷雕版印刷活字印刷活字印刷机械式机械式打字机打字机计算机计算机文字处理文字处理计算机文字处理计算机文字处理只能处理英文只能处理英文可处理包括象形文可处理包括象形文字在内的任何文字字在内的任何文字如何在计算机中处理汉字?如何在计算机中处理汉字?汉字的编码汉字的编码目前计算机上使用的汉字编码主要有三种:目前计算机上使用的汉字编码主要有三种:输入码输入码(外码)(外码)机内码机内码(内码)(内码)输出码输出码(字型码)(字型码)用于输入汉
7、字的编码用于输入汉字的编码用于存储汉字的编码用于存储汉字的编码用于输出汉字的编码用于输出汉字的编码区位码区位码 :4860全拼编码:全拼编码:xiong五笔字型:五笔字型:CEXO熊熊用机内码用机内码表示、存储表示、存储如国标码(如国标码(GB)和)和BIG5码码用汉字字型用汉字字型输出汉字输出汉字体验文字处理技术体验文字处理技术汉字的编码汉字的编码文字文字及其及其处理处理技术技术输出码输出码(字型码字型码)汉字的输出汉字的输出机内码机内码(内码内码)汉字的存储汉字的存储输入码输入码(外码外码)汉字的输入汉字的输入书法是一门凝结了我国民族文化精髓的艺术书法是一门凝结了我国民族文化精髓的艺术汉字
8、的创造饱含民族的智慧汉字的创造饱含民族的智慧文字的发明是为了更流畅地表述意义、传递经验文字的发明是为了更流畅地表述意义、传递经验中文信息处理技术发展历史中文信息处理技术发展历史课堂课堂小结小结(教学重点)(教学难点)1、体验东巴文字的计算机处理技术、体验东巴文字的计算机处理技术2、学会使用多种汉字编码输入汉字、学会使用多种汉字编码输入汉字3、根据信息需求,选择合适的字处理软件进行处理、根据信息需求,选择合适的字处理软件进行处理上机实践上机实践输入码(外码):输入码(外码): 用于输入汉字,如区位码、拼音码、王码(五笔用于输入汉字,如区位码、拼音码、王码(五笔字型)、自然码等。字型)、自然码等。
9、机内码(内码):机内码(内码): 供计算机系统内部进行存储、加工处理、传输而供计算机系统内部进行存储、加工处理、传输而统一使用的代码,用于储存汉字,如国标码统一使用的代码,用于储存汉字,如国标码(GBGB)、)、BIG5BIG5码等。码等。 输出码(字型码):输出码(字型码): 存储在计算机内的汉字在屏幕上显示或打存储在计算机内的汉字在屏幕上显示或打印机打印出来时,必须以汉字字型输出,汉字印机打印出来时,必须以汉字字型输出,汉字的输出码实际上是汉字的字型码,它是由汉字的输出码实际上是汉字的字型码,它是由汉字的字模信息所组成的。的字模信息所组成的。 汉字是一种象形文字,每个汉字都是一个汉字是一种
10、象形文字,每个汉字都是一个特定图形,这种图形可以用点阵、向量等方式特定图形,这种图形可以用点阵、向量等方式表示。表示。 字模(点阵、向量)如字模(点阵、向量)如8 8* *8 8点阵点阵 00010000 00010000 11111110 10010010 11111110 00010000 00010000 00010000 Bit (位) Byte (字节) B1B=8bit1KB=1024B1MB=1024KB1GB=1024MB1TB=1024GB如如32*32点阵就需要点阵就需要:32*32位位=32*32/8B=128B用用8*8点阵表示一个点阵表示一个“中中”字,这个汉字占字,
11、这个汉字占8行,每一行,每一行行8个点,其中每一个点用一个二进制位表示,值个点,其中每一个点用一个二进制位表示,值“0”表示没有笔形,值表示没有笔形,值“1”表示有笔形,储存这个字型码表示有笔形,储存这个字型码需要需要88=64位二进制,即位二进制,即8个字节(个字节(1字节字节=8位二进位二进制)。制)。计算机汉字的处理过程计算机汉字的处理过程键盘输入键盘输入(输入码)(输入码)编码转换编码转换(机内码)(机内码)编辑与输出编辑与输出(字型码)(字型码)例:例:“春春”字在计算机中的处理过程字在计算机中的处理过程 1. 1.从键盘用拼音输入法输入外码从键盘用拼音输入法输入外码“chun”“c
12、hun”; 2. 2.从外码表中找出与之对应的汉字机内码;从外码表中找出与之对应的汉字机内码; 3. 3.按照按照“机内码机内码”找到存放字型码的地址;找到存放字型码的地址; 4. 4.取出取出“字型码字型码”在屏幕上显示出来。在屏幕上显示出来。任务一:任务一: 安装安装“东巴文字东巴文字”输入法,打出输入法,打出“中午中午”、“晚上晚上”的东巴字。的东巴字。任务二:任务二: 请大家一会自请大家一会自己动手,做出右图中己动手,做出右图中差不多的效果。其中差不多的效果。其中的背景图片可在的背景图片可在“D:/“D:/素材素材”里,选里,选择喜欢的图片。其他择喜欢的图片。其他内容与效果要相同。内容与效果要相同。独在异乡为异客独在异乡为异客每逢佳节倍思亲每逢佳节倍思亲遥知兄弟登高处遥知兄弟登高处遍插茱萸少一人遍插茱萸少一人End