1、2019-8-171汉字输入输出简介汉字输入输出简介谢谢观赏2019-8-172主要内容n汉字输入n汉字输出n中文字处理和精密汉字编辑排版系统n操作系统的汉化谢谢观赏2019-8-173计算机汉字系统的构成 键盘输入 汉 字 库语音输出 机内码系统软件和 机内码 语音输入应用软件进输出控制汉字显示 行信息处理 文字识别 磁盘存储汉字打印 谢谢观赏2019-8-174汉字输入方式的分类谢谢观赏2019-8-175现状与趋势n目前中文输入以键盘输入为主,最快可达275字/分n未来的一段时间,改进后的智能化键盘输入方式仍将占据主导地位 n识别输入方式在不断完善自身技术的前提下,也将获得稳步的增长n多
2、元化的格局正在形成之中谢谢观赏2019-8-176键盘输入方案n整字键盘大键盘:主辅式、感应式n通用组合键盘小键盘 n字:记忆代码:电报、区位、军码等 拼音:全拼、双拼、简拼、智能ABC、新拼、自然 拼形:五笔形、郑码、表形码 音形结合:李码、全息码 笔划或部件:魏码n词:联想,高频先见(上),用过提前,词、短语和熟句均可n句:微软拼音、智能狂拼n数字键盘:手机、智能家电n趋势:朝着易学习、易记忆、编码长度要短、重码要少、智能化的方向发展 谢谢观赏2019-8-177字形识别系统n印刷体n单字型n字型混排,北信n中英混排,清华紫光n手写体n脱机n联机:汉王笔、蒙恬第一笔、中华第一笔、神调笔和杨
3、友博士笔谢谢观赏2019-8-178性能与难点n性能:北京捷通软件技术有限公司的录易全能版的扫描识别速度60-100字/秒,OCR(汉字印刷体识别)识别率高,对印刷文稿的识别率在99%以上。它的手写系统可识别简、繁、英文、数字等,可保留亲笔签字的原迹,笔迹符号代文。全屏书写,一次可连续书写20多个字不停笔。自学习功能强,电脑能记住笔迹。n提高识别性能的难点n汉字类别多n汉字字形结构复杂n汉字集合中相似字较多,有些汉字的差别仅为一点或一个笔画 谢谢观赏2019-8-179语音输入分类n特定人孤立语音n非特定人孤立语音n特定人连续语音n非特定人连续语音谢谢观赏2019-8-1710语音输入现状n中
4、文语音输入技术已经基本成熟n语音输入市场的主角依旧是以IBM为首的国外厂商nIBM Via Voice占据了国内语音输入法大半壁江山n不久前成立了中国语音创业联盟,以期联合国内众多从事语音输入产品研发的企业共同推动国内语音输入技术的进步n中文之星公司在语音识别方面的研究也进入到了产品化的阶段n中文的地方语音体系主要有:广东话,闽南话,吴语等n苹果电脑的中文语音输入系统是全球第一套广东话语音输入系统,能够将广东语转换成繁体或简体中文谢谢观赏2019-8-1711中文混合输入系统n比利时L&H语音产品有限公司的汉语知音(SPK):针对中文输入的完全一体化的解决方案,可以采用听写、手写或键盘输入方式
5、,并可以在这些输入方法之间随意切换;用户无需改变自己的语音或书写习惯;可以实现语音导航,用语音控制应用程序;可以实现整句智能输入 n北京捷通软件技术有限公司的录易全能版:集识(汉字印刷体识别)、写(联机手写识别)、说(语音输入)、听(语音输出校稿)、校(语义、语法校对)为一体n北京汉王科技公司的汉王听写输入系统是口说手写输入中文,汉王笔与IBM ViaVoice98语音识别核心的完美集成。语音输入与手写输入无缝链接,方便了编辑修改,每分钟可输入150字以上谢谢观赏2019-8-1712汉字的输出n磁盘存储n屏幕显示n纸上印字n语音输出-语音合成技术谢谢观赏2019-8-1713汉字库 0 1
6、2 3 4 5 6 7 8 9 1 0 111 2 1 3 1 4 1 5 0 1 2 0 1 2 3 4 5 6 7 3 0 4 1 5 2 6 3 7 4 8 5 9 6 1 0 7 11 1 2 1 3 1 4 1 5 英 文 字 母“G”和 汉 字“天”的 点 阵 表 示 n汉字的点阵式存储谢谢观赏2019-8-1714点阵数和存储量 点阵 字数 存储量(字节)简易型汉字 16*16 87*94 261,696 普通型字库 24*24 87*94 588,816 32*32 87*94 1,046,784 64*64 87*94 4,187,136 精密型字库 96*96 87*94
7、9M 128*128 87*94 16M 256*256 87*94 64M 谢谢观赏2019-8-1715汉字库的压缩n字根式压缩法n矢量字库n哈夫曼压缩法谢谢观赏2019-8-1716哈夫曼压缩法n将汉字的点阵图形看作由多个子点阵构成n统计组成所有汉字的子点阵的概率n根据子点阵的概率进行哈夫曼编码,从而得出所有汉字的哈夫曼编码n用这些子点阵的编码作为汉字库谢谢观赏2019-8-17172*2点阵的16种状态 。P0 P1 P2 P3 P4 P5 P6 P7 。P8 P9 P10 P11 P12 P13 P14 P15 谢谢观赏2019-8-171816种状态的统计概率和相应编码 状态 概
8、率 编 码 状态 概 率 编 码 P0 0.438 1 P8 0.011 011101 P1 0.050 00000 P9 0.024 000010 P2 0.011 0111000 P10 0.148 001 P3 0.041 00010 P11 0.023 000011 P4 0.032 01100 P12 0.025 01111 P5 0.132 010 P13 0.002 01110010 P6 0.032 00011 P14 0.015 011010 P7 0.014 011011 P15 0.001 01110011 谢谢观赏2019-8-1719压缩结果n平均码长=0.438*1
9、+0.050*5+0.011*7+.+0.001*8=2.8n压缩前子点阵码长为4n压缩率为30%谢谢观赏2019-8-1720字形的变换(放大、缩小、旋转、平滑)=(a)(b)(c)字形放大的失真与平滑 谢谢观赏2019-8-1721汉字屏幕显示 汉 字 库 接 口 CRT 控制(CRTC)C R T 显示缓冲区 谢谢观赏2019-8-1722汉字印字n绝大多数是点阵式印字方式n点阵式印字机主要有针式打印机、喷墨式印字机、激光印字机等谢谢观赏2019-8-1723中文字处理和精密汉字编辑排版系统 n中文编排要比西文编排复杂:横排、竖排、分栏、插图、表格等n字模分辨率:国产(方正)系统30线/
10、毫米,国外高级出版系统40-80线/毫米n字模数目:中文6763以上,英文大小写字母加上符号总共不超出100个n字体数目:中文-宋、仿、黑、楷,美术字体、变形字体、古籍书中多种字体谢谢观赏2019-8-1724主要系统n北大方正n四通4S高级中文编排系统 nWPS桌面排版系统谢谢观赏2019-8-1725方正排版系统n国际上,最早使用书版和报版的整版编排系统,尤其是报纸的整版编排 n缺点在于它的开放性较差和与其它系统的兼容性不太好(人为原因)-它的照排控制器、照排机,必须配备由它自己生产,或委托其它协作单位生产的产品谢谢观赏2019-8-1726操作系统的汉化n外挂式中文操作系统(中文外挂平台):CCDOS、UCDOS、天汇、中文之星、RichWin n内核汉化的中文操作系统:微软中文DOS、Windows 3.2及其后续版本n自有知识产权的操作系统:COSIXn基于Linux的自主操作系统:Turbo Linux简体中文版 6.0、蓝点 Linux 2.0、Tom Linux 1.0、红旗 Linux 桌面版 2.0 谢谢观赏