1、中文信息处理技术简介中文信息处理技术简介中文信息处理技术简介v0、预备知识、预备知识v1、中文信息处理概念、中文信息处理概念v2、中文信息处理发展历史、中文信息处理发展历史v3、中文信息处理技术研究现状、中文信息处理技术研究现状0、中文信息处理概念、中文信息处理概念v信息v信息分类v信息处理v中文信息处理v计算机中文信息处理主要研究对象信息v控制论创始人(维纳 Norbert Wiener)信息既不是物质也不是能量,是人类在适应外部世界时以及在感知外部世界时而作出协调时与外部环境交换内容的总和。v信息论奠基者(香农 Clause Shannon)信息就是能够用来消除不确定性的东西,是一个事件发
2、生概率的对数的负值vRobert M.Losee信息可以被定义为一个处理过程的特征,这些特征就是输入和处理过程中产生的信息信息的分类v按照计算机处理的信息形式文本信息多媒体信息超媒体信息v按照信息的结构化程度结构化信息半结构化信息非结构化信息v按照信息的保密程度公开信息一般保密信息绝密信息信息处理v信息处理就是对信息的接收、存储、转化、传送和发布信息的接收:包括信息的感知、信息的测量、信息的识别、信息的获取以及信息的输入等;信息的存储:把接收到的信息或转换、传送或发布中间的信息通过存储设备进行缓冲、保存、备份等处理;信息的转化:把信息根据人们的特定需要进行分类、计算、分析、检索、管理和综合等处
3、理;信息的传送:把信息通过计算机内部的指令或者计算机之间构成的网络从一地传送到另外一地;信息的发布:把信息通过各种表示形式展示出来。中文信息处理中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作,包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。计算机科学技术百科全书清华大学出版社,1998计算机中文信息处理主要研究对象v汉字键盘输入技术v汉字输出技术v软件汉化技术v汉字字形识别技术v汉语语音识别技术v激光照排技术v中文平台v文本分类v信息检索1、中文信息处理概念、中文信息处理概念 是指用计算机对中文的音、形、义等信
4、息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用。从80年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。2、中文信息处理发展历史 重文信息处理至今经历了两次高潮:(1)80年代中期到90年代中期之前,核心内容是汉字的计算机处理问题;(2)经过几年的发展低潮之后,90年代末,中文信息处理的重点转向语音识别、语音合成和语义处理方面。2.1汉字之难被打字机抛弃的时代 在二十世纪上半页,英文打字机的普及极大的提高了文字资料的录入速度。而由于汉字的复杂性,
5、使中文打字机迟迟未能设计出来,再加之基础汉字的学习难度大、时间长,连鲁迅都喊出“汉字不灭,中国必亡”。之后,虽然设计出中文打字机,但要配备数千个铅字组成的大字盘,昂贵的机器成本和复杂的使用技术决定它不能普及到大众使用。毛泽东对此也深感无奈,发出了中文“要走世界共同的拼音文字道路”的慨叹。这些局限于历史条件所限而做出的言论,在中文信息处理技术发展后期仍然被经常(断章取义的)提及。v1984年的参考消息参考消息有这样的记载:“法新社洛杉矶8月5日电 新华社派了22名记者,4名摄影记者和4名技术人员在奥运会采访和工作。在全世界报道奥运会的7000名记者中,只有中国人用手写他们的报道”此时的中国人,只
6、有中国人仍然用手写从事着创作。v汉字成了被打字机抛弃的“落后文明”,直到二十世纪八十年代PC技术推广下,中文PC系统问世,中文信息输入的问题,才有了初步解决 2.2汉字信息处理阶段 硬件:联想、巨人、四通等公司的汉卡,浪 潮、紫金的中文电脑,四通中文打字机,大 洋字幕机 软件:输入法:企业:联想、方正、四通等一批靠中文处理产品起家的企业。标准、基础研究:中文信息处理界基本上完成了词频统计、多种字体显示/打印字库、汉字显示/打印技术、输入法、内码标准、字符集标准等与字相关的所有基础工作。倪院士说,到2000年,中国已制定了70个与中文信息处理相关的国家标准。(学术理论)90年代中期,最为普及的计
7、算机操作系统由DOS升级到Windows平台。微软公司从中文版Windows 3.2开始,在操作系统里集成了汉字处理技术,使传统中文信息处理产品迅速失去了市场。中文信息处理进入一个低谷,原先做中文信息处理的公司纷纷转行。Windows 2000及以上版本,无论采用何种文字,均已支持中文处理。2.3互联网时代的中文处理 互联网时代对中文信息处理产生了新需求:互联网上的海量数据为中文信息检索提出了新的课题;其次,外文信息已经多到不能人工完翻译的程度,机器翻译的重要性被提到了空前的高度;第三,手机、PDA等移动设备将信息处理需求变成无处不在,非标准键盘的汉字输入需要有新的方案。大量新的课题出现,重新
8、启动了中文信息工作的热情。2.4汉语信息处理阶段 v数字图书馆 v与此同时,为方便使国内各民族电脑化的步伐加快,政府作出一连串行动去使这些民族的语言更便于“计算机化”。3、中文信息处理技术研究现状 中文信息处理包含多个分支,以下的介绍只能比较粗浅地把所了解的一些情况跟大家交流一下。3.1键盘输入 汉字键盘输入技术是中文输入技术的主流。汉字键盘输入方法通常是指一个编码方案配有相应的软件系统实现在计算机上输入汉字。句输入法所对应的软件叫做“拼音文本转换系统”,它不仅是一种输入软件,而且在我们后面将要介绍的语音识别中又是一种不可缺少的软件工具。3.2汉字字形 今年来,字形技术在国际上取得了突破性进展
9、,形成字形信息产业。那字由于字形复杂,字数繁多,采用国际新技术时,存在着其特有的难点。字形技术主要包括字形数据的产生合压缩以及字形的还原技术。汉字字形库,依据其描述技术的不同,可以分为点阵字库、矢量字库和曲线轮廓字库。3.3文字识别 汉字识别是汉字自动、高速输入的一种重要方法,属于模式识别合人工智能范畴。汉字识别的类型主要分三大类:联机手写汉字识别、印刷体汉字识别和手写汉字识别。3.4语音识别 语音识别是一种不完备但又十分重要的信息输入手段。由于同音字的问题,用语音表示的句子是不完全确定的,因而语音识别的结果也是不完全确定的。语音识别必须在其他输入手段的辅助下才能完成信息输入任务,这是它的不完
10、备性。但它又是一种重要而理想的输入方法,因为用嘴输入信息更简单方便,可以把繁忙的双手解放出来。语音识别由于难度大,一直未能实用。1997年IBM公司率先在中国市场上推出了汉语语音识别系统,且识别效果尚可,一时引起很大震动。据某些业内人士分析,中国有很多单位在研究语音识别,赶不上IBM并不是我们的技术水平低,而是投入的人力和资金不足。3.5语音合成 在电子词典中我们可以听到计算机念出的英文(或汉语)单词的发音。由于词数有限,可以事先录好音存起来,需要时把其中的某个录音播放出来,这不叫语音合成。而任意输入一篇文章让计算机用语音念出来,这种随机的语音输出不可能事先录好音,这就需要计算机的语音合成技术
11、。语音合成在盲人阅读器、公共信息咨询系统、自动口语翻译等多种场合有广泛的应用。3.6情报检索 情报检索技术已在图书资料检索、网上搜索查询等领域被广泛应用。情报检索的性能指标是准确率(查准率)和召回率(查全率)。例如总共有10篇所需要的文档,用关键字检索后,系统提供了100篇文档,其中查询者需要的文档为5篇,则准确率为5%,查全率为50%。这两个指标是互相矛盾的,即要想查得准就可能查不全,反之要想查得全就可能查不准。目前更主要的问题一般还是查准率不能满足要求,即检索得到的无用文档太多。为了方便检索,一般提供多种检索手段。例如,图书资料检索时可以用关键字检索,也可用作者、出版社、书名、标题等检索。
12、3.7机器翻译 这里所说的机器翻译不是指市场上英汉、汉英这一类的电子词典。电子词典只是词对词的翻译而不是句对句的翻译。由于词的数量有限,可以事先把这些词与对应的翻译结果作成数据库供检索用,所以电子词典只是纸质词典的电子化版本,使用的技术也只是简单的匹配技术。这种技术完全无法用到句对句的翻译中去。我们这里所说的机器翻译正是指这种句对句的翻译。习题v在你的身边,你了解那些有关中文信息处理技术应用的实例,请谈谈它们的优缺点,并给出自己的建议。谢谢大家 再见人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。