ImageVerifierCode 换一换
格式:PPT , 页数:33 ,大小:1.26MB ,
文档编号:4573624      下载积分:25 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-4573624.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(晟晟文业)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(中文分词-课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

中文分词-课件.ppt

1、预处理 网页的分类 页面分析 中文处理网页分类 Hub网页(Hub pages)提供向导的网页,如新浪主页,特征是链接集合 主题网页(authority page)通过文字具体说明一件或多件实物,如具体的新闻报道 图片、视频网页 是含图片或视频的主题网页,但文字特别少。页面处理 传统网页分类将整个网页看作一个原子单元进行整体处理,但是由于网页中一些“噪声”信息的存在,不仅增加了处理的复杂度,还影响了网页自动分类的效果,因而需要对网页进行预处理。近年微软亚洲研究院提出block based IR.一般主题网页的结构 标题(关键词和概括)正文 相关链接 导航信息 广告 装饰,Flash 版权,制作

2、者信息等网页分块方法(1)基于位置关系的分块法 利用网页页面的布局进行分块,将一个网页分成上、下、左、右和中间5个部分,再根据这5个部分的特征进行分类;实际的网页结构要复杂得多,这种基于网页布局的方法并不能适用于所有的网页;这种方法切分的网页粒度比较粗,有可能破坏网页本身的内在特征,难以充分包括真个网页的语义特征。网页分块方法(2)基于文档对象模型(DOM)的分块法 找出网页HTML文档里的特定标签,利用标签项将HTML文档表示成一个DOM树的结构;特定标签包括heading、table、paragraph和list等;在许多情况下,文档对象模型不是用来表示网页内容结构的,所以利用它不能够准确

3、地对网页中各分块的语义信息进行辨别。HTML语言编写的网页 Welcome Shandong Univ.HTML标记(和结构有关)总的标记个数100 通过src属性的控制,显示特定的图像;创建表格 用来排版大块的html段落 用来创建一个表单,定义用户一个输入区 创建一个下拉式表框 bc=redbc=whiteIMGTABLEBODYrootwidth=800 height=200TABLEwidth=800bc=redbc=whiteIMGTABLEBODYrootwidth=800 height=200TABLEwidth=800,网页分块方法(3)基于视觉特征网页分块法(VIPS)利用字

4、体、颜色、大小等网页版面特征,根据一定的语义关联,将整个网页表示成一棵HTML DOM树;利用横竖线条将DOM树节点所对应的分块在网页中分隔开来,构成网页的标准分块;每个节点通过一致度(DOC)来衡量它与其它节点的语义相关性,从而将相关的分块聚集在一起;利用预先设定的一致度(PDOC)作为阈值控制分割粒度,当所有网页的DOC都不小于PDOC时,网页分割就可以停止了。网页去重 由于互联网上存在大量的转载,如何判断是否A,B两个网页在内容上是一样的,并只存储无重复的网页内容的工作,称为网页去重基本方法 Fingerprinting(指纹方法)取出网页内容部分的文本,看成是字符串,利用hash函数产

5、生一个向量。若两个网页的hash函数产生的向量足够接近,认为是内容重复 最长公共子串 取出网页内容部分的文本,看成是字符串,若两个网页的公共子串足够长,认为是内容重复。把网页内容用bag of words表示,利用常用的相似度计算,相似度大的认为是重复。网页的主题提取和分词 发现主题文本 中文的分词处理 分词技术的广泛应用:信息检索、人机交互、信息提取、文本挖掘等。是相似度计算的基础。目前对分词的研究,大都集中于通用的分词算法,以提高分词准确率为目的。目前的分词算法中,一些切分精度比较高的算法,切分的速度都比较慢;而一些切分速度快的算法,因为抛弃了一些繁琐的语言处理,所以切分精度都不高。速度:

6、每秒几十k几M 切分正确率:80%98%中文分词简介和困难 中文分词(Chinese Word Segmentation):将一个汉字序列切分成一个一个单独的词。比如将“组合成分子时”切分成“组合/成/分子/时”。称为是歧义现象。人是根据上下文语义解决奇异,但计算机目前无法理解自然语言中的语义,目前常采用统计的方法解决 困难 分词规范:词的概念和不同应用的切分要求 分词算法:歧义消除和未登录词识别分词规范方面的困难 汉语中词的界定(基于词典)“教育局长”:“教育/局长”?“教育局/长”?“教育/局/长”?核心词表如何收词?即那些词作为词典中的词“给力”?“忽悠”词的变形结构问题:“看/没/看见

7、”,“相不相信”不同应用对词的切分规范要求不同 n-gram,n 取多大?分词算法上的困难 对未登录词识别 命名实体:数词、人名、地名、机构名、译名、时间、货币 缩略语和术语:“超女”、“非典”、“去离子水”新词的发现:“给力”、“忽悠”常用评测指标 召回率(Recall)分词:检索:准确率(Precision)分词:检索:正确切分的词语数切分准确率(Precision)=切分出的所有词语数检索出的相关文档数检索准确率(Precision)=检索出的所有文档数正确切分的词语数切分召回率(Recall)=答案中的所有词语数检索出的相关文档数检索召回率(Recall)=所有的相关文档数基于词典和规

8、则的方法 最大匹配 正向最大匹配、反向最大匹配和双向最大匹配 实现简单,而且切分速度快。但无法发现覆盖歧义,对于某些复杂的交叉歧义也会遗漏。全切分 利用词典匹配,获得一个句子所有可能的切分结果。时空开销非常大。基于理解的分词算法 模拟人的理解过程,在分词过程中加入句法和语义分析来处理歧义问题。难以将各种语言信息组织成机器可直接读取的形式,还处在试验阶段 基于大规模语料库的统计方法N元语法(元语法(N-gram)模型)模型121213121211211()(.)()(|)(|).(|.)(|.)nnnniiiP WP w wwP w P ww P ww wP ww wwP ww wwn 为2、3

9、、为组成词的字数基于字的切分方法N元切分法元切分法(N-gram):对一个字符串序列以N为一个切分单位进行切分。如二元切分法:“ABCDEFG”“ABCDEFG”交叉二元切分法(Overlapping Bigram):“ABCDEFG”“ABBCCDDEEFFG”简单快速,但会产生大量无意义的标引词,导致标引产生的索引文件的空间,以及检索和进行标引的时间都大大增加。同时,因为它的切分单位并非语言学意义上的词语,所以也会导致检索的查准率下降。中文分词系统 作为实用的分词系统的构建,一般是先选择一个语料库作为训练集,利用统计模型建立不同字组成词的概率,确定如何分词 语料库:指大量的文本,通常经过整

10、理,具有既定格式与标记;英文 text corpus 的涵意即为 body of text“例子:广州/ns 近日/t 举办/v 2010/t 亚运会/nsns noun;t:time,v:verb;语料库 语料库是通过分词系统、标注系统和人工校对建立的,一般根据新闻机构的文本建立的比较多,如北京大学建立的“人民日报标注语料”、“现代汉语语料库”、“古代汉语语料库”、“中英文双语语料库”.原则:规范、一致(看法一致)、规模(适当多的文本)以及均衡性(各种题材的文本都有)利用维基百科 利用维基百科发现实体 利用维基百科进行消歧 消歧是指对同一关键词,可能有不同的语义的分辨,如“苹果”www.wikipedia.org/所谓实体往往是指独立的、有各种独特特征的对象,如“山东大学”、“苹果”等利用Web上其他实体关系库 Free Base Knowledge graphs

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|