文本分类综述课件.ppt

上传人(卖家):晟晟文业 文档编号:4649119 上传时间:2022-12-29 格式:PPT 页数:38 大小:582.06KB
下载 相关 举报
文本分类综述课件.ppt_第1页
第1页 / 共38页
文本分类综述课件.ppt_第2页
第2页 / 共38页
文本分类综述课件.ppt_第3页
第3页 / 共38页
文本分类综述课件.ppt_第4页
第4页 / 共38页
文本分类综述课件.ppt_第5页
第5页 / 共38页
点击查看更多>>
资源描述

1、文本表示训练过程分类过程训练文本统计统计量特征表示学习分类器新文本特征表示类别kkkjiijijDFNTFDFNTFa2)/log(*)/log(*kkkjiijijDFNTFDFNTFa2)/log(*)0.1log()/log(*)0.1log()log(log11*)0.1log(1NjiijiijijijDFTFDFTFNTFa考虑该特征后的熵)|(log)|()()|(log)|()()(log)()Entropy(Expected)(EntropyGain(t)111tcPtcPtPtcPtcPtPcPcPSSiMiiiMiiiMiit(Kullback-Leibler diver

2、gence)iiitcPtcPtEntropy)|(log)|()(iiiicPtcPtcPtCE)()|(log)|()(ABCDttcc)()()()(),(22DCBADBCACBADNct),()()(212imiiAVGctcPt),(max)(212imiMAXctt)(log)()|(log)()()(log),(BACANAtPctPcPtPctPctImiiiAVGctIcPtI1),()()(),()(max)(1iimiMAXctIcPtI)|()|(log),(jjjjjctPctPtctcctRSJ的概率中出现非的概率中出现类文档个数的为出现jjjjctrctPctP

3、rctTSV,)|()|(log*),()|(log)|(1log()|(1log()|(logjjjjctPctPctPctP是相关的两篇文档yxxtytP,),|(YangYi-mingCCiijCCiijjcjcnnxnxww类C中心向量的权重训练样本中正例个数文档向量的权重22cxw)(ijcjijcjiicxwxwdCSV)()|()()()|()|(jjiijjiijcPcdPdPcPcdPdcP)()|()()()|()|(jjiijjiijcPcdPdPcPcdPdcP,独立性假设rkjikjicwPcdP1)|()|(参数计算Bayes公式1)(|)(1)()()(kkjkk

4、jjjcNccNcNcNccP总文档个数的文档个数kkjijjjijiNNccwcwP不同词个数的次数类所有文档中出现的词在类别文档中出现的次数在1)|(新文本k=1,A类k=4,B类k=10,B类带权重计算,计算权重和最大的类。k常取3或者5。wheat&form WHEATwheat&commodity WHEATbushels&export WHEATwheat&agriculture WHEATwheat&tonnes WHEATwheat&winter&soft WHEAT(粗糙集)RoughSet 逻辑表达式(AQ11算法)学习到如下规则22cxw)(ijcjijcjiicxwxw

5、dCSVOnline Learningijitcjtxywwcj)xw(2ic)()1(类c向量的第j个分量xi的第j个分量Learning RateTarget Value(0 or 1).c1c2cnInput LayerHidden LayerOutput LayerSupport VectorOptimal Separating HyperplanenRegression based on Least Squares Fit(1991)nNearest Neighbor Classification(1992)*nBayesian Probabilistic Models(1992)*

6、nSymbolic Rule Induction(1994)nDecision Tree(1994)*nNeural Networks(1995)nRocchio approach(traditional IR,1996)*nSupport Vector Machines(1997)nBoosting or Bagging(1997)*nHierarchical Language Modeling(1998)nFirst-Order-Logic Rule Induction(1999)nMaximum Entropy(1999)nHidden Markov Models(1999)nError

7、-Correcting Output Coding(1999)n.nPapersK.Aas and L.Eikvil.Text categorisation:A survey.Technical report,Norwegian Computing Center,June 1999 http:/ Xiaomeng Su,“Text categorization”,Lesson PresentationYiming Yang and Xin Liu.1999.A re-examination of text categorization methods.22ndAnnual Internatio

8、nal SIGIR http:/www.cs.cmu.edu/yiming/publications.htmlA Survey on Text Categorization,NLP Lab,Korean U.庞剑峰,基于向量空间模型的自反馈的文本分类系统的研究与实现,中科院计算所硕士论文,2001黄萱菁等,独立于语种的文本分类方法,中文信息学报,2000年第6期nSoftware:Rainbow http:/www-2.cs.cmu.edu/mccallum/bow/BoosTexter http:/ http:/ilk.kub.nl/software.html#timbl C4.5 http:/www.cs.uregina.ca/dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(文本分类综述课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|