1、张师林文本分类与挖掘技术文本分类与挖掘技术张师林文本分类和文本挖掘二、二、一、一、文本分类文本分类:传统或者经典的分本分类,文本中的任何一个词都可能对分类起到作用,用数据评判标准去衡量每个词的分类作用,保留有重要作用的词。特殊的文本分类,对分类起到作用的是某种特殊的词,比如按照地域分类,整篇文档中只有地名对分类起到作用。文本挖掘:文本挖掘:在大量的文本中,寻找频繁出现的词的规律。现在的想法是,把每个文本感兴趣的词抽取出来,插入数据库。然后在数据库中Apriori 算法关联规则挖掘,找出满足支持度的规则集合。张师林按照地区分类An对于文本文件,首先要分词,可供选用的分词手段如海量公司的分词数据包
2、,计算所的分词数据包,Lucence 分词数据包。Bn在本项目中使用了计算所的分词包进行二次开发,然后根据词性找出地名,每个文档生成一个地名词集合或称文本向量。Cn先把预先已经分好类的地名集合作为训练集,但是不需要训练过程,因为各个类别只有一个文件。张师林朴素贝叶斯算法分类张师林朴素贝叶斯算法分类张师林朴素贝叶斯算法分类张师林朴素贝叶斯算法分类张师林朴素贝叶斯算法分类张师林朴素贝叶斯算法分类张师林按照职位分类An在文本中抽取职位,作为每个文本的文本向量,因为只有职位对于分类有作用。这是算法的第一步。Bn但是毕竟职位有无数种,如果某种职位未登录,比如一个新的工种,绞丝工,这个名词抽取不了,则进入
3、第二步按普通文本处理来分类。Cn在第二步普通文本分类中,保留重要的分类词集和非常无用的词集,对于每个文本新出现的词,如果是不重要的词去除,重要的保留,新词重新计算,并自学习,最后贝叶斯文类。张师林按照职位分类张师林按照职位分类张师林按照职位分类张师林通用即经典文本分类An分词之后,必须先训练分本集,训练的过程就是在大量的已知类别的文档中,对于每类文档用一些文档向量去抽象和表达一类文档,也就是对一类多个文档进行总结的过程。Bn训练过程完成之后,生成一个训练模型,该模型用一个文本文件表示,表达了海量训练文本集的统计规律,用以以后文类。Cn然后使用贝叶斯,KNN,或者SVM三种经典算法把给定的一个文
4、档划分到给定类别中去。张师林通用即经典文本分类张师林通用即经典文本分类n特征空间维数表示要在整个训练集中提取多少个词用来分类。这些词对于分类最重要。n衡量每个词重要的指标有六种方式,分别是互信息量,信息增益,卡方统计,文本特征权重,右半信息增益,本质就是把词频,文档频带入6个公式计算所得,用以衡量词语重要性。n训练后生成模式,就是各类文档的统计特征张师林抽取的特征集(按权重排序)张师林类别表示张师林训练模式张师林SVM算法n对于N类问题构造N个分类器,第I个SVM训练器用第I类做正训练集,其他所有各类负的训练集。n最后输出为两类分类器最大的那一类。张师林分类过程张师林分类结果张师林一、关键内容
5、抽取一、关键内容抽取文本挖掘二、关联规则挖掘二、关联规则挖掘n在各个地区残疾人情况的文本中,地名,残疾类别,年份,残疾原因等词汇对于挖掘有用信息是非常有价值的,需要抽取并且放入数据库中。n把文本规范化之后,在数据库中就可以使用关联规则的挖掘著名算法Apriori算法挖掘满足给定支持度和可信度的规则。张师林待处理文本张师林文本内容张师林地区编码表n101 京津冀n102 东三省n103 福建江西n104 港澳台n105 广西广东云南n106 湖北湖南n107 江苏浙江n108 宁夏青海新疆n109 山东河南安徽n110 陕西内蒙n111 陕西甘肃n112 上海n113 云南贵州西藏n114 重庆
6、四川张师林残疾类别表n11 肢体残疾n12 视力残疾n13 语言残疾n14 智力残疾n15 精神残疾n16 听力残疾n17 综合残疾张师林视力残疾原因表n21 白内障n22 屈光不正n23 弱视n24 视网膜疾病n25 色素膜病变n26 角膜病n27 青光眼n28 高度近视张师林肢体残疾原因表n41 脑血管疾病n42 骨关节病n43 外伤张师林听力残疾原因表n31 老年性耳聋n32 中耳炎n33 其他n34 血管性疾病n35 感染性疾病n36 中毒n37 外伤n38 遗传n39 神经张师林智力残疾原因表n71 脑疾病n72 遗传n73 宫内感染n74 近亲婚配n75 缺碘n76 营养不良张师林精神残疾原因表n51 精神分裂症n52 痴呆n53 癫痫n54 抑郁张师林处理文档输出为数据库数据集张师林然后用Apriori算法挖掘关联规则张师林谢谢谢谢!