1、大学计算机基础补充实验西安交通大学 程向前SELECT DISTINCT words.words FROM words;必须删除第一个“空”的记录;words表也是!表也是!一些中心词汇文章的主旨SELECT DISTINCTROW stem.word,First(words.words)AS words 之 第一条记录,Count(*)AS words之计数FROM stem INNER JOIN words ON stem.word=words.wordsGROUP BY stem.word;英文词汇容易区分,以空格为依据中文词汇的区分是一们专门的学问,称为“分词”中文分词是互联网应用不可
2、缺少的基础技术之一,也是其他语音和语言产品必不可少的技术组件经过连续多届国际中文分词评测,由字构词的分词方法获得了压倒性优势极速分词采用由字构词技术路线,同时优化了分词速度,使得极速分词引擎具备了分词速度快和分词精度高的双重优势目录结构说明:api.动态链接库 sample.调用动态链接库示例代码 FasterSeg.bat.分词批处理程序,体验又快又好分词 WS.exe.分词可执行文件 free.knowledgebase.免费版分词知识库Step-1:将网上的“十八大报告”,复制到”18.txt”文件中,将faster目录下的”test”的内容替换成为“18.txt”的内容Step-2:点击“FastSeg.bat”进行处理:这里采用(默认的)test作为输入文件,test.out作为输出文件Step-3:打开test.out文件,检查分词结果:Step-4:将test.out的内容,复制到Word中,将所有的分词产生的空格全部替换成为“Enter”(段落标记)再复制到电子表格出现频率在80次以上的重要词汇