1、文本数据处理文本数据处理非结构化数据结构化:缺一不可采集信息One day your teacher,day day your father有位书生到亲戚家串门,顷刻间外面就下起雨来,这时天已将晚,他只得打算住下来。但这位亲戚却不乐意,于是就在纸上写了一句话:下雨天留客天留人不留。书生看了,即刻明白亲戚的意思,却又不好明说,就心想一不做、二不休,干脆加了几个标点:下雨天,留客天,留人不?留!亲戚一看,这句话的意思完全反了。也就无话可说,只好给书生安排了住宿。下雨天留客天留人不留下雨天留客,天留人不留下雨天,留客天,留人不?留!一般采用词典法和一般采用词典法和统计法两者结合统计法两者结合基于词典
2、的分词方法file=”英文文本分析英文文本分析.txt”text=open(file).read()#读取文件读取文件words=text.split()#把每一行把每一行按照空格分词按照空格分词,变成列表变成列表print(words)输出输出:“red”,”apple”file=”英文文本分析英文文本分析.txt”text=open(file).read()for line in text:#获取每一行获取每一行print(words)输出输出:“red”,”apple”“The”,”apple”,”is”,”red”words=line.split()输出输出1:“我我”,”爱爱”,”信
3、息技术信息技术”,”信息技术信息技术”,“真真”,“简单简单”,“啊啊”import jiebafile=”中文文本分析中文文本分析.txt”text=open(file).read()words=jieba.lcut(text)#对对text分词分词print(words)import jiebafile=”中文文本分析中文文本分析.txt”text=open(file).read()for line in text:print(words)输出输出2:“我我”,”爱爱”,”信息技术信息技术”,”信息技术信息技术”,“真真”,“简单简单”,“啊啊”“不不”,“,”,“那是那是”,“你你”,“
4、觉得觉得”words=jieba.lcut(line)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)for cy in sent:print(cy)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)for cy in sent:-1:print(cy)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)count=0for cy in sent:if len(cy)=2:count =count+1pr
5、int(count)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)count=for cy in sent:if len(cy)=2:if cy in count:countcy=countcy+1else:countcy=1print(count)计算分词后的词语数(至少2字)统计分词后的词语(至少2字)及其数量特征提取特征提取表达文章的信息,表达文章的信息,区分文章的不同区分文章的不同特征提取的方式特征提取的方式文本数据分析与应用文本数据分析与应用数据分析:标签云数据分析:标签云词云词云文本可视化文本可视化数据分析:文本情
6、感分析数据分析:文本情感分析情感分析:这城市那么空,这回忆那么凶,这街道车水马龙,我能和谁相拥数据分析:文本情感分析数据分析:文本情感分析小结小结文本数据处理的主要应用有()搜索引擎自动摘要论文查重列车查询微博评论典型意见A.B.C.D.B练习Python中文分词模块jieba采用的分词方法属于A.基于词典 B.基于统计C.基于规则 D.以上都有可能A练习构造评估函数的特征提取法大多是基于()设计的A.语义分析B.情感分析C.概率统计D.专家知识C练习下列关于文本数据处理的说法,正确的是()A.处理的文本信息通常是结构化数据B.特征提取是中文文本信息处理的基础C.目前的分词算法能实现完全准确的
7、进行分词D.处理的目的是从大规模的文本数据中提取出符合需要的有用模式和隐藏的信息D练习练习C下列选项中不属于文本情感分析主要应用场景的是()A.网络舆情监控 B.用户评论C.分析与决策 D.统计字词的频度D练习在网上搜索朱自清的绿文章,如图所示。(1)搜索的信息并保存为txt文件,该过程称为_。(2)“绿.txt”文件是文本的类型是_。(填字母:A.结构化数据/B.半结构化数据/C.非结构化数据)Bimport collectionsimport jiebaimport wordcloud as wcimport numpy as npfrom PIL import Imagewcgwc.WordCloud(background_colorwhite,font_pathassets/msyh.ttf)textopen(data/绿.txt,encodingutf8).read()seg_list_fcollections.Counter(seg_list)wcg.fit_words(f)wcg.to_file(output/b.png)划线处语句是调用jieba对象的cut函数对变量为text文件进行分词,则该处语句为_。B(4)得到的云标签如图所示。该图片的文件名是_,表示该文本特征是_(至少写出3个)。B