4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx

上传人(卖家):Q123 文档编号:5426147 上传时间:2023-04-11 格式:PPTX 页数:30 大小:5.30MB
下载 相关 举报
4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx_第1页
第1页 / 共30页
4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx_第2页
第2页 / 共30页
4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx_第3页
第3页 / 共30页
4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx_第4页
第4页 / 共30页
4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx_第5页
第5页 / 共30页
点击查看更多>>
资源描述

1、文本数据处理文本数据处理非结构化数据结构化:缺一不可采集信息One day your teacher,day day your father有位书生到亲戚家串门,顷刻间外面就下起雨来,这时天已将晚,他只得打算住下来。但这位亲戚却不乐意,于是就在纸上写了一句话:下雨天留客天留人不留。书生看了,即刻明白亲戚的意思,却又不好明说,就心想一不做、二不休,干脆加了几个标点:下雨天,留客天,留人不?留!亲戚一看,这句话的意思完全反了。也就无话可说,只好给书生安排了住宿。下雨天留客天留人不留下雨天留客,天留人不留下雨天,留客天,留人不?留!一般采用词典法和一般采用词典法和统计法两者结合统计法两者结合基于词典

2、的分词方法file=”英文文本分析英文文本分析.txt”text=open(file).read()#读取文件读取文件words=text.split()#把每一行把每一行按照空格分词按照空格分词,变成列表变成列表print(words)输出输出:“red”,”apple”file=”英文文本分析英文文本分析.txt”text=open(file).read()for line in text:#获取每一行获取每一行print(words)输出输出:“red”,”apple”“The”,”apple”,”is”,”red”words=line.split()输出输出1:“我我”,”爱爱”,”信

3、息技术信息技术”,”信息技术信息技术”,“真真”,“简单简单”,“啊啊”import jiebafile=”中文文本分析中文文本分析.txt”text=open(file).read()words=jieba.lcut(text)#对对text分词分词print(words)import jiebafile=”中文文本分析中文文本分析.txt”text=open(file).read()for line in text:print(words)输出输出2:“我我”,”爱爱”,”信息技术信息技术”,”信息技术信息技术”,“真真”,“简单简单”,“啊啊”“不不”,“,”,“那是那是”,“你你”,“

4、觉得觉得”words=jieba.lcut(line)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)for cy in sent:print(cy)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)for cy in sent:-1:print(cy)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)count=0for cy in sent:if len(cy)=2:count =count+1pr

5、int(count)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)count=for cy in sent:if len(cy)=2:if cy in count:countcy=countcy+1else:countcy=1print(count)计算分词后的词语数(至少2字)统计分词后的词语(至少2字)及其数量特征提取特征提取表达文章的信息,表达文章的信息,区分文章的不同区分文章的不同特征提取的方式特征提取的方式文本数据分析与应用文本数据分析与应用数据分析:标签云数据分析:标签云词云词云文本可视化文本可视化数据分析:文本情

6、感分析数据分析:文本情感分析情感分析:这城市那么空,这回忆那么凶,这街道车水马龙,我能和谁相拥数据分析:文本情感分析数据分析:文本情感分析小结小结文本数据处理的主要应用有()搜索引擎自动摘要论文查重列车查询微博评论典型意见A.B.C.D.B练习Python中文分词模块jieba采用的分词方法属于A.基于词典 B.基于统计C.基于规则 D.以上都有可能A练习构造评估函数的特征提取法大多是基于()设计的A.语义分析B.情感分析C.概率统计D.专家知识C练习下列关于文本数据处理的说法,正确的是()A.处理的文本信息通常是结构化数据B.特征提取是中文文本信息处理的基础C.目前的分词算法能实现完全准确的

7、进行分词D.处理的目的是从大规模的文本数据中提取出符合需要的有用模式和隐藏的信息D练习练习C下列选项中不属于文本情感分析主要应用场景的是()A.网络舆情监控 B.用户评论C.分析与决策 D.统计字词的频度D练习在网上搜索朱自清的绿文章,如图所示。(1)搜索的信息并保存为txt文件,该过程称为_。(2)“绿.txt”文件是文本的类型是_。(填字母:A.结构化数据/B.半结构化数据/C.非结构化数据)Bimport collectionsimport jiebaimport wordcloud as wcimport numpy as npfrom PIL import Imagewcgwc.WordCloud(background_colorwhite,font_pathassets/msyh.ttf)textopen(data/绿.txt,encodingutf8).read()seg_list_fcollections.Counter(seg_list)wcg.fit_words(f)wcg.to_file(output/b.png)划线处语句是调用jieba对象的cut函数对变量为text文件进行分词,则该处语句为_。B(4)得到的云标签如图所示。该图片的文件名是_,表示该文本特征是_(至少写出3个)。B

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 高中 > 信息 > 浙教版(2019) > 必修1 数据与计算
版权提示 | 免责声明

1,本文(4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx)为本站会员(Q123)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|