ImageVerifierCode 换一换
格式:PPTX , 页数:30 ,大小:5.30MB ,
文档编号:5426147      下载积分:3 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-5426147.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(Q123)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx)为本站会员(Q123)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

4.2.3文本数据处理 ppt课件 (30张PPT)-2023新浙教版(2019)《高中信息技术》必修第一册.pptx

1、文本数据处理文本数据处理非结构化数据结构化:缺一不可采集信息One day your teacher,day day your father有位书生到亲戚家串门,顷刻间外面就下起雨来,这时天已将晚,他只得打算住下来。但这位亲戚却不乐意,于是就在纸上写了一句话:下雨天留客天留人不留。书生看了,即刻明白亲戚的意思,却又不好明说,就心想一不做、二不休,干脆加了几个标点:下雨天,留客天,留人不?留!亲戚一看,这句话的意思完全反了。也就无话可说,只好给书生安排了住宿。下雨天留客天留人不留下雨天留客,天留人不留下雨天,留客天,留人不?留!一般采用词典法和一般采用词典法和统计法两者结合统计法两者结合基于词典

2、的分词方法file=”英文文本分析英文文本分析.txt”text=open(file).read()#读取文件读取文件words=text.split()#把每一行把每一行按照空格分词按照空格分词,变成列表变成列表print(words)输出输出:“red”,”apple”file=”英文文本分析英文文本分析.txt”text=open(file).read()for line in text:#获取每一行获取每一行print(words)输出输出:“red”,”apple”“The”,”apple”,”is”,”red”words=line.split()输出输出1:“我我”,”爱爱”,”信

3、息技术信息技术”,”信息技术信息技术”,“真真”,“简单简单”,“啊啊”import jiebafile=”中文文本分析中文文本分析.txt”text=open(file).read()words=jieba.lcut(text)#对对text分词分词print(words)import jiebafile=”中文文本分析中文文本分析.txt”text=open(file).read()for line in text:print(words)输出输出2:“我我”,”爱爱”,”信息技术信息技术”,”信息技术信息技术”,“真真”,“简单简单”,“啊啊”“不不”,“,”,“那是那是”,“你你”,“

4、觉得觉得”words=jieba.lcut(line)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)for cy in sent:print(cy)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)for cy in sent:-1:print(cy)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)count=0for cy in sent:if len(cy)=2:count =count+1pr

5、int(count)import jiebasentence=input(输入文本)sent=jieba.lcut(sentence)count=for cy in sent:if len(cy)=2:if cy in count:countcy=countcy+1else:countcy=1print(count)计算分词后的词语数(至少2字)统计分词后的词语(至少2字)及其数量特征提取特征提取表达文章的信息,表达文章的信息,区分文章的不同区分文章的不同特征提取的方式特征提取的方式文本数据分析与应用文本数据分析与应用数据分析:标签云数据分析:标签云词云词云文本可视化文本可视化数据分析:文本情

6、感分析数据分析:文本情感分析情感分析:这城市那么空,这回忆那么凶,这街道车水马龙,我能和谁相拥数据分析:文本情感分析数据分析:文本情感分析小结小结文本数据处理的主要应用有()搜索引擎自动摘要论文查重列车查询微博评论典型意见A.B.C.D.B练习Python中文分词模块jieba采用的分词方法属于A.基于词典 B.基于统计C.基于规则 D.以上都有可能A练习构造评估函数的特征提取法大多是基于()设计的A.语义分析B.情感分析C.概率统计D.专家知识C练习下列关于文本数据处理的说法,正确的是()A.处理的文本信息通常是结构化数据B.特征提取是中文文本信息处理的基础C.目前的分词算法能实现完全准确的

7、进行分词D.处理的目的是从大规模的文本数据中提取出符合需要的有用模式和隐藏的信息D练习练习C下列选项中不属于文本情感分析主要应用场景的是()A.网络舆情监控 B.用户评论C.分析与决策 D.统计字词的频度D练习在网上搜索朱自清的绿文章,如图所示。(1)搜索的信息并保存为txt文件,该过程称为_。(2)“绿.txt”文件是文本的类型是_。(填字母:A.结构化数据/B.半结构化数据/C.非结构化数据)Bimport collectionsimport jiebaimport wordcloud as wcimport numpy as npfrom PIL import Imagewcgwc.WordCloud(background_colorwhite,font_pathassets/msyh.ttf)textopen(data/绿.txt,encodingutf8).read()seg_list_fcollections.Counter(seg_list)wcg.fit_words(f)wcg.to_file(output/b.png)划线处语句是调用jieba对象的cut函数对变量为text文件进行分词,则该处语句为_。B(4)得到的云标签如图所示。该图片的文件名是_,表示该文本特征是_(至少写出3个)。B

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|