ImageVerifierCode 换一换
格式:PPTX , 页数:8 ,大小:6.24MB ,
文档编号:7671797      下载积分:15 文币
快捷下载
登录下载
邮箱/手机:
温馨提示:
系统将以此处填写的邮箱或者手机号生成账号和密码,方便再次下载。 如填写123,账号和密码都是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

优惠套餐
 

温馨提示:若手机下载失败,请复制以下地址【https://www.163wenku.com/d-7671797.html】到电脑浏览器->登陆(账号密码均为手机号或邮箱;不要扫码登陆)->重新下载(不再收费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录  
下载须知

1: 试题类文档的标题没说有答案,则无答案;主观题也可能无答案。PPT的音视频可能无法播放。 请谨慎下单,一旦售出,概不退换。
2: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
3: 本文为用户(momomo)主动上传,所有收益归该用户。163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

1,本文(《数据清洗基础与实践》课件第三章 电子表格与文本编辑器.pptx)为本站会员(momomo)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!

《数据清洗基础与实践》课件第三章 电子表格与文本编辑器.pptx

1、电子表格与文本编辑器电子表格与文本编辑器主 讲:主 讲:X X XX X X目录C o n t e n t电子表格中的数据清洗电子表格中的数据清洗1文本数据清洗文本数据清洗2电子表格中的数据清洗 电子表格在数据清洗方面的功能主要体现在两个方面:一是它可以将数据组织成列和行,第二个方面在于他的内置函数。1、Excel的文本分列功能 2、字符串的拆分 3、字符串的拼接 4、从关系数据库(以Mysql为例)中导入Excel数据 5、使用电子表格生成SQL语句 数据清洗技术路线数据的来源不同文本清洗RDBMS清洗Web内容清洗文本清洗路线 对文本进行清洗主要包括电子表格中的数据清洗和文本编辑器的数据清

2、洗。对于电子表格中的数据清洗,主要是利用表格中的行和列,以及电子表格中的内置函数。我们通常把一些数据复制到电子表格中,电子表格根据相应分隔符(制表位或逗号或其他)把数据分成不同的列。有时候会根据系统不同来人为地制定分隔符。对于文本编辑器中的数据清洗,主要是许多操作系统中集成了文本编辑器,如Windows操作系统中的文本编辑器。在进行文本清洗前,需要对数据进行整理,包括对数据中的数据改变大小写、在文本每一行前端增加前缀,主要是为了在转换过程中,有可以参考的分隔符。RDBMS清洗路线 RDBMS即关系型数据库管理系统,它作为经典的、长期使用的数据存储解决方案,成为数据存储的标准。但由于不同的人在设

3、计数据库时,往往存在设计缺陷,需要对数据库的数据进行清洗。通过清洗可以找到异常数据,通常使用不同的策略来清洗不同类型的数据。对于RDBMS数据的清洗,有两种方式可以选择,即可以先把数据导入数据库,然后在数据库端进行清洗;也可以在电子表格或文本编辑器中进行清洗。具体选择哪种方案,会根据不同的数据进行不同的选择。Web内容清洗路线 Web内容清洗,主要是清洗来自网络的数据,为其构建合理的清洗方案。Web数据主要来自HTML网页。HTML网页的页面结构决定了采取哪种方式。1HTML页面结构:文本组成。所以从Web中进行数据抽取,可有两种不同的方式,一种是行分隔方式,另一种是树形结构方式。在行分隔方式中,我们把网页的数据看作文本内容,把网页中的标签理解为分隔符,这样在进行数据抽取时就比较容易。2清洗方式:Web内容清洗可以有两种方式,一种是逐行方式,另一种是使用树形结构方式。逐行方式中,采用基于正则表达式的HTML分析技术,它是基于文件中的分隔符,配合正则表达式,获取需要的数据。Thanks谢谢您的聆听!谢谢您的聆听!

侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|