《数据标注工程》第二章数据采集和清洗课件.pptx

上传人(卖家):ziliao2023 文档编号:5582428 上传时间:2023-04-25 格式:PPTX 页数:14 大小:2.85MB
下载 相关 举报
《数据标注工程》第二章数据采集和清洗课件.pptx_第1页
第1页 / 共14页
《数据标注工程》第二章数据采集和清洗课件.pptx_第2页
第2页 / 共14页
《数据标注工程》第二章数据采集和清洗课件.pptx_第3页
第3页 / 共14页
《数据标注工程》第二章数据采集和清洗课件.pptx_第4页
第4页 / 共14页
《数据标注工程》第二章数据采集和清洗课件.pptx_第5页
第5页 / 共14页
点击查看更多>>
资源描述

1、大数据应用人才培养系列教材数据标注工程第三章数据标注分类3.2 语音标注3.3 文本标注大数据应用人才培养系列教材3.4 作业与练习3.1 图像标注3.1 图像标注 第三章 数据标注分类3.1.1 什么是图像标注 图像标注问题的本质是视觉到语言的问题,用通俗的话来说,就是“看图说话”。这就好比我们小时候在做看图说话题目一样,同理,我们也希望算法能够根据图像得出描述其内容含义的自然语句和自然语言。但是,这对于小朋友来说小事一桩的小儿科级工作,对于计算机视觉领域来说,却是一个不小的挑战。因为图像标注问题需要在两种不同形式的图像信息到文本信息之间进行“翻译”才行。3.1 图像标注 第三章 数据标注分

2、类3.1.2 图像标注应用领域 我们把一副1818像素的图片当成一串324个数字的数列。为了更好地操控我们输入的数据,我们不妨把神经网络扩大到324个输入节点。第一个输出预测图片是“6”的概率,第二个则输出预测不是“6”的概率。也就是说,这样我们就可以依据多种不同的输出,应用神经网络把要识别的物品进行分组。先对大批的“6”和非“6”图片进行标注,相当于我们明确告诉它我们判定为“6”的图片是“6”的概率是100%,不是“6”的图片其概率为0;对应的非“6”的图片,我们明确告诉它我们输入的图片是“6”的概率为0,不是“6”的概率是100%。我们可以利用计算机用几分钟的时间来训练这种神经网络。完成之

3、后,我们便可以得到一个有着很高的“6”图片识别率的神经网络。3.1 图像标注 第三章 数据标注分类图像标注应用领域划分拉框标注;切割标注AI车牌识别云服务智慧路灯伴侣云平台人脸关键点的标注;240个点的人脸关键点位标注模糊人脸识别分析+精确人像对比二合一应用车辆车牌标注人像识别标注医疗影像技术发展还不够成熟,进入门槛较高AI前列腺癌诊断尺寸标注;表面粗糙度标注研发智能化的服务机器人医疗影像标注机械影像标注第三章数据标注分类3.1 图像标注3.3 文本标注大数据应用人才培养系列教材3.4 作业与练习3.2 语音标注3.2 语音标注 第三章 数据标注分类3.2.1 什么是语音标注 一般来说,语音标

4、注与我们生活的众多方面都是息息相关的。比如,我们在使用微信时,语音可以转换成文字,在使用百度地图APP上的小麦克风功能,或者京东客服里的直接说出问题,JIMI对应解决等功能。这些都需要前期大量的人工去标记这些“说出的话”所对应的“文字”,采用人工的方式一点点去修正语音和文字间的误差。这就是语音标注。3.2 语音标注 第三章 数据标注分类3.2.2 客服录音数据标注规范142563确 定 是 否 包 含 有效 语 音确 定 语 音 的 噪 声情 况确 定 说 话 人 数 量语 音 内 容 方 面确 定 是 否 包 含 口音确 定 说 话 人 性 别第三章数据标注分类3.1 图像标注3.2 语音标

5、注大数据应用人才培养系列教材3.4 作业与练习3.3 文本标注3.3 文本标注 第三章 数据标注分类 文本标注其实是一个监督学习问题。我们可以把标注问题看作是分类问题的一种推广方式,同时,标注问题也是更复杂的结构预测问题的简单形式。标注问题,其输入是一个观测序列,其输出是一个标记序列护着状态序列。标注问题的目的是学习模型,使该模型能够对观测序列给出标记序列作为预测。需要注意的是,标记个数是有限的,但其组合缩成的标记序列的个数是依照序列长度呈指数级增长的。作为最常见的数据标注类型之一,文本标注是指,将文字、符号在内的文本进行标注,让计算机能够读懂识别,从而应用于人类的生产生活领域。3.3.1 什

6、么是文本标注3.3 文本标注 第三章 数据标注分类3.3.2 文本标注应用领域1.客服行业。主要集中在场景识别和应答识别。以不少电商平台的智能客服机器人为例,当用户在购物遇到问题,人工智能将根据用户的咨询内容切入到对应的场景里,根据用户的具体问题,给出对应的回答。2.金融行业。线上平台标注和线下表格标注,是金融行业文本标注主要的标注形式。一般,出现错误的情况,被称作“badcase”。打个比方,当用户问信用卡怎么办理的时候,机器人回复的却是储蓄卡的办理流程,这就是出现了badcase”。3.医疗行业。对自然语言进行标记处理,需要专门的医学人才才能进行。首先明确每个词的属性,即每个词在这种语境下面具备怎样的属性。然后标注每个词在句子中的作用。举个例子,患者主诉为:腰痛2年,伴左下肢放射痛10日余。第三章数据标注分类3.1 图像标注3.3 文本标注大数据应用人才培养系列教材3.2 语音标注3.4 作业与练习1数据标注有哪些分类?请简要概括。2你怎样理解图像标注的概念。3图像标注有哪些具体应用。4你怎样理解语音标注的概念。5语音标注的规范有哪些?请详细论述。6你怎样理解文本标注的概念。7文本标注有哪些具体应用。习题:AIRack人工智能实验平台一站式的人工智能实验平台DeepRack深度学习一体机开箱即用的AI科研平台BDRack大数据实验平台一站式的大数据实训平台

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(《数据标注工程》第二章数据采集和清洗课件.pptx)为本站会员(ziliao2023)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|