1、大数据应用人才培养系列教材数据标注工程(新版)第一章数据标注概述1.1 数据标注的起源与发展1.2 数据标注的应用场景1.3 有多少智能,就有多少人工1.5 作业与练习大数据应用人才培养系列教材1.4 数据越多,智能越好1.1 数据标注的起源与发展 第一章 数据标注概述1.1 数据标注的起源与发展 第一章 数据标注概述 数据标注即通过分类、画框、标注、注释等,对图片、语音、文本等数据进行处理,标记对象的特征,以作为机器学习基础素材的过程。“这是一辆汽车”1.1.1 什么是数据标注1.1 数据标注的起源与发展 第一章 数据标注概述正是人类像教育小孩一样培养了AlphaGo,才让其“学会”下棋。不
2、同AlphaGo版本的棋力比较1.1.1 什么是数据标注1.1 数据标注的起源与发展 第一章 数据标注概述 图像标注1.1.1 什么是数据标注1.1 数据标注的起源与发展 第一章 数据标注概述 语音标注1.1.2 数据标注分类概述1.1 数据标注的起源与发展 第一章 数据标注概述 文本标注1.1.2 数据标注分类概述1.1 数据标注的起源与发展 第一章 数据标注概述 数据标注流程1.1.3 数据标注流程概述第一章数据标注概述1.1 数据标注的起源与发展1.2 数据标注的应用场景1.3 有多少智能,就有多少人工1.5 作业与练习大数据应用人才培养系列教材1.4 数据越多,智能越好1.2 数据标注
3、的应用场景 第一章 数据标注概述1.2.1 出行行业常见应用:以矩形框或描点对车辆进行标注;以矩形框或描点标注人体轮廊;采集地址兴趣点,在地图上做出相应地理位置信息标记的POI(Point of Interest)标记等。1.2 数据标注的应用场景 第一章 数据标注概述1.2.2 金融行业文字翻译、语义分析、语音转录、图像标注等,都是具有代表性的重要应用。1.2 数据标注的应用场景 第一章 数据标注概述1.2.3 医疗行业通过人体标框、3D画框、骨骼点标记、病历转录等应用,机器学习能够快速完成医学编码和注释,以及在远程医疗、医疗机器人、医疗影像、药物挖掘等场景的应用。1.2 数据标注的应用场景
4、 第一章 数据标注概述1.2.4 家居行业主要包括应用矩形框标记人脸,进行人脸精细分割;对家居物品进行画框标记;通过描点的方式进行区域划分;采集语音并进行标注处理等。1.2 数据标注的应用场景 第一章 数据标注概述1.2.5 安防行业对于数据标注人员而言,需要做的正是对训练图片中人物的性别、年龄、肤色、表情、头发以及是否带帽带眼镜等进行分类标注,或者对行人做标框处理,帮助机器获取快速识别能力。1.2 数据标注的应用场景 第一章 数据标注概述1.2.6 公共服务确定内容是否符合描述的内容审核,对具有相同意思的语句进行归类的语义分析、将音频转化为文字的语音转录,以及查看视频是否符合要求的视频审核等
5、都是数据标注中的常见应用。1.2 数据标注的应用场景 第一章 数据标注概述1.2.7 电子商务通过对产品打上结构化标签,包括品牌、颜色、型号、价格、款式、浏览量、购买量、用户评价等,建立360度的全景画像,从而为个性化推荐提供先决条件。第一章数据标注概述1.1 数据标注的起源与发展1.2 数据标注的应用场景1.3 有多少智能,就有多少人工1.5 作业与练习大数据应用人才培养系列教材1.4 数据越多,智能越好1.3 有多少智能,就有多少人工 第一章 数据标注概述1.3.1 有监督的机器学习有监督学习通过训练样本找出规律,对模型进行优化,使其具有判断与预知能力,这是向“样本”学习的过程。数据处理的
6、量级与质量又直接关系到机器的智能程度,也就是我们所说的“有多少智能,就有多少人工”。1.3 有多少智能,就有多少人工 第一章 数据标注概述1.3.2 最后一批人工智能的“老师”随着人工智能由弱人工智能向强人工智能直至超人工智能的转变,以及有监督学习向无监督学习或迁移学习的转变,数据标注的需求将大幅度削减,人工标注最终可能将不复存在。数据标注工程师将是陪伴人工智能成长壮大的最后一批“老师”,很可能成为最后被替代的人类。手动标记和流体标注对比(相差无几)第一章数据标注概述1.1 数据标注的起源与发展1.2 数据标注的应用场景1.3 有多少智能,就有多少人工1.5 作业与练习大数据应用人才培养系列教
7、材1.4 数据越多,智能越好1.4数据越多,智能越好 第一章 数据标注概述在谷歌和 CMU联合发布的一篇论文中明确指出,深度学习的成功归功于:(a)高容量的模型;(b)越来越强的计算能力;(c)可用的大规模标签数据。研究当数据规模成百倍成千倍增长时,人工智能研究的精度与准确性会怎么改变呢?1.4数据越多,智能越好 第一章 数据标注概述为了得到确实的结果,研究人员应用Google建立的内部数据集JFT-300M(数据是ImageNet 的 300 倍,含有超过10亿个标签)进行研究。结果显示,任务性能与训练数据之间关系紧密,大规模数据有助于表征学习,同时随着训练数据的数量级增长,模型性能呈线性增长,大规模的数据集对于预训练而言大有助益。测试性能随数据量呈线性增长第一章数据标注概述1.1 数据标注的起源与发展1.2 数据标注的应用场景1.3 有多少智能,就有多少人工大数据应用人才培养系列教材1.5 作业与练习1.4 数据越多,智能越好1如何理解数据标注与人工智能的关系?2什么是数据标注?3数据标注对象可以划分为哪几类?4数据标注流程包括哪些环节?5数据标注有哪些应用场景?6如何理解“有多少智能,就有多少人工”?7.数据量级与智能程度之间存在怎样的联系?习题:感谢聆听