基于众包训练数据的中文实体标注研究-课件.pptx

上传人(卖家):三亚风情 文档编号:3496255 上传时间:2022-09-07 格式:PPTX 页数:37 大小:10.28MB
下载 相关 举报
基于众包训练数据的中文实体标注研究-课件.pptx_第1页
第1页 / 共37页
基于众包训练数据的中文实体标注研究-课件.pptx_第2页
第2页 / 共37页
基于众包训练数据的中文实体标注研究-课件.pptx_第3页
第3页 / 共37页
基于众包训练数据的中文实体标注研究-课件.pptx_第4页
第4页 / 共37页
基于众包训练数据的中文实体标注研究-课件.pptx_第5页
第5页 / 共37页
点击查看更多>>
资源描述

1、基于众包训练数据的中文实体标注研究陈文亮苏州大学人类语言技术研究所(SUDA-HLT)2017-12知识图谱 知识图谱本质上是一种语义网络。其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。知识图谱规模庞大本报告涉及内容新数据KG数据融合新关系语言分析知识获取信息抽取NER主要内容 噪音训练数据 众包NER数据 基于众包数据的NER研究进展 总结噪音训练数据 NLP系统构建 给定一个NLP任务 通常需要训练语料,理想是100%正确语料 专家语料 LDC分词语料/北大分词语料一致性都低于99%常见人工语料 一致性更差场景1:多快糙省多快糙省构建人工语料

2、 任务:新领域/新任务 例子:互联网文本处理 文本种类多、数量大 微博、微信。论坛帖子,如百度贴吧、水木社区 用户评论文本 博客。场景1:多快糙省多快糙省构建人工语料 在处理互联网文本面临的挑战 现有语言分析工具性能下降的很快 互联网文本通常没有人工标注语料 专家标注 代价高,速度慢 在新领域中,有时候不得不标一些新语料 少、慢、好、贵 众包数据 非专家标注员快速完成语料标注,包含大量噪音 多、快、糙、省场景2:现有一个列表,如何构建新系统 任务:有一个实体表/KB关系表,构建能识别类似实体的系统 例子:识别歌名,现有一个歌名表,要求识别句子中的歌名 问题:一般都缺乏标注语料 远程监督数据 使

3、用现有KB自动生成训练语料,也包含大量噪音NER系统构建场景 研究课题 有一定规模的人工标注训练语料 常见领域:新闻领域 常见类别:人名、地名、组织机构名等 目标:构建在测试集上表现很好的系统 实际应用 新领域:电商领域、对话领域、金融领域等 新类别:产品、品牌、歌名等 目标:构建在新领域里面还算能用的系统 问题:通常无人工标注训练语料招人,标语料标注数据 专家标注员(适用于不计成本的主)对标注规范了如指掌,且有耐心标注 优点:标注质量高 缺点:难找且贵 普通标注员(适用于精打细算的主)对标注规范粗通(能花15分钟阅读规范就是好标注员)优点:数量多,便宜 缺点:标注质量较低标注数据 有些缺钱但

4、希望拥有高质量语料的研究者 中间路线:N名普通标注员+12名专家 完美结合:专家负责解决难题,普通人解决简单题 预算合适:一群便宜的+几位贵的 标注速度:应该是很快的 多、快、好、省 为了这个美好路线,苏大设计SNAP系统SNAP标注系统 苏州大学SNAP标注系统 任务类型:分类任务、序列标注任务和句法标注任务 序列标注任务:NER、分词、词性 浏览器模式:支持多人同时标注 质量控制:随机多人普通标注员标注 专家审核标注不一致 投诉机制 权威专家确定答案 标注员评价 地雷审核 反馈学习专家意见SNAP标注系统(Demo)数据标注:理想 VS 现实 理想:句子-普通标注员-偶尔求助专家标注员-完

5、美收工待标句子待标句子普通标注员专家标注员数据标注:理想 VS 现实 现实:普通标注员 不停的问专家 各种问-专家崩溃待标句子待标句子普通标注员专家标注员X专家崩溃后。普通标注员 按照自己的理解标注完任务 领着报酬,愉快地走了 留下众包标注数据 数据规模是很大的 有些标注挺好的,但有很多是有冲突的 专家对这些结果是不满意的例子(差别很大)研究者的想法 三个臭皮匠可以抵得上一个诸葛亮 钱已经花了,留下了众包数据 果断抛弃专家,直接用众包数据 从众包数据学习一个可用中文NER系统 学习众人取得的共识信息 消解一些相互冲突的标注噪音 IBM的Jelinek:“每当我解雇一个语言学家,语音识别系统的性

6、能就会改善一些。”(“Every time I fire a linguist the performance of the recognizer improves”.)某些研究者:当我解雇所有标注专家,在群众帮助下NER系统依然可以改善一些。简单方法-直接使用 假装这个数据是专家标注的 直接使用LSMT-CRF训练简单方法-投票 对众包语料采用少数服从多数原则再处理小白小白,我们玩个成语接龙吧!你说谢谢的诗意哥哥吗?简单方法-投票 得到投票后的训练语料 直接使用CRF或者LSTM-CRF训练 但是效果不好LSTM-crowd 把每个标注员都表示为向量 问题:测试时无法获得标注员信息方案一方案

7、二(Nguyen et al.,2017)普通标注员的“特点”快速看实体定义规范(15分钟),比如电商的产品 和自己脑海里面的产品概念进行拟合 直接开工 可以快速标注句子 每个人由于背景/知识面不同,对规范理解会不同 标注员的共性 有些人对鞋子了解的多一些 有些人对衣服了解的多一些。我们专注的对象对抗网络 适用任务 跨语言(Cross-Lingual)跨领域(Domain Adaptation)多任务(Multi-task)通过对抗网络学习 学习不同语言共性 学习不同领域共性 学习不同任务共性跨语言两种语言的语料两种语言的共性表示分类器分不出输入语言任务相关模块跨领域两种领域的语料两种领域的共

8、性表示分类器分不出输入领域任务相关模块众包数据学习 对抗学习:学习共性 步骤1:输入各个标注员标注的语料 步骤2:学习出来的标注员的“共性”步骤3:分类器分不清是谁标注的 困难 不同领域、不同语言的特征明显 如何区别标注员呢?ALCrowd框架LSTM-CRF共享特征2共享特征1标注员分类器语料实体标注NER相关特征优化目标数据 数据1:DL-PS 狗尾草公司对话数据 16948句子 标注类别:人名和歌名 43名标注员,每个句子3名标注员 数据2:EC-MT/UQ 阿里电商Title和Query 2337句Title和2300句Query 类别:品牌、产品、型号、材料、规格 5名标注员,每个句

9、子2名标注员 无标注数据:5M互联网用户生成数据实验结果:DL-PS+7.2 众包数据直接用也是可以的 ALCrowd效果明显(+1.1)实验结果:EC 众包数据直接用也是可以的 ALCrowd效果明显(+1.2 +2.4)+11.57+4.51预先训练的Embeddings的作用 Pre-trained Embeddings还是很有用的分析 封闭测试(train-train)ALCrowd可以较好综合普通标注员的标注结果结束语 专家标注数据质量高,但是不好搞少慢好贵 普通标注员可以快速得到大规模标注数据多快糙省 在众包数据上可以构建较好的NER系统 如何充分利用众包数据还有很长的路要走 谢谢

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(基于众包训练数据的中文实体标注研究-课件.pptx)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|