1、语义实体识别第1页,共37页。大纲 动机 语义实体 相关概念 两类特征 序列标注模型 试验第2页,共37页。动机 传统文本挖掘的第一步就是分“词”分词粒度对不同web应用的影响搜索应用对分词粒度不敏感 语义分析要求具有特定含义的词语组合不能被分开,比如:小沈阳 甲型H1N1流感 女性车厢 云锦袈裟 公交自燃 绿坝花季护航第3页,共37页。语义实体 语义实体:web文档中描述现实世界中确切对象名称的词语组合。person(释永信,周跑跑,西单天使,大S)location(上海市普陀区)organization(华师大)product(OPPO手机)event(公交自燃)Common object
2、(云锦袈裟,救生锤)Abstract concept(新农村,甲型H1N1流感)第4页,共37页。语义实体相关概念 命名实体(MUC,TREC,CONLL,ACE,SIGHAN)人名,地名,机构名,日期,时间,数值,百分比 区别 传统命名实体类别有限,本文定义的语义实体不限制其类型。第5页,共37页。语义实体相关概念 方法区别 传统命名实体识别方法主要使用CRF模型,本文将CRF模型的输出作为特征之一,结合语言无关的统计特征,使用SVM进行训练。第6页,共37页。语义实体的两类特征 语义实体上下文特征语义实体本身的文本内容,以及周围的文本内容蕴含了大量提示信息 语义实体的统计特征语义实体多次在
3、不同的上下文出现第7页,共37页。实体上下文特征 广东省交通厅展开了修复工作。据广东省交通厅副总工程师左智飞介绍,修复工程主要由两部分组成:即受损梁体拆除及南主桥重建,其中在南主桥重建过程中,采用了米独塔组合梁斜拉桥作为重建桥桥型方案。通过序列标注模型获得实体上下文特征度量第8页,共37页。序列标注模型 X=x1,x2,x3,.,xn为观察到的序列 Y=y1,y2,y3,.,yn为针对X的标注序列Xx1x2x3x4x5x6x7Observed sequence史玉柱当年就是高考状元Yy1y2y3y4y5y6y7Labeled sequenceBMEOOBEB M E分别代表实体三个组成部分,即
4、开始部分,中间部分,末尾部分O表示不是实体的任何组成部分第9页,共37页。序列标注模型 Training Data SetX(1),Y(1),X(2),Y(2),X(3),Y(3),X(n),Y(n)Build a model to predict Y given XY*=argmax P(Y*/X)经典序列标注模型 HMM MEMM CRF第10页,共37页。Generative Models(HMM)HMM对联合概率P(X,Y)建模。)/()()/()/()(),()(),(P(Y/X)YXPYPXYPYXPYPYXPXPYXP通过两个假设求P(X,Y)假设1:当前状态仅与前一个状态有关假
5、设2:当前的观察仅与当前状态有关第11页,共37页。HMMM模型的参数参数参数含义含义实例实例N标注的数目B M E OM观察的词语数目史,高考,A标注之间的转移概率P(y2=M/y1=B)B给定标注下,观察到的词语的概率分布P(x1=史/y1=B)p初始标注的概率分布P(y1)第12页,共37页。参数估计 给定训练集X(1),Y(1),X(2),Y(2),X(3),Y(3),X(n),Y(n)如何调整模型参数A,B,p,使得 最大niiBAXP),/()(第13页,共37页。推理 给定观察序列X=x1,x2,xT以及参数A,B,p,如何选择一个对应的状态序列Y=y1,y2,yT,使得Y能够最
6、为合理的解释观察序列X?第14页,共37页。HMM的缺点HMM的两个假设在很多情况下都不成立 在很多情况下,当前状态可能依赖于整个观察序列。我们需要的是P(Y|X),可是HMM优化的目标是P(X)Y1Y2YnX1X2Xn第15页,共37页。Conditional Random Field 直接对条件概率P(Y/X)进行建模 线性CRF的假设:当前状态yj依赖于前面的状态yj-1和整个观察序列X 对当前状态yj,前面的状态yj-1,整个观察序列X的依赖关系,通过特征函数fi(yj-1,yj,x)刻画。第16页,共37页。特征函数 1 yj-1=B,yj=E,xj-1=李,xj=明f1(yj-1,
7、yj,x)0 1 yj-1=B,yj=M,xj-1=上海,xj+1=公司f2(yj-1,yj,x)0第17页,共37页。特征函数m个特征函数yj,yj-1,X的依赖关系Y,X的依赖关系),(1jXyyjjj),(11jXyyjjjnj),(1jXyyjjj第18页,共37页。特征函数归一化第19页,共37页。训练 Maximum likelihood第20页,共37页。推理12K12K12K12K21K2x1 x2 x3.xnhttp:/en.wikipedia.org/wiki/Forward-backward_algorithmY*=argmax P(Y*/X)http:/en.wikip
8、edia.org/wiki/Viterbi_algorithm第21页,共37页。kini1)()1,()()(111tjyiyijttkitt),()()(111tiyjyijttkitt t(i)表示从位置1到位置t,并且位置t的状态为i的所有路径概率之和。t(i)表示从位置n到位置t,并且位置t的状态为i的所有路径概率之和。所有路径概率之和:kii11)(12K12K12K12K21K2x1 x2 x3.xnForward-backward algorithm第22页,共37页。边缘概率 在位置j标注为B的边缘概率P(yj=B/X)在位置j+k标注为E的边缘概率P(yj+k=E/X)ki
9、jjjkijijByiyi11111)()(,()(kikiikjEyiyikjkjkjkj11)()(,()(111第23页,共37页。HMM vs CRF第24页,共37页。统计特征 1)语义实体的内部紧密性 2)语义实体的上下文独立性(Accessor Variety)AV(ab)=min(|XL|,|XR|)其中XL=x|xab为文档中的连续汉字串 其中XR=x|abx为文档中的连续汉字串|XL|,|XR|分别为集合XL,XR包含的元素个数在文档中出现的次数表示汉字其中互信息a)a(f)()()(MI(ab)bfafabfMi越高说明ab越相关,越可能成为实体AV值越高说明ab上下文独
10、立性越强,越可能成为实体第25页,共37页。新华 网 北京 6 月 8 日 电 (记者 周 婷 玉 )作为 我国 内地 唯一 具备 大 流行 流感 疫苗 生产 资质 的 企业 ,北京 科 兴 生物制品 有限公司 8 日 拿到 来自 美国 CDC 的 甲型 H1N1 流感 疫苗 生产 用 毒 株 ,这 意味着 我国 甲型甲型 H1N1 流感流感 疫苗疫苗 “盼 尔 来 福 ”的 批量生产 正式 启动 。记者 8 日 从 卫生部 获悉 ,由 美国 疾病 预防 控制 中心 和 英国 生物制品 检定 所 提供 的 ,为 世界 卫生组织 认定 的 甲型甲型 H1N1 流感流感 疫苗疫苗 毒 株 8 日
11、下午 相继 运 送到 京 ,这些 疫苗 毒 株 被 立即 发往 相关 疫苗 生产 企业 。此前 ,英国 生物制品 检定 所 提供 的 疫苗 毒 株 分别 于 6 月 3 日 和 6 月 5 日 运往 华 兰 生物 工程 股份有限公司 和 大连 雅 立 峰 生物 制药 有限公司 。北京 科 兴 公司 总经理 尹 卫 东 介绍 说 ,在 国家 应对 甲型 H1N1 流感 联防 联 控 保障 组 以及 海关总署 和 国家 质检 总局 等 部门 的 大力 支持下 ,来自 美国 CDC 的 甲型 H1N1 流感 疫苗 生产 用 毒 株 NYMCX-179A 于 8 日 晚 送 抵 北京 科 兴 。北京
12、科 兴 拿到 毒 株 后 迅速 启动 毒 株 种子 批 制备 工作 。据了解 ,单 批 疫苗 生产 需 经历 病毒 接种 、病毒 培养 、病毒 灭 活 、纯化 、配比 、分 包装 及 批 签发 等 步骤 才能 最终 投入 使用 。为 达到 疫苗 的 保护 效果 ,并 节省 抗原 ,北京 科 兴 这次 甲型甲型 H1N1 流感流感 疫苗疫苗 采 用了 佐 剂 疫苗 的 生产 工艺 。顺利 的 话 第 一批 疫苗 将 在 7 月底 生产 出来 。北京 科 兴 现有 大 流行 流感 疫苗 生产线 的 设计 年生产能力 为 2000 万 至 3000 万 支 ,是 我国 内地 唯一 具备 大 流行 流
13、感 疫苗 生产 资质 的 企业 。由于 大 流行 流感 疫苗 的 需求量 巨大 ,北京 科 兴 的 产能 难以 完全 满足 国家 和 公众 的 需求 。为 给 尽可能 多 的 人群 提供 保护 ,北京 科 兴 决定 与 国内 几家 季节性 流感 疫苗 生产 厂家 结成 联盟 ,把 北京 科 兴 从 2004 年 以来 开展 的 相关 研究所 形成 的 大 流行 流感 疫苗 生产 关键 技术 与 合 作者 分享 ,共同 承担 疫苗 “盼 尔 来 福 ”的 生产 。尹 卫 东 告诉 记者 ,“盼 尔 来 福 ”的 生产 和 检定 将 严格 按照 国家国家 食品食品 药品药品 监管监管 局局 批准
14、的 大 流行 流感 病毒 灭 活 疫苗 制造 及 检定 规程 进行 。国家国家 食品食品 药品药品 监管监管 局局 也 已 及时 出台 大 流行 流感 疫苗 特别 审批 应急 工作 方案 ,使 疫苗 合作 生产 有法可依 ,保证 疫苗 的 生 产科学 、依法 、有序 、高效 地 进行 ,保证 疫苗 使用 的 安全性 。2004 年 ,北京 科 兴 与 中国 疾病 预防 控制 中心 合作 ,在 科技 部 、卫生部 的 支持下 开始 大 流行 流感 原型 疫苗 的 研究 ,并在 国家 发展 改革 委 的 支持下 建设 了 一条 全新 的 自动化 分 包装 线 。2008 年 这一 疫苗 成功 完成
15、 临床 研究 并 获 国家国家 食品食品 药品药品 监管监管 局局 颁发 的 生产 批件 。北京 科 兴 公司 一直 致力于 人用 疫苗 及 相关 产品 的 研发 、生产 及 销售 。目前 上市 产品 包括 甲型 肝 灭 活 疫苗 “孩 尔 来 福 ”,甲 乙型 肝炎 联合 疫苗 “倍 尔 来 福 ”等 。第26页,共37页。统计特征 甲型H1N1流感疫苗 av=3 国家食品药品监管局 av=3 甲型H1N1流感疫苗 mi=0.0962 国家食品药品监管局 mi=0.1875第27页,共37页。统计特征(3)IDF(Inverse document frequence)N:文档总数dfi:包含
16、单词 ti 的文档数idfi=log(N/dfi)语义实体周围通常有大量低idf值的词语不但 是 满文军,所有 明星 们 都 不必 对 老百姓 道歉广州、武汉、杭州、南京 等 多个 城市 的 水幕电影 都是 宜兴 人“造”出来 的 取证难是高空抛物的第一大难题,有90多的高空抛物事件找不到肇事者,根据民法通则的有关规定,对高空坠物(包括乱扔东西)导致他人受损害的案件,庭审将实行“举证倒置”。第28页,共37页。的 2.282223610840561在 2.984607091520017和 3.0261431167739294是 3.4095322731828936了 3.50451499569
17、01813年 3.7774996834197982月 3.8359578839063926为 3.892722906710583日 3.9269296621121192对 3.969967173792101与 4.039233232003877等 4.109251218906073中 4.15420260676834发展 4.179815182625067有 4.225661570750485也 4.250662872955902国家 4.302622611886613这 4.321465699688093以 4.329651284274533工作 4.346226249368745记者 4.
18、346226249368745中国 4.357430848381608他 4.391818190691084说 4.418407644880324地 4.4214061478765805经济 4.4214061478765805从 4.4274302624799615将 4.43653502947288新 4.4612276420632515要 4.502700890269827一个 4.519121620482155我们 4.570066422097403就 4.584101740213787而 4.594759034687774鹿儿岛 10.229548637857024鹿特丹 10.22
19、9548637857024麦当劳 10.229548637857024麦苗 10.229548637857024麻省 10.229548637857024麻袋 10.229548637857024黄埔 10.229548637857024黄山 10.229548637857024黄昏 10.229548637857024黄河流域 10.229548637857024黄浦 10.229548637857024黄牛 10.229548637857024黄玉 10.229548637857024黎族 10.229548637857024黑了 10.229548637857024黑人 10.22954
20、8637857024黑暗 10.229548637857024黑洞 10.229548637857024黑白 10.229548637857024黑马 10.229548637857024黔东南 10.229548637857024黔江 10.229548637857024默默无闻 10.229548637857024鼓劲 10.229548637857024鼓掌 10.229548637857024鼓楼 10.229548637857024鼓浪屿 10.229548637857024鼓鼓 10.229548637857024齐家治国 10.229548637857024齐心 10.22954
21、8637857024龃龉 10.229548637857024龙舞 10.229548637857024龙门 10.229548637857024IDF特征第29页,共37页。统计特征(4)X=xaby EL(x)x为实体左边单词的概率EH(a)a为实体头单词的概率EE(b)b为实体尾单词的概率ER(y)y为实体右边单词的概率第30页,共37页。统计特征有用吗?嵌套语义实体小沈阳西单天使黄光裕案Proctor and GambleIntel and IBMLand of the Lost 弱文本特征的语义实体女性车厢大S/飞人/飞侠绿坝-花季护航 小沈阳这个名字是他随了舞台上他的搭档“四舅母”
22、、“老婶”也是生活中他的媳妇的名,而且这个名小沈阳和妻子沈春阳字的由来还有一段故事。19岁那年,学完了三年二人转他就去长春准备寻找个搭档。当时经别人介绍,说这丫头唱得不错,小沈阳当机立断就跟沈春阳组了一副架,而且名字还为了配合她改了。她叫沈春阳,当时改叫沈阳,后来觉得没特点就又改叫小沈阳了。改名时,小沈阳和沈春阳还没好上呢,是唱了三四年后才有的感情。不过后来团里的演员都说小沈阳有心眼,用个名换个老婆。小沈阳倒觉得没啥大不了的,随过去就随过去呗。小沈阳的女儿很可爱了,看到他累了,她会用不太灵光的话跟我说:“爸爸,加油!”有时好几天看不见爸爸,还问他“这是为什么呢?”虽然她吐字还不太清楚,可是看到
23、她,小沈阳的累呀,委屈呀就都没了。上下文特征将”沈阳”识别为地名实体在大量不同上下文中频繁出现,具有较强的统计特征有些语言没有大写特征,比如德语第31页,共37页。特征向量X=xixi+1xi+kP(yi=B/xixi+1xi+k)xi为语义实体头的概率P(yi+k=E/xixi+1xi+k)xi+k为语义实体尾的概率AV(xixi+1xi+k)MI(xixi+1xi+k)IDF(xi-1)实体X前一个词语的IDFIDF(xi+k+1)实体X前一个词语的IDFLEN(xixi+1xi+k)EL(xi-1)EH(xi)EE(xi+K)ER(xi+K+1)第32页,共37页。试验数据数据:人民日报
24、 1998.1人名总数:8834将数据分成三份A,B,CA+B 训练出CRF模型利用A训练出crf,预测B,得到B中实体的边缘概率,利用B中实体的统计特征,训练出SVM模型试验目的:CRF+统计特征CRF第33页,共37页。试验环境 工具:CRF+,LIBSVM 5-fold cross validation Grid.py 寻找训练参数第34页,共37页。曲线crf:仅仅通过conditional random field获得的性能曲线crf+mi+av+idf+EL+EH+EE+ER+SVM:由各种统计特征和CRF输出的边缘概率作为特征向量,通过SVM分类器获得的性能第35页,共37页。第36页,共37页。下一步工作 跨语料 其他语言 增加语义实体类型第37页,共37页。