1、知网知网 HowNet 介绍介绍ukeenage u2019-11-18导论导论u 需求需求-研究的题目研究的题目u 知识知识-资源的建设资源的建设 需求需求-研究的题目研究的题目(1)(1)u可应用于某一个搜索引擎的可应用于某一个搜索引擎的“询问扩展询问扩展”功能;功能;u商品化商品化的垃圾邮件的清除器;功能要求:在用的垃圾邮件的清除器;功能要求:在用户自己清除两个月之后,它开始工作,自动识户自己清除两个月之后,它开始工作,自动识别垃圾并清除,并可以在与用户的交互中,变别垃圾并清除,并可以在与用户的交互中,变得愈加聪明;得愈加聪明;u商品化商品化的命名实体抽取器,它为用户提供选择的命名实体抽
2、取器,它为用户提供选择命名实体类型的功能,即用户可指定要抽取哪命名实体类型的功能,即用户可指定要抽取哪类的命名实体,如机构名字,日期,地名等;类的命名实体,如机构名字,日期,地名等;u用户可以自己定义所需内容的信息过滤器,例用户可以自己定义所需内容的信息过滤器,例如要求从报纸的电子版本中抽取到某个国家或如要求从报纸的电子版本中抽取到某个国家或某个地区的新武器研究与制造的信息;某个地区的新武器研究与制造的信息;需求需求-研究的题目研究的题目(2)(2)u可以将信息过滤器抽取到的外语的信息,以可以将信息过滤器抽取到的外语的信息,以“信息信息表表”的形式提供相对应的中文,例如:事件、时间的形式提供相
3、对应的中文,例如:事件、时间发生的时间、地点、关系者、结果等等。发生的时间、地点、关系者、结果等等。u可以从电子版的文学作品中提取用户可以自己定义可以从电子版的文学作品中提取用户可以自己定义的信息,如红楼梦中有关食物的信息如菜肴及的信息,如红楼梦中有关食物的信息如菜肴及其烹饪;或者某个或某些作品中关于疾病的信息,其烹饪;或者某个或某些作品中关于疾病的信息,或有关女子容貌描述的内容等等;或有关女子容貌描述的内容等等;u可以自动分辨出中文的错别字,并随机加以替换而可以自动分辨出中文的错别字,并随机加以替换而不会影响到以后的加工的工具;不会影响到以后的加工的工具;u可以自动向用户报告在某一个特定领域
4、中又有新的可以自动向用户报告在某一个特定领域中又有新的术语在流通,例如通讯领域中的术语在流通,例如通讯领域中的“CDMA”或或“码码分多址分多址”,足球领域中的,足球领域中的“乌龙球乌龙球”、“后腰后腰”等等等;等;u可以对任何一个词语进行歧义排除的工具,并使之可以对任何一个词语进行歧义排除的工具,并使之成为可以嫁接到其他实用系统上面的;成为可以嫁接到其他实用系统上面的;知识知识-资源的建设资源的建设 知识是一个知识是一个系统系统,是一个包含着各种概念与概念之间,是一个包含着各种概念与概念之间u 的关系,以及概念的属性与属性之间的关系的的关系,以及概念的属性与属性之间的关系的系统系统 世界上一
5、切事物(物质的和世界上一切事物(物质的和精神精神的)都在特定的时间的)都在特定的时间u 和空间内不停地运动和变化。和空间内不停地运动和变化。它们通常是从一种状态变化到另一种状态,它们通常是从一种状态变化到另一种状态,并通常由并通常由u 其属性值的改变来体现其属性值的改变来体现 知识的基本单位:知识的基本单位:u万物(包括物质的和精神的)、部件、万物(包括物质的和精神的)、部件、属性、时间、空间、属性值、事件属性、时间、空间、属性值、事件知网的规模知网的规模 2019-10Chinese words 74046English words 71919Chinese entries 88433Eng
6、lish entries 90939DEF count 22140Record count 147979知网的架构知网的架构Basic Data(Concept Definitions/Taxonomies)S-relation Trigger(Browser)D-relation Trigger(Application Tools)知网浏览器详解义原义原u 什么是义原什么是义原u 义原采用的例子义原采用的例子u 汉语的字和词语的启发汉语的字和词语的启发u 知网的义原的确定知网的义原的确定u 知网的义原的类别知网的义原的类别义原分类义原分类 2234Entity154 thing(physic
7、al,mental,fact)component(part,fitting)time space(direction,location)Event(relation,state、action)819Attribute248Value 892Secondary feature121分类体系详解分类体系详解 uEntityuEventuAttributeuAttribute valueEntity -上位,属性继承上位,属性继承-entity|实体 thing|万物 entity|实体:ExistAppear|存现:existent=physical|物质 thing|万物:HostOf=Appe
8、arance|外观,perception|感知:content=animate|生物 physical|物质:HostOf=Age|年龄,alive|活着:experiencer=,die|死:experiencer=,metabolize|代谢:experiencer=,reproduce|生殖:PatientProduct=,agent=AnimalHuman|动物 animate|生物:HostOf=Sex|性别,AlterLocation|变空间位置:agent=,StateMental|精神状态:experiencer=human|人 AnimalHuman|动物:HostOf=Ab
9、ility|能力Name|姓名Wisdom|智慧,speak|说:agent=,think|思考:agent=humanized|拟人 human|人:modifier=fake|伪,forge|伪造:PatientProduct=Event(1)关系关系/状态与行动的对应状态与行动的对应-event|事件 static|静态 event|事件 relation|关系 static|静态 possession|领属关系 relation|关系 own|有 possession|领属关系:possession=*,possessor=*obtain|得到 own|有:possession=*,p
10、ossessor=*,source=*receive|收受 own|有:possession=*,possessor=*,source=*BelongTo|属于 possession|领属关系:possession=*,possessor=*OwnNot|无 possession|领属关系:possession=*,possessor=*lose|失去 OwnNot|无:possession=*,possessor=*InDebt|亏损 lose|失去:domain=finance|金融,possession=*,possessor=*owe|欠 possession|领属关系:possess
11、ion=*,possessor=*,target=*Event(2)act|行动 event|事件:agent=*ActGeneral|泛动 act|行动:agent=*start|开始 ActGeneral|泛动:agent=*,content=*do|做 ActGeneral|泛动:agent=*,content=*,manner=*DoNot|不做 ActGeneral|泛动:agent=*,content=*refuse|拒做 DoNot|不做:agent=*,content=*evade|回避 refuse|拒做:agent=*,content=*slack|偷懒 DoNot|不做:
12、agent=*,content=*cease|停做 ActGeneral|泛动:agent=*,content=*GiveUp|戒除 cease|停做:agent=*,content=*pause|暂停 cease|停做:agent=*,content=*rest|休息 cease|停做:agent=*sleep|睡 rest|休息:agent=*wait|等待 ActGeneral|泛动:TimeFin=*,TimeIni=*,agent=*,content=*,duration=*ActSpecific|实动 act|行动:agent=*Event(3)角色框架的语义突出角色框架的语义突出
13、 ActSpecific|实动 act|行动:agent=*AlterGeneral|泛变 ActSpecific|实动:agent=*,patient=*,result=*AlterSpecific|实变 ActSpecific|实动:agent=*AlterRelation|变关系 AlterSpecific|实变:agent=*AlterPossession|变领属 AlterRelation|变关 系:agent=*,possession=*take|取 AlterPossession|变领属:agent=*,possession=*,source=*steal|偷 take|取:ag
14、ent=*,manner=covert|隐秘,possession=*,source=*buy|买 take|取:agent=*,beneficiary=*,cost=*,domain=commerce|商业,possession=*,source=*事件关系和角色转换事件关系和角色转换(1)buy|买买 obtain|得到得到 consequence;agent OF buy|买买=possessor OF obtain|得到得到;possession OF buy|买买=possession OF obtain|得到得到.buy|买买(X)sell|卖卖(Y)mutual implicat
15、ion;agent OF buy|买买=target OF sell|卖卖;source OF buy|买买=agent OF sell|卖卖;possession OF buy|买买=possession OF sell|卖卖;cost OF buy|买买=cost OF sell|卖卖.事件关系和角色转换事件关系和角色转换(2)buy|买买 entailment choose|选择选择entailment;agent OF buy|买买=agent OF choose|选择选择;possession OF buy|买买=content OF choose|选择选择;source OF bu
16、y|买买=location OF choose|选择选择.buy|买买 entailment pay|付付 entailment;agent OF buy|买买=agent OF pay|付付;cost OF buy|买买=possession OF pay|付付;source OF buy|买买=target OF pay|付付.事件关系和角色转换事件关系和角色转换(3)lose|失去失去 obtain|得到得到 mutual precondition;possessor OF lose|失去失去=source OF obtain|得到得到;possession OF lose|失去失去=p
17、ossession OF obtain|得到得到.事件典型演员事件典型演员 GetMarried|结婚 associate|交往:agent=human|人:modifier=male|男,partner=human|人:modifier=female|女;associate|交往:agent=human|人:modifier=female|女,partner=human|人:modifier=male|男 walk|走 SelfMoveInManner|方式性自移:agent=AnimalHuman|动物-,direction=*,LocationIni=location|位置,Locati
18、onThru=location|位置,LocationFin=location|位置,instrument=leg|腿foot|脚知网描述的关系知网描述的关系(a)a)上下位上下位 (b)b)同义同义(c)c)反义反义 (d)d)对义对义(e)e)部件部件-整体整体 (f)f)属性属性-宿主宿主(g)g)材料材料-成品成品 (h)h)工具工具-事件事件(i)i)场所场所-事件事件 (j)j)时间时间-事件事件(k)k)值值-属性属性 (l)l)实体实体-值值(m)m)事件事件-角色角色 (n)n)相关关系相关关系(o)o)施事施事/经验者经验者/关系主体关系主体-事件事件(p)p)受事受事/内
19、容内容/领属物等领属物等-事件事件事件关系与角色转换事件关系与角色转换SufferFrom|SufferFrom|罹患罹患(X)causecure|X)causecure|医治医治(Y);Y);experiencer OF SufferFrom|experiencer OF SufferFrom|罹患罹患=patient OF cure|patient OF cure|医治医治;content OF SufferFrom|罹患罹患=content OF cure|医治医治.周日下午我们常去打保龄球。System A:We often bowl on Sunday afternoon.Syste
20、m B:Sunday in the afternoon,we play bowling frequently.周 日 下 午 我 们 常 去 附 近 的 娱 乐 中 心 打 球。System A:We often go to the nearby recreation center to play ball on Sunday afternoon.System B:Sunday in the afternoon,we go to nearby amusement central dozen ball frequently.KDML 知网知识系统描述语言知网知识系统描述语言Knowledge D
21、atabase Mark-up Language总规定总规定u(1)任一概念的描述都以DEF=为开始。任一概念中出现的所有义原或符号必须是在知网的Taxonomy 中定义的义原或符号或者由知网知识系统描述语言所规定的特定标识符。u(2)概念描述中的第一个义原必须指出该概念的最基本的意义,并用事件、实体、属性和属性值这四类义原中的一个标注出来。u(3)对于简单概念直接标注该概念的意义。u(4)利用动态角色与特征来标注复杂概念。u(5)属性类概念必须标明它的宿主。u(6)整体部分类型的概念必须标明该部分的整体。u(7)概念描述中定义的特性至少是一个,但也可以是多个,数量没有限制,只要内容是合理的且
22、形式是合乎规范的就可以了。KDML 中的特定标识符中的特定标识符u符号符号 名称名称 功能简述功能简述u 左括号 表示对一个概念描述的开始。u 右括号 表示对一个概念描述的结束。u:冒号 冒号后面的内容是对冒号前面义元的具体描述。u,逗号 表示一个关系描述的结束。u=等号 表示一个动态角色或特征所具有的具体的值。u;分号 分号表示某一概念是由若干个概念组合而成的组合型复杂概念。每个分号分割的部分必须是一个独立的完整的概念描述。u“引号 引号中的内容都是一些具有特殊意义的义元。例子uW_C=打uG_C=VuE_C=给他电话,怎么也不通,对不起错了,给他了好几通电话,过去了吗,u通了但没人接,我给
23、你了一个晚上uW_E=calluG_E=VuE_E=I tried to call you all nightuDEF=communicate|交流:instrument=utool|用具:communicate|交流:instrument=u说明:这个概念则更为复杂一些,其中嵌套了另外一个完整的复杂概念,即 tool|用具:communicate|交流:instrument=,这个概念表示的是通讯类的工具如电话,手机等概念。几种特殊的指示符号几种特殊的指示符号u指示符号指示符号 u指示符号指示符号?u指示符号指示符号$指示符号指示符号 u利用 进行描述的模式是:u义元1:义元2:动态角色或特
24、征=u这种描述方式表示的是,义元1 与义元2 有关,义元1 为义元2 的一个具体动态角色的值。u其中的 用来代替前面的义元1。通常情况下,义元1 为实体类义元,义元2 为事件类义元。指示符号指示符号 uW_C=禁地uG_C=NuE_C=uW_E=forbidden areauG_E=NuE_E=uDEF=place|地方:GoInto|进入:LocationFin=,prohibit|禁止:ResultEvent=u说明:我们把它写成下面这种样子:uDEF=义元1:义元2:LocationFin=,义元3:ResultEvent=指示符号指示符号?u利用?进行描述的模式是:uDEF=义元1:动
25、态角色=?u这种描述方式表示在某一语义环境中,?所充当的动态角色的演员是一定会出现的,但是u在这个孤立的概念中它并没有被体现出来。其中义元1 一定是事件类义元。指示符号指示符号?uW_C=属于uG_C=VuE_C=uW_E=belong touG_E=VuE_E=uDEF=BelongTo|属于:possessor=?u说明:自然语言对于“属于”这个概念的描述是:为某一方面所有。从它的自然语言描述中可以发现,其中的“某一方面”在“属于”这个事件所出现的语义环境中是一定会出现的,即“属于”这个概念的possessor 是一定会出现的。但是在“属于”这个孤立的概念中,它的possessor 没有被
26、体现出来,也就是说我们无法单纯的从“属于”这个概念中知道它的所有者是谁。于是,我们用?来代替实际语义环境中一定会出现的possessor的内容,即动态角色possessor 的演员。指示符号指示符号$u利用义元$进行描述的模式是:uDEF=义元1:动态角色=$u$用来充当某一个动态角色的演员。其中动态角色=$表示这个概念所描述的对象是什么。u义元1 一定是事件类义元。指示符号指示符号$uW_C=难以置信uG_C=ADJuE_C=uW_E=beyond beliefuG_E=ADJu11uE_E=uDEF=difficult|难:scope=believe|相信:content=$u说明:其中$
27、的意义是:$是content这个动态角色的演员,代表被相信(believe|相信)的内容。在“难以置信”所出现的语义环境中,事件的内容(content)是难以置信的。事件类概念的描述方法事件类概念的描述方法u简单概念的描述方法简单概念的描述方法u复杂概念的描述方法复杂概念的描述方法简单概念的描述方法简单概念的描述方法u直接标注该概念的意义。通常情况下的简单概念是指一个明确的事件,实体,属性或属性值,在概念中不包含任何的其它成分。u例如:u遗失 lose lose|失去u假装 pretend pretend|假装u料理 manage handle|处理u资助 subsidize grant|赐u
28、滑翔 glide fly|飞u教导 teach teach|教复杂概念的描述方法复杂概念的描述方法u利用动态角色与特征来标注复杂概念。所谓的复杂概念是以事件为中心,除了事件中心本身以外还有一个或一个以上的动态角色,例如:u严禁 包含动态角色方式(manner)u贷款 包含动态角色所有物(possession)u盗墓 包含动态角色来源(source)u复原 包含动态角色原状态(StateIni)u呼救 包含动态角色目的(purpose)属性类概念的描述方法属性类概念的描述方法u属性类的概念必须通过动态角色host 标注该属性的宿主,它的标注方式是:host=宿主义元。当一个属性类的概念的宿主不止
29、一个时,将宿主并列标注即:host=宿主义元1宿主义元2。u例:uW_C=浓淡uG_C=NuE_C=uW_E=deep or lightuG_E=NuE_E=uDEF=Hue|浓淡:host=Color|颜色u说明:这里通过host 指出宿主是 Color|颜色。属性值类概念的描述方法属性值类概念的描述方法u总的来说,属性值类概念的描述比较简单,只要标注该属性值的具体值就可以了。有些属性类的概念还需要对该具体值进行进一步的描述。u例:uW_C=美味uG_C=ADJuE_C=uW_E=tastyuG_E=ADJuE_E=uDEF=GoodTaste|好吃各种动态角色的使用各种动态角色的使用u知网
30、中共设计了89 种动态角色,它们被收录在知网的Taxonomy 的Event Role&Feature 文件中。u EventRoleu AccordingTou CoEventu ContentCompareu ContentProductu DurationAfterEventu DurationBeforeEventu EventProcessu HostOf各种动态角色的使用各种动态角色的使用u LocationFinu LocationIniu LocationThruu MaterialOfu OfPartu PartOfTouchu PatientAttributeu Patie
31、ntPartu PatientProductu PatientValueu QuantityCompareu RelateTou ResultContentu ResultEventuHowNet 的主要应用的主要应用uOntology 研究u标注u词典u分类聚类u词义排歧u文本过滤u相似度计算u信息挖掘u语义查找参加本次讲座的单位参加本次讲座的单位u北京大学 2u清华大学 7u北京语言大学 2u北京理工大学 1u中国科学院计算所 1u中国科学院自动化所 1u中国科学院文献情报中心 1u中国社科院 1u中国农业科学院 2参加本次讲座的单位参加本次讲座的单位u微软亚洲研究院 1u赛迪翻译公司 1u清华同方光盘股份有限公司 2u华建集团 1u首都信息发展股份有限公司北京网络多媒体实验室 1 u东芝(中国)有限公司 研究开发中心 2The End!