Web挖掘和信息抽取系统课件.ppt

上传人(卖家):三亚风情 文档编号:3591815 上传时间:2022-09-22 格式:PPT 页数:106 大小:1.39MB
下载 相关 举报
Web挖掘和信息抽取系统课件.ppt_第1页
第1页 / 共106页
Web挖掘和信息抽取系统课件.ppt_第2页
第2页 / 共106页
Web挖掘和信息抽取系统课件.ppt_第3页
第3页 / 共106页
Web挖掘和信息抽取系统课件.ppt_第4页
第4页 / 共106页
Web挖掘和信息抽取系统课件.ppt_第5页
第5页 / 共106页
点击查看更多>>
资源描述

1、英国日用品零售商GUS需要准确预测未来的商品销售量,以便减预测未来的商品销售量,以便减少库存数量:少库存数量:借助数据挖掘技术,使库存成本比原来减少了3.8%汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户使营销费用减少了30美国国防财务部需要从每年上百万的军火交易中发现可能存在的欺诈现象发现可能存在欺诈的交易,节约了大量的调查成本发现商品组合销售规律,提高销售率 我选择货币战争,当当又给我推荐沉思录、资本战争1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1.1.1数据挖掘定义狭义数据挖掘是知识发现(KDD)过程中的一个特定

2、步骤,是用专门算法从数据中抽取模式,然后通过解释和评价转换成最终用户可理解的知识广义由于KDD的其他步骤对数据挖掘的运行性能和结果正确性影响很大,因此,通常所说的数据挖掘往往包括KDD的全过程。一般定义数据挖掘是从大量的、不完全的有噪声、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的以及最终可理解的模式的过程。特点特点有效性保证挖掘出来的信息的可靠性;新颖性要挖掘那些不能靠直觉发现的信息或知识潜在有用性发现的知识有实用价值和可实现最终可理解性发现的模式能被用户理解、接受、运用1.1.2 1.1.2 数据挖掘涉及多学科领域数据挖掘涉及多学科领域数据库技术人工智能神经网络统计学模式识别知识库

3、系统知识获取信息检索高性能计算可视化1.1.31.1.3数据挖掘一般过程数据挖掘一般过程数据收集:通过各种方式广泛收集用户的信息,建立必要的数据库与数据表,为数据挖掘做准备。数据处理:对收集到的信息进行诸如去噪等操作,从而确保数据能够真实反映待要挖掘的对象。数据变换:将经过去噪的数据进行一定的格式转换,使其适应数据挖掘系统或数据挖掘软件的处理要求数据挖掘:利用挖掘方法对数据进行分析,挖掘出需要的各种规则、趋势、类别、模型等模式评估:对发现的规则、趋势、类别、模型进行评估,从而保证发现的模式的正确性知识表示数据数据收集收集预预处理处理格式格式转换转换数据数据挖掘挖掘模式模式评估评估知识知识表示表

4、示1.1.4数据挖掘功能数据挖掘功能数据总结 数据压缩分类模型发现 学科分类聚类模型发现 主题聚类发现研究热点关联规则发现 如股市升降与突发事件的关联序列模式发现 如DNA序列相似性发现依赖模型发现 如发现A事件发生前一定有B事件发生异常和趋势发现等 如:发现交易中的欺诈行为,或者根据主题词演变,发现学科研究走向等1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势1.2.1Web1.2.1Web挖掘(挖掘(Web Data Mining)Web Data Mining)q定义定义利用数据挖掘技术,自动地从网络文档以及服务中发现和抽取蕴涵的、未知的、

5、有潜在应用价值的信息的过程。指从大量的Web文档集合C中发现隐含模式P的过程:C-P qWebWeb挖掘与传统数据挖掘挖掘与传统数据挖掘Web挖掘传统挖掘挖掘对象类型大量、异质、分布的Web文档。结构化数据。挖掘所得模式可能是关于Web内容的,也可能是关于Web结构的。关于内容的。预处理过程半结构或无结构数据,预处理过程复杂、重要。结构化数据,预处理简单。qWebWeb挖掘与挖掘与WebWeb信息检索信息检索Web挖掘Web信息检索方法论随机的,其结果独立于用户信息需求,也是用户无法预知的。目标驱动的,用户需要明确提出查询要求目的帮助用户发现文档中隐含的知识。在于帮助用户发现资源着眼点试图更多

6、地理解其内容和结构。着重于文档中显式存储的字词和链接;评价方法 收益(Gain)置信度(Certainty)简洁性(Simplicity)精度(Precision)召回率(Recall)1.2.2Web1.2.2Web挖掘分类挖掘分类Web内容挖掘Web结构挖掘Web使用挖掘 q 什么是什么是WebWeb内容挖掘内容挖掘从网络的内容、数据、文档中发现有用信息的过程。网络信息资源由文本、图象、音频、视频等数据组成,因而Web内容挖掘是一种多媒体数据挖掘。q挖掘策略利用搜索引擎技术直接挖掘文档的内容;在搜索引擎等工具处理基础上做进一步的处理,以便获得更为精确和有用的信息。q面临问题挖掘算法效率和可

7、扩展性问题信息遗漏及噪声数据的处理问题私有数据保护问题数据安全问题等q主要应用研究内容文本摘要文本分类文本聚类关联分析分布分析趋势预测q文本摘要 从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。有篇首截取法、上下文截抽取法、论题句抽取法、仿人法等。q文本分类 文本分类是指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。Yahoo!采用人工分类,大大影响了索引的页面数目。利用自动文本分类技术可以对大量文档进行快速、有效分类,大型搜索引擎都采用自动分类技术。q文本聚类 文本聚类是将文档集合分成若干个簇,要求同一簇内

8、文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小。“聚类假设”与用户查询相关的文档通常会聚类得比较靠近,而远离与用户查询不相关的文档。意义利用文本聚类技术将搜索引擎的检索结果划分为若干个簇,用户只需要考虑那些相关的簇,大大缩小了所需要浏览的结果数量。q关联分析从文档集合中找出不同词语之间的关系。从文档集合中找出不同词语之间的关系。实例:有人提出一种算法,可以从大量文档中发现一对词语同时出现的模式,利用该算法可在Web上寻找作者和书名的出现模式,从而发现了若干本在Amazon网站上找不到的新书籍。以Web上的电影介绍作为测试文档,通过使用OEM模型从页面中抽取词语,进而得到一些关于电影名

9、称、导演、演员、编剧的出现模式。从科技论文中挖掘主题词演变模式,发现学科发展趋势。q分布分析分布分析指通过对文档的分析,得到特定数据在某个历史时刻的分布情况。实例:Feldman等人使用多种分布模型对路透社的两万多篇新闻进行了挖掘,得到主题、国家、组织、人、股票交易之间的相对分布情况。q趋势预测趋势预测指通过对文档的分析,得到特定数据将来的取值趋势。实例Wuthrich等人通过分析Web上出版的权威性经济文章,对每天的股票市场指数进行预测,取得了良好的效果。q挖掘对象网站中超级链接结构之间的关系,它体现了文档之间的逻辑关系,与文档所处位置无关。q目标找到隐藏在一个个页面之后的链接结构模型,可以

10、用这个模型对Web页面重新分类,用于寻找相似的网站,评价网站社会关系及其对应用影响。qWeb结构图 G=(V,E)V是页面的集合,构成图的顶点;E是页面之间的超链集合,构成图的边。图形中,不仅顶点(页面)包含主题信息,而且,边(超链)也包含了大量潜在的语义,对它的分析构成了Web挖掘的重要内容,即结构挖掘。q 结构挖掘的主要方法PageRankPageRank 一个页面尽管没有被多次引用,但被一个重要页面引用,则这个页面很可能是重要的;一个页面的重要性被均分并被传递到它所引用的页面HITSHITS 衡量网页重要性有两个要素(ranking):权威级别(依赖于指向它的页面)、中心级别(依赖于它指

11、向别人的页面)ARC ARC 基于主题相关性的挖掘,同时考虑锚点文字。CLEVERCLEVER 在计算网页权威度与中心度时,保留相关节点,裁剪无关节点。q挖掘对象用户网络交互过程中产生的数据如服务器访问记录、日志记录、用户对话或交易信息、用户提问式等。q挖掘目的帮助人们理解用户行为和Web结构之间得关联;指导网站建设,改善网站服务效果。q挖掘方法一般访问模式跟踪通过分析Web访问日志来理解访问倾向,获得Web结构信息及资源提供者分组情况。定制使用跟踪分析个人倾向,以便为每个用户定制符合其个人特色的web站点、资源以及信息呈现方式等。网络信息挖掘网络信息挖掘网络内容挖掘网络内容挖掘网络结构挖掘网

12、络结构挖掘网络使用挖网络使用挖掘掘信息检索观点信息检索观点数据库观点数据库观点数据形式数据形式非结构化、半结构化非结构化、半结构化半结构化、数据库形式的半结构化、数据库形式的网站网站链接结构链接结构交互形式交互形式主要数据主要数据文本文档、超文本文档文本文档、超文本文档超文本文档超文本文档链接结构链接结构服务器日志服务器日志记录记录浏览器日志浏览器日志记录记录表表示示Bag of wordsBag of words、n-gramsn-grams、词、短语、词、短语、概念或实体、关系型数据概念或实体、关系型数据边界标志图边界标志图(OEM)OEM)、关系关系型数据型数据图形图形关系型表、关系型表

13、、图形图形方方法法TFIDFTFIDF和变体、机器学习、统计学和变体、机器学习、统计学(包括自然语言处理包括自然语言处理)ProprietaryProprietary算法、算法、ILPILP、(修改后修改后)的关联规则的关联规则ProprietaryProprietary算法算法机器学习、机器学习、统计学、统计学、(修修改后改后)的关联的关联规则规则应应用用归类、聚类、发掘抽取规则、发掘归类、聚类、发掘抽取规则、发掘文本模式、建立模式文本模式、建立模式发掘高频的子结构、发掘发掘高频的子结构、发掘网站体系结构网站体系结构归类、聚类归类、聚类站点建设、站点建设、改进与管理、改进与管理、营销、建立营

14、销、建立用户模式用户模式1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势q在金融领域中的应用观察金融市场的变化趋势,进行贷款偿付预测和客户信用分析;对用户群体进行识别和目标市场分析;左图是Altos做的实时价格指数与房价指数的关联分析,可为房地产、金融机构提供参考。q在电信业中的应用通过分析用户对电信服务的使用模式,划分用户群,使营销策略更有针对性;采用多维分析、聚类分析和孤立点分析等方法识别异常模式,追踪盗用行为;分析呼叫数据来规划和优化网络。q在销售领域的应用有助于划分顾客群体,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势

15、,通过关联分析更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满意程度。q在医学中的应用DNA分析利用数据挖掘技术可以进行DNA序列间的相似搜索和比较,对同时出现的基因序列的相关分析,遗传研究中的路径分析等。q在搜索引擎中的应用对网页Links信息的挖掘,提高采集效率通过对网页内容挖掘,实现网页的聚类、分类、自动标引通过用户提问及操作历史记录分析,跟踪用户需求模型,提高用户的检索效果q其他应用其他应用q银行:交叉销售分析q百货公司/超市:购物篮分析(关联规则)q保险:交叉销售与客户流失原因分析q信用卡:欺诈探测q电子商务:网站日志分析q税务部门:偷漏税行为探测q警察机关:犯罪行为分析q

16、1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势qNet Perceotion 公司的主要产品。它采用了一个叫做“实时建议实时建议”的技术,让它的产品对象(主要是网站)能够根据用户以往的浏览行为,找出与之相类似的行为,从而预测该用户后续的浏览操作,为用户提供个性化的浏览建议。q由于是实时运行的,随着浏览量的增加,它会变得越来越“聪明”。qAccrue Insight通过分析顾客的行为模式,帮助网站采取措施来提高顾客对于网站的忠诚度,从而建立长期顾客关系。qAccrue Hit List是一个功能强大的Web报表分析工具,主要运用于市场分析、信息采

17、集等方面。1.1数据挖掘概述1.2Web挖掘方法1.3Web挖掘应用1.4Web数据挖掘系统1.5发展趋势q未来研究重点Web数据挖掘的内在机制研究及其实现 Web知识库的动态维护、更新 半结构、结构的文本数据、图形图像数据、多媒体数据的高效挖掘算法挖掘算法研究专门用于知识发现的数据挖掘语言及其标准化 关联规则和序列模式的应用研究2.1信息抽取概述2.2与IE相关的研究活动2.3信息抽取类型2.4信息抽取系统介绍2.5信息抽取系统设计2.6信息抽取应用#NHS TRUST-PATIENT CASE NOTE#:#DOB:1944 CLEF-RMH-Entry-Key:52A4F6DB2B46E

18、 AB 1992 Seen in General Surgical This lady who has had a mastectomy and left open capsulotomy and removal of her prosthesis was seen by me in the clinic today on behalf of XXXXXXXXXXX.She has extensive bony lymphoedema in her left arm which does not seem to be getting any better although she is mor

19、e or less reconciled to the problem.The original problem was that she complained of shooting pain in the direction of ulna nerve and although there does not seem to be any evidence of local,regional or distant recurrence the pain itself warrants management in a pain clinic.XXXXXXXXX could be seen in

20、 the pain clinic at the XXXXXXX but as this would involve a lot of travelling would like to be treated nearer her home.I wonder whether it would be possible for you to investigate if there is a pain clinic available at XXXXXXXXXXX as I am sure XXXXX could be treated and benefit from its management.I

21、 have otherwise arranged for her to be seen in the clinic again in a years time.There are no signs of recurrence at this time.5213A4F612F1根据模版或相关的知识资源根据模版或相关的知识资源标识出重要的信息及其相关标识出重要的信息及其相关关系关系recurrenceno signs of recurrencebony lymphoedemashooting pain in thedirection of ulna nervepainInterventionsPr

22、oblemsProblem SiteLocationsleft armlocal,regional or distanta years timetodayat this timeTimepain clinicclinicpain clinicGeneral Surgicalpain clinicmastectomyleft open capsulotomyremoval of her prosthesismanagementmanagement收集抽取出的信息InterventionsProblemsProblem SiteLocationsTimerecurrenceno signs of

23、recurrencebony lymphoedemashooting pain in thedirection of ulna nervepainleft armlocal,regional or distanta years timetodayat this timepain clinicclinicpain clinicGeneral Surgicalpain clinicmastectomyleft open capsulotomyremoval of her prosthesismanagementmanagementrecurrenceno signs of recurrencebo

24、ny lymphoedemashooting pain in thedirection of ulna nervepainleft armlocal,regional or distanta years timetodayat this timepain clinicclinicpain clinicGeneral Surgicalpain clinicmastectomyleft open capsulotomyremoval of her prosthesismanagementmanagementrecurrenceno signs of recurrencebony lymphoede

25、mashooting pain in thedirection of ulna nervepainleft armlocal,regional or distanta years timetodayat this timepain clinicclinicpain clinicGeneral Surgicalpain clinicmastectomyleft open capsulotomyremoval of her prosthesismanagementmanagement也可跨越多个文档放射报告、病理学报告,或 其它叙述性报告来自于药品或实验中的信息自动实现相关事件的链接?What h

26、appened&why?What was done&why?InterventionsProblemsProblem SiteLocationsTimerecurrenceno signs of recurrencebony lymphoedemashooting pain in thedirection of ulna nervepainleft armlocal,regional or distanta years timetodayat this timepain clinicGeneral Surgicalpain clinicmastectomyleft open capsuloto

27、myremoval of her prosthesismanagementpain clinicmastectomycaused_bybony lymphoedemaevidenceCLEF-RMH-Entry-Key:52A4F6DB2B46E Female 66 with radiation induced leukaemia since 1931 Onset age 63.Thirty three appointments to date.Problems:Aplastic anaemia,cataract,astheniaTx:imatinibMeds:unclearHospital

28、EPREPR Drugs Refer Tools HelpProtocol 354Staging CTBPHaem Chem ImmuBactXrayECGUSS12.10.20 Coryza:chest NAD:reassure13.10.20 URTI:wheezy:amoxycillin20.10.20 Anxiety:lump under arm:staging scan24.10.21 PEFR:300:10.11.21 PEFR:400:CXR requested12.11.21 CXR Basal Consolidation:erythromycin27.11.21:Chest

29、clear:07.03.30 Depression:recurrence:Paroxetine19.04.30 WCC OK01.06.31:rpt Rx paroxetine18.10.31 Pain L arm:coproxamol03.03.31 Viral URTI:PEFR 350:salbutamol04.03.34 WCCAbnormal:30.05.34:BP,ECG NAD:Results LettersApptDrugs形成一个非常简短的病历摘要CLEF-RMH-Entry-Key:52A4F6DB2B46E Female 66 with radiation induced

30、 leukaemia since 1931 Onset age 63.Thirty three appointments to date.Problems:Aplastic anaemia,cataract,astheniaTx:imatinibMeds:unclear在首页上形成一个摘要只有通过许可的人才可看到人名只有通过许可的人才可看到人名等信息等信息 CLEF-RMH-Entry-Key:52A4F6DB2B46EMaria Sklodowska-Curieq信息抽取信息抽取(Information Extraction,IE)信息抽取是一个输入/输出过程输入:未知文本信息输出:固定格式

31、、无二意性数据(信息)这些被抽取出来的数据可以直接显示给用户存储于数据库或电子表格中以供随后分析被用于索引系统,以便于将来进行检索访问qIE目标将信息点从各种各样的文档中抽取出来,以统一的形式集成在一起,形成结构化信息。信息抽取系统将把互联网变成巨大的数据库。qIE特点并不试图全面理解整篇文档,只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的,将由系统设计时定下的领域范围而定。IE系统关键组成部分是一系列的抽取规则或模式,其作用是确定需要抽取的信息。q信息检索和信息抽取对比信息检索是从大量文献集(数据库)中找出相关子集的过程q信息检索和信息抽取对比信息抽取是抽取真正适合用户的那些信

32、息片段(相关事实),并提供给用户。q与自动文摘、文本理解比较自动文摘和文本理解是广域的IE是特定域的(“特定”程度需要用户协助确定)qIE的历史信息抽取技术的前身是文本理解,即把握整篇文档的精确内容。文本理解系统通常只在很窄的知识领域范围内运行良好,向其他新领域移植的性能却很差。IE不求整篇理解,只求片断抽取。过去几年IE研究成果丰硕,英语和日语姓名识别的成功率达到了人类专家的水平。q评价指标IE技术的评测起先采用经典的信息检索(IR)评价指标,即回召率(Recall)和查准率(Precision),但稍稍改变了其定义。准确率P=抽出的正确信息点数/所有抽出的信息点数覆盖率R=抽出的正确信息点

33、数/所有正确的信息点数.综合算法:其中是一个预设值,决定对P侧重还是对R侧重。通常设定为1。这样用F一个数值就可很看出系统的好坏q信息抽取分类信息抽取分类结构化文本抽取半结构化文本抽取自由式文本抽取q结构化文本的抽取结构化文本的抽取结构化文本是一种数据库里的文本信息,或者是根据事先规定的严格格式生成的文本。从这样的文本中抽取信息是非常容易的,准确度也高,通过描述其格式即可达到目的。q半结构化文本的抽取半结构化文本的抽取自然语言理解方法、结构化文本抽取方法对结构化文本抽取方法对半结构文本半结构文本不一定有效,抽取模式通常依赖字符和象html标记那样的分隔标志,句法和语义信息的作用则非常有限。q自

34、由式文本的抽取自由式文本的抽取从自由文本中析取有限的信息。例如,从报道恐怖袭击活动的新闻中析取袭击者、所属组织、地点、受害者等信息。处理自由文本的IE系统通常使用自然语言处理技巧,其抽取规则主要建立在词或词间句法关系基础之上。处理步骤句法分析、语义标注、专有对象的识别(如人物、公司)和基于规则的抽取。MUC(Message Understanding for Comprehension)MET(Multilingual Entity Task Evaluation)ACE(Automatic Content Extraction)DUC(Document Understanding Confe

35、rences)q起源20世纪80年代未由美国国防部DARPA(Defense Advanced Research Projects Agency)发起。q含义MUC之于IE,正如TREC之于IRMessage Understanding ConferenceMessage Understanding CompetitionqMUC目标对自由文本进行分析,标识出某一特定类型的事件,并将有关这一事件的信息填写到相应的数据模板中。qMUC测试对电子邮件信息的抽取对新闻文章信息抽取,主题涉及恐怖活动、国际风险投资、企业成功管理经验等。qMUC作用对信息抽取技术方法研究以及系统评价等都起到重要的促进作用

36、。q起源也是DARPA发起的一个测评项目。主要是对日语、汉语以及西班牙语等多语种新闻文献进行命名实体抽取。MET-1和MET-2测试分别于2019年和2019年进行。q起源这一项目由美国国家安全局(NSA),美国商务部技术管理部门(NIST),以及中央情报局(CIA)一同主管。q关注三种信息内容抽取:网络上在线新闻通过ASR(自动语音识别的)得到的广播新闻通过OCR(光学字符识别)得到的报纸新闻q两个目的:希望在自动化内容抽取基础之上,为链接分析、自动摘要等打下基础。抽取相应信息提供给分析师,提高信息分析能力。q起源是在DARPA的TIDES(Translingual Information

37、Detection,Extraction,and Summarization program)基础之上发起的一个对“文本概括”进行研究测评的项目。q会议已经进行了DUC 01-07,DUC 2019在规划之中系统测评会议由美国商务部技术管理部门NIST管理q国外研究机构有新加坡肯特岗数字实验室英国谢菲尔德大学计算机系美国BBN Technology公司 q国内研究机构台湾国立大学中科院自动化研究所模式识别国家实验室清华大学北京大学微软亚洲研究院 Intel中国研究中心.2.1信息抽取概述2.2与IE相关的研究活动2.3信息抽取类型2.4信息抽取系统介绍2.5信息抽取系统设计2.6信息抽取应用q

38、MUC根据信息抽取内容以及所抽取出的信息的集聚水平,将信息抽取分为以下几种主要类型:NE(Named Entity Recognition):命名实体识别MET(Multi-lingual Entity Task):多语种实体识别TE(Template Element):模板元素信息抽取CO(Coreference):参照信息抽取TR(Template Relation):模板关系信息抽取ST(Scenario Template):情节模板信息抽取NE是最为基础的信息抽取类型,它需要系统能够识别出实体名,并将相应实体名进行归类。MUC测评可识别、抽取人名、组织名、日期、时间、地点、货币数量、百

39、分数等,并在文本中对这些信息进行标注。NE具有非常直接的实用价值,它支持对文档中命名实体信息的检索。qThe shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build RocketsMET除了能够对英文命名实体进行识别之外,还能够对多语种的命名实体进行识别,例如可以对中文、日文或西班牙文进行命名实体

40、识别。TE将特定的描述信息与实体联系起来。它需要从文本的任何地方将与组织、人物或其它实体相关的基本信息抽取出来,并将这些信息作为实体的属性进行聚集,形成实体对象。在MUC评测中,TE系统需要能够从文本中抽取特定类型的实体信息,并将这些信息填写到预先定义的属性模板中。例如对人物实体的模板元素抽取,需要信息抽取系统能够抽取出预先定义的人物的名称、职务、国籍等属性。qThe shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build

41、 Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets TE:the rocket is shiny red and“Dr.Heads brainchild”.CO涉及在进行NE或TE任务时,从文本中标识出对同一实体的不同表达方式。例如连接某同一实体的不同称谓。George W.Bush,US President将某一名词和其相应的代名词进行连接。CO可以将散布在文本中不同地方的同一实体的描述信息连接起来。分析实体在文本中不同地方出现的情况,以及分析实体在不同场合与其它实体之间的关系有助于情节信息的抽取。

42、在MUC中,CO之所以得到重视,是因为它能够为创建TE和ST(见下文)打下基础。qThe shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets TE:the rocket is shiny red and Heads brainchild.CO:it refers to the

43、rocket;Dr.Head and Dr.Big Head“are the sameTR需要在TE的基础之上标识出模板元素之间的关系。TR是MUC-7定义的一项新任务,需要抽取模板元素之间的相互关系。例如:职员和组织之间的关系(employee_of)产品和生产企业之间的关系(product_of)以及公司和地区之间的关系(location_of)qThe shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rock

44、ets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets CO:it refers to the rocket;Dr.Head and Dr.Big Head“are the same TE:the rocket is shiny red and Heads brainchild.TR:Dr.Head works for We Build Rockets Inc.ST抽取某一事件中的事件信息,并将事件信息与某个组织、人物或其它实体相关联。ST需要标识出特定事件及事件的相关属性,包括将事件中的各个实体填充到事件的相应角

45、色中,通过各个对象之间的关系,能够还原出整个事件的“原型”。主要研究点在于模板的获取专家针对不同领域手工写模板自动获取模板(主流研究方向)qThe shiny red rocket was fired on Tuesday.It is the brainchild of Dr.Big Head.Dr.Head is a staff scientist at We Build Rockets Inc.NE:entities are rocket,Tuesday,Dr.Head and We Build Rockets CO:it refers to the rocket;Dr.Head and

46、Dr.Big Head“are the same TE:the rocket is shiny red and Heads brainchild.TR:Dr.Head works for We Build Rockets Inc.ST:a rocket launching event occurred with the various participants.2.1信息抽取概述2.2与IE相关的研究活动2.3信息抽取类型2.4信息抽取系统2.5信息抽取系统设计2.6信息抽取应用q简介GATE是University of Sheffield承担的信息抽取项目。是纯Java语言的开源软件。支持对

47、XML、RTF、Email、HTML、SGML以及纯文本文档类型信息的抽取。qGate项目认为,典型的信息抽取包括三个过程:预处理过程命名实体探测过程事件探测过程q第一步:预处理文本格式的检查(Format Detection)特征标记(Tokenisation)分词(Word Segmentation)句法分割(Sentence Splitting)语法标记(POS tagging)等预处理后将文本分解成为有一定语言意义的语言片段,并对这些语言片段进行标记,使文本能够被转换成为更易于被信息抽取系统处理的模式。q第二步:命名实体探测借助辞典实现人物、组织、地点、时间等命名实体的探测。辞典中也可

48、能会包括一些相应的指示词(如Ltd.提示公司名称)用以指示相应的实体内容。语义标记。如ANNIE系统通过JAPE书写的规则,能够对实体进行更深入的语义标注。实体关联。通过参照实现实体之间的联系。q第三步:事件探测在命名实体探测基础上,抽取某一事件中的事件信息并将事件信息与某个组织、人物或其它实体相关联,构造出事件的概貌。完成句法分析、模板填充、模板合并、模板关联和事件探测等。q英文信息抽取相对成熟qGATE对中文信息抽取的支撑不足qNSL等在GATE基础之上,开发出了一个支持中文信息抽取的系统,初步解决了中文信息抽取问题。q初步解决中文信息抽取q三个中文信息抽取的主要问题Chinese tok

49、enizing Chinese gazetteersChinese named entity recognition中文信息抽取应用实例KIMArtEquAKTAmilcareArmadilloBioRATANP(Arizona Noun Phraser)DELOS WP5:Knowledge Extraction and Semantic InteroperabilityTAKE:Toolkit for Agent-based Knowledge ExtractionSKIF:A Distributed Knowledge Extraction Framework Based on Sema

50、ntic Web Services BioMeKe:BioMedical Knowledge Extraction project2.1信息抽取概述2.2与IE相关的研究活动2.3信息抽取类型2.4信息抽取系统介绍2.5信息抽取系统设计2.6信息抽取应用知识工程法(Knowledge Engineering Approach)靠手工编制规则,使系统能处理特定知识领域的信息抽取。要求编制规则的知识工程师对该知识领域有深入的了解。开发过程耗时耗力。自动训练法(Automatic Training Approach)通过学习已经标记好的语料库自动获取规则,能处理没有见过的新文本。对专业知识工程师要求

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(Web挖掘和信息抽取系统课件.ppt)为本站会员(三亚风情)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|