1、一种数据驱动的一种数据驱动的Wrapper自动自动生成与维护方法生成与维护方法xxx中国人民大学WAMDM实验室1谢谢你的阅读2019年10月292大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍谢谢你的阅读2019年10月293Deep Web 介绍 World Wide WebCIDR07 目前可访问的网页超过550 billion 目前主流搜索引擎只索引了超过1billion的页面Web的划分(按照数据“深浅”程度)Surface Web -通过超链接可以被传统搜索引擎索引到的页面的集合。Deep Web -无法被传统的搜索引擎索引到的那部分内容
2、。谢谢你的阅读2019年10月294Deep Web的主要特点 规模 2001年7月BrightP:Web数据库的数量超过4万个 2004年UIUC统计:Web数据库超过45万个 2007年CIDR:Web数据库超过2500万个 是Surface Web的500多倍 结构化程度 75%主题分布 覆盖了现实世界的各个主题(商业、新闻媒体、娱乐)自治性和异质性谢谢你的阅读2019年10月295研究动机 原有的数据抽取方法 基于DOM树分析Y.Zhai,B.Liu.Web data extraction based on partial tree alignment.In:WWW,2005.76-8
3、5.D.Hu and X.Meng:Automatically extracting data from data-rich web pages.In:DASFAA 2005,pages828-839,Beijing,China,April 17-20,2005.Lecture Notes in Computer Science 3453,Springer.基于视觉的抽取H.Zhao,W.Meng,Z.Wu,V.Raghavan,C.T.Yu.Fully automatic wrapper generation for search engines.In WWW,pages 66-75,200
4、5.K.Simon,G.Lausen.ViPER:Augmenting Automatic Information Extraction with Visual Perceptions.In CIKM,pages 381-388,2005.W.liu,X.Meng,W.Meng.Vision-based Web Data Records Extraction.In:Proceedings of the 9th SIGMOD International Workshop on Web and Databases(SIGMOD-WebDB2006),June 30,2006谢谢你的阅读2019年1
5、0月296原有抽取方法的缺陷(1)SL05 K.Simon,G.Lausen.ViPER:Augmenting Automatic Information Extraction with Visual Perceptions.In CIKM,pages 381-388,2005.ViNTs(MDR-2)CH07 S.-L.Chuang,K.C.-C.Chang,and C.Zhai.Context-Aware Wrapping:Synchronized Data Extraction.In:VLDB 2007.699-710数据集1数据集2数据集3查全率97.6%98.7%(52.8%)89.
6、2%查准率98.1%98.7%(87.7%)93.5%音乐图书汽车LineSpliter65%67%40%RoadRunner90%62%80%ExAlg91%85%81%TreeAlign88%65%85%领域方法谢谢你的阅读2019年10月297原有抽取方法的缺陷(2)特征驱动的方法:严重依赖于网页的结构及特征 准确率波动现象准确率不同的领域/不同的页面集合(失效)(较好)(较差)(一般)谢谢你的阅读2019年10月298大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍谢谢你的阅读2019年10月299Deep Web查询结果页面 查询结果列表(l
7、ist page)查询结果记录的详细页面(detailed page)谢谢你的阅读2019年10月2910两个观察 在一系列的匹配页面对上:(1)若语义块匹配,则源语义块上的数据值与目标语义块上的数据值大部分具有较高相似度值;(2)若语义块不匹配,源语义块上的数据值与目标语义块上的数据值大部分具有较低的相似度值.非常重要!非常重要!谢谢你的阅读2019年10月2911不同网站同一时期的页面(a)当当网上的页面)当当网上的页面(b)卓越网上的页面)卓越网上的页面数据驱动的数据驱动的Wrapper生成生成谢谢你的阅读2019年10月2912同一网站不同时期的页面(a)当当网改版前页面()当当网改版
8、前页面(2006)(b)当当网改版后页面()当当网改版后页面(2008)数据驱动的数据驱动的Wrapper维护维护谢谢你的阅读2019年10月2913Wrapper生成与维护过程 Wrapper生成扩散 Wrapper维护可以利用现有可以利用现有的方法先生成的方法先生成一个高精准的一个高精准的Wrapper谢谢你的阅读2019年10月2914基于XPath的Schema-Guided数据抽取方法XHTML页面页面Schema-Guided抽取规则抽取规则谢谢你的阅读2019年10月2915基于相似度值的语义块匹配源语义块组源语义块组目标语义块组目标语义块组求得目标数据块的求得目标数据块的XPa
9、th谢谢你的阅读2019年10月2916语义块相似度值的迭代计算谢谢你的阅读2019年10月2917大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍谢谢你的阅读2019年10月2918在不同领域上的有效性实验Deep Web网站#AT#R#RT99网上书城766china-pub网上书店877北发图书网111111当当网171515王府井书店765蔚蓝网1099新华在线766中国书网111111中国图书网171716总计958886Deep Web网站#AT#R#RTIT168484646PCHOME 373635MyPrice464443泡泡网444
10、242人民网IT频道575351万维家电网373636中华网科技413939总计310296292Deep Web网站#AT#R#RT好听音乐网777网易娱乐资料库121110九天音乐网766音乐天空666总计323029Deep Web网站#AT#R#RT环球影酷141312中文电影资料库988中国影视资料馆101010影视之狐131212总计464342#AT#R#RT总计483457449查全率:92.96%查准率:98.25%表1 图书领域的Wrapper生成验证(种子点:卓越网)表2 计算机领域的Wrapper生成验证(种子点:比特网)表3 音乐领域的Wrapper生成验证(种子点:
11、一听音乐网)表4 电影领域的Wrapper生成验证(种子点:IMDB中文网)表5 4个领域的Wrapper实验结果统计谢谢你的阅读2019年10月2919在不同领域上的有效性实验(2)谢谢你的阅读2019年10月2920语义块匹配的收敛速度0 5 10 1510007505002500目标语义块源语义块(1)5个匹配页面对谢谢你的阅读2019年10月2921语义块匹配的收敛速度0 5 10 1510007505002500目标语义块源语义块(2)10个匹配页面对谢谢你的阅读2019年10月2922语义块匹配的收敛速度0 5 10 1510007505002500目标语义块源语义块(3)15个匹
12、配页面对谢谢你的阅读2019年10月2923语义块匹配的收敛速度0 5 10 15目标语义块源语义块(4)20个匹配页面对10007505002500谢谢你的阅读2019年10月2924大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍谢谢你的阅读2019年10月2925总结 不同于以往工作使用结构或特征分析页面(特征驱动特征驱动),进而产生Wrapper的方法,本文创新性地提出数据驱动数据驱动的Wrapper导出方法。本文提出的方法,将Wrapper的生成与维护生成与维护过程统一起来。本文提出的数据驱动方法,无需设置参数及阀值无需设置参数及阀值。相对于
13、先前方法,具有更广泛的适用性更广泛的适用性,并能达到较好的集成效果。谢谢你的阅读2019年10月2926大纲 背景介绍&研究动机 数据驱动的Wrapper自动生成与维护方法 实验 总结 系统介绍谢谢你的阅读2019年10月2927系统介绍 工作通工作通:工作信息集成系统 网址:http:/ 图书价格比较网图书价格比较网:图书领域的信息集成及价格比较系统 网址:http:/ 谢谢你的阅读2019年10月2928C-DBLP介绍基于本文的方法,我们还开发了一个中文文献的集成系统C-DBLP已收录计算机领域的以下9本权威中文期刊和1个学术会议的数据(1)软件学报1990-2008年(2)计算机学报1978-2008年(3)计算机研究与发展1960-2008年(4)计算机工程1975-2008年(5)中国图形图象学报1996-2008年(6)中文信息学报1986-2008年(7)计算机科学1979-2008年(8)小型微型计算机系统1980-2008年(9)计算机科学与探索2007-2008年(10)NDBC 2000年-2007年论文集的数据 谢谢你的阅读2019年10月2929以作者为中心的结果展示方式参考文献的参考文献的展示方式展示方式谢谢你的阅读2019年10月2930挖出来挖出来“晒晒晒晒”谢谢你的阅读2019年10月29谢谢Q&A31谢谢你的阅读2019年10月29