1、Web新闻人物追踪系统的设计与实现新闻人物追踪系统的设计与实现 姓 名: 学 号: 00448160 院 系: 信息科学技术学院 专 业: 计算机科学与技术 指导教师: 1谢谢观赏2019-9-11谢谢观赏提纲提纲o 引言n动机n难点o 相关研究n指代消解n实体关系抽取o 具体工作n文本中关键词的提取n人物指代消解n时间指代消解n简历型网页/段落的判定 n人物踪迹追踪系统的实现o 总结22019-9-11谢谢观赏引言引言32019-9-11谢谢观赏引言引言-动机动机o 广泛的需求o 还没有搜索引擎正式提供关于人物的搜索服务o 展示Webdigest小组长期工作成果的展示平台o 作为天网的一部分
2、42019-9-11谢谢观赏引言引言-难点难点o胡锦涛主席将于5月6日至10日对日本进行5天的国事访问。除东京外,他还将访问横滨和奈良,并从大阪启程回国时间指代消解,人物指代消解o吴仪中共中央政治局委员,国务院副总理。女,汉族,1938年11月生,湖北武汉人,1962年4月加入中国共产党,1962年8月参加工作,北京石油学院石油炼制系炼油工程专业毕业,大学学历,高级工程师。1956年至1962年西北工学院国防系、北京石油学院石油炼制系炼油工程专业学习。1962年至1965年兰州炼油厂车间技术员、政治部办公室干事。1965年至1967年石油工业部生产技术司生产处技术员。 简历型网页的判断5201
3、9-9-11谢谢观赏相关研究相关研究62019-9-11谢谢观赏相关研究相关研究-指代消解指代消解-人物指代消解人物指代消解o Borrow 的STUDENT系统:利用有限的启发式规则o Winograd的SHRDLU系统:基于语法位置o Wilks的Preference semantics系统:利用简单的语义知识的四级指代消解系统o Hobbs算法:基于句法分析,通过搜索句法树,寻找先行词o Ido Dagan和Alon Itai:利用共现模式从大规模语料库中自动获取约束o Mitkov:有限知识方法,应用一系列规则o Soon:利用机器学习,构造一个分类器判断是否是指代关系72019-9-
4、11谢谢观赏相关研究相关研究-指代消解指代消解-时间指代消解时间指代消解o Inderjeet Mani, George :一个时间消解的框架。处理中文需要解决更多问题借鉴:判断一些不需要消解的情况使用分类器解决,选择基准时间时的思想82019-9-11谢谢观赏相关研究相关研究-实体关系抽取实体关系抽取o Brin 1998,Agichtein 2000:先确定关系类别,然后基于关系对与描述模式在自然语言文本中的出现规律,自动学习语义化关系模式来找到关系对。 o Etzioni 2004:根据关系的种子实例对自动生成关系抓取模板,并且能给每个新发现关系对一个属于该类型的置信度。 o Takaa
5、ki Hasegawa 2004:基于实体对在文本中的共现定义关系,并利用共现文本对关系进行聚类、标注。 o Yutaka Matsuo 2006:以一组科技论文网站和论文作者的主页等半结构化数据为研究对象,以此来发现作者之间的关系 92019-9-11谢谢观赏具体工作具体工作102019-9-11谢谢观赏具体工作具体工作-文本中关键词的提取文本中关键词的提取o Jianguo Xiao 2007 :一个词W的重要程度由两部分因素组成,一个是其他词Ai(Ai!=W)的重要程度以及W和Ai的关系紧密程度,另外一个是W所在句子的重要程度以及W和这个句子的关系紧密程度。同样,一句话S的重要程度也有两
6、部分组成,一个是其他句子Bi(Bi!=S)的重要程度以及它和S的相似程度,另外一个是S所包含的词的重要程度以及他们同这句话的关系。 112019-9-11谢谢观赏具体工作具体工作-文本中关键词的提取文本中关键词的提取o 词语与词语之间的关系互信息(472978篇网页,1308327个词语 ,64312933对无序词对 )o 句子与句子之间的关系cosin值o 词语与句子之间的关系o 一个迭代的过程计算每个句子和每个词语的关键程度jjitttttstfisftfisf122019-9-11谢谢观赏具体工作具体工作-人名指代消解人名指代消解-人名性别判定人名性别判定o 人名性别判定获得一个人名性别
7、列表,总共包含5901个不同的姓名,通过统计每个名字对应的所有人的性别,简单地对这些名字的人的性别作出判断,得到了一个判断拥有名字N的人的性别的一个表。问题:所获得的名字的数量远远不能涵盖新闻网页中出现的人名,以至于在指代消解的时候,无法确定人物的性别,使得消解出错。这一块有待在今后工作中的改进。 132019-9-11谢谢观赏具体工作具体工作-人名指代消解人名指代消解-姓名缩写消解姓名缩写消解o 3月22日凌晨,巴勒斯坦哈马斯 (伊斯兰抵抗运动)精神领袖艾哈迈德亚辛的汽车遭以色列直升机导弹袭击,亚辛及其两名保镖身亡。 o 解决方法:简单的替换142019-9-11谢谢观赏具体工作具体工作-人
8、名指代消解人名指代消解-流程流程152019-9-11谢谢观赏具体工作具体工作-人名指代消解人名指代消解-评测评测o 随机选取了20篇网页,其中包含“他”和“她”共36 个,是共消解36个,正确消解29 个,精度是81% ,召回度是100%。 o 错误分析n 3个,人名识别接识别问题,如果接口能够正确识别,精度应该是89%n 2个,寻找先行人名错误n 2个,先行词并没有以人物姓名的形式出现在网页中,而是以一些名词或者“姓+名词”的形式出现,比如“司机”,“张医生”, 162019-9-11谢谢观赏具体工作具体工作-时间指代消解时间指代消解-难点难点o哪些需要消解?对海量网页中词频排名前1000
9、的词进行了统计和分析,得到了一些模式,并且整理了里面的能够明确消解的时间词语“今天今天”,“今日今日”,“当天当天”,“当日当日”,“当晚当晚”,“今天上午今天上午”,“今今晚晚”,“今天下午今天下午”,“当天下午当天下午”,“当天晚上当天晚上”,“同一天同一天”,“今夜今夜” ,“今年今年”,“下半年下半年”,“上半年上半年”,“今年上半年今年上半年”,“今年下半年今年下半年”,“今今夏夏”,“今秋今秋”,“今冬今冬”,“今年夏天今年夏天”,“同年同年”,“今年秋季今年秋季” ,“上上周周”,“本周本周”,“本月本月”,“下周下周”,“月底月底”,“周末周末”,“上周末上周末”,“当当月月”
10、,“本月底本月底” ,“去年去年”,“上一年上一年”,“上年上年” ,“昨日昨日”,“昨昨天天”,“昨晚昨晚”,“昨天下午昨天下午”,“昨天上午昨天上午”,“昨日下午昨日下午”,“昨日上昨日上午午”,“前一天前一天”,“昨天晚上昨天晚上”,“昨夜昨夜” ,“明日明日”,“次日次日”,“明明天天” ,“前天前天” ,“明年明年”,“次年次年” ,“前年前年” ,“下月下月” ,“上月上月”,“上个月上个月” ,“年底年底”,“今年年底今年年底”,“年终年终”,“年年末末”,“今年底今年底” ,“年初年初”,“今年年初今年年初”,“今年初今年初” ,“去年去年底底”,“去年年底去年年底” ,xxx
11、x-xx-xx,xxxx.xx.xx,xx年,年,xx月,月,xx日,日,(x代表一个阿拉伯数字)代表一个阿拉伯数字) 172019-9-11谢谢观赏具体工作具体工作-时间指代消解时间指代消解-难点难点o “九八年”,“年”中文数字以及全角阿拉伯数字转换成半角阿拉伯数字o“1946年1月到8月 ”,“ 4月1日、7日、8日 ”时间段、并列时间的处理o 引用中的时间不处理o 基准时间的确定一套规则o 是否是未来时间考虑时间间隔o“今天的中国”是否需要消解182019-9-11谢谢观赏具体工作具体工作-时间指代消解时间指代消解-流程流程192019-9-11谢谢观赏具体工作具体工作-时间指代消解时
12、间指代消解-评测评测o 随机选取了50篇网页,包含在消解范围内的时间词 248个,消解了242个,正确消解了223个,精度是92% ,漏掉了6个,召回度是97%。o 错误的原因n消解了不应该消解的时间,有4个n基准时间判断错误,有6个n其余错误包括时间间隔处理的问题、接口识别的问题等n还有一些词不在本模块规定的可消解范围内,由于它的一部分属于可消解词,以至于被消解,如“农历三月等”。o 漏掉的原因n4个因为接口没有将这个时间识别出来,n2个被简单的认为不应该消解。202019-9-11谢谢观赏具体工作具体工作-简历型网页简历型网页/段落的判定段落的判定o 判断简历型网页o 判断简历型段落均根据
13、调研情况制定一些规则,按照对人名、时间以及其他的统计数据作出判断212019-9-11谢谢观赏具体工作具体工作-简历型网页简历型网页/段落的判定段落的判定-评测评测o 使用了409篇网页 ,共有67个简历网页o 判断简历型网页n精度:得到58篇简历的网页,正确56篇,精度为97%。n错误分析:一篇是讲的宪法的历史,期间提到了很多时间,而且除了开始出现了一个人名外,之后都没有提到人,这些都符合了判断简历型网页的条件。另外一篇中本没有提到人,但人名识别接口错误的识别出了一个人名,同时符合判定的其他标准n召回度:83% n错误分析:2篇,人名识别接口没有识别出人名;2篇,简历中人名出现过多;5篇是在
14、处理特殊网页(每句一段),没有正确找打句子开始的时间;1篇是将非特殊网页判断成了特殊网页;1篇是因为简历过长,没有考虑。 222019-9-11谢谢观赏具体工作具体工作-简历型网页简历型网页/段落的判定段落的判定-评测评测o 判断简历型段落,数据集同上n 精度:识别出26个简历型段落,20个正确,精度是77%n 错误分析:有些段落比较短,一些阈值不适合导致的,同时召回度也不理想,最后在构建系统的时候,暂时没有用到简历型段落232019-9-11谢谢观赏具体工作具体工作-人物踪迹系统的实现人物踪迹系统的实现-数据集数据集o 网页来源:2007年Webdigest小组所抓取的网页。选取http:/
15、上排名前100的新闻网页作为种子,并且按4层抓取。从10月1日开始持续了30天,总计20,000,000篇网页。o 处理过程:n 使用Parasize项目的工具进行消重、去噪n 使用本文的模块对网页处理。n 句子为单位,进行提取踪迹o 现在得到的数据:总共得到403456条人物踪迹,23415条同时包含地点信息,作为现在系统可以查询的数据。 242019-9-11谢谢观赏具体工作具体工作-人物踪迹系统的实现人物踪迹系统的实现-模块和功能模块和功能o 模块:查询模块,和地图展示模块 o 功能:n 输入:一个人名n 输出:他/她的所有踪迹,包含人物、时间、地点和时间,踪迹,并且按照日期排序。n 地图展示:屏幕右侧,地点被标识,线条连接相邻踪迹的地点,动态展示 252019-9-11谢谢观赏具体工作具体工作-人物踪迹系统人物踪迹系统262019-9-11谢谢观赏总结总结o 意义n 研究价值n 创新o 收获n 新的知识n 科研经验o 今后工作n 各模块的改进n 奥运会信息处理系统272019-9-11谢谢观赏282019-9-11