1、开源智能软件平台XPress 项目汇报谢欣2003年12月31日开源智能-XPress2目录n项目概述n系统n匹配算法n展望开源智能-XPress3项目概述n名称:“开源智能软件平台”,Xpressn功能:对FTP资源分类整合,并附加从web上自动提取的的相关信息,为用户提供具有高可用性的WEB形式资源浏览、检索与下载服务。n特点:自动开源智能-XPress4n商业经理:刘菲菲,软工n开发经理:谌贻容,语言所n档案经理:石武光,语言所n项目组长:谢 欣,网络项目概述:团队成员开源智能-XPress5项目概述:商业计划回顾n本项目以宽带网络服务提供商为服务对象n协助其以低廉的价格对现有下载服务进
2、行大规模扩充,快速提高其商业竞争力为目标。n2003年10月23日录音回放:开源智能-XPress6系统介绍n实际使用nhttp:/xpress.3322.org:7001/XPress开源智能-XPress7系统结构图Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口开源智能-XPress8系统重点一:web信息提取n信息提取简介q基于模板(我们的选择)q基于Ontologyq基于规则q基于语法开源智能-XPress9系统重点二:FTP搜索n利用天网文件搜索的技术n爬虫n多线程并行抓取n每个站点一个线程开源智能-XPress10系统重点三:匹配算法n对每个FTP文件匹配所有的软件资源
3、,找出匹配值最大的一项,当匹配值大于某个预定的权值时,我们就认为匹配成功n不是百分之百正确n为什么不用MD5q在现实实施中不可能q文件大小往往不同q增加匹配成功度:语言版本,版本号n算法的假设前提,对于同种资源,从web上得到的软件和FTP上的文件q在名称上具有一定的相似度q文件大小相差不大Web页面抓取及信息提取FTP信息抓取软件信息匹配用户接口开源智能-XPress11匹配算法一:石氏(石午光)算法n名称文件大小,各占一定百分比n文件大小q二者大小之差的百分比反比于比较结果n名称q假设前提:FTP文件名中前面的字符比后面的字符更能体现文件的内容q实际做法:前几个字符所占比重较大,越在后面的
4、字符所占比重越小开源智能-XPress12匹配算法二:刘氏(刘菲菲)算法n前提假设:很多软件同时有中英文名n特点:中英文分别匹配,最大子串n步骤1.过滤掉文件大小之差大于阀值的匹配2.然后进行名称文件大小的匹配3.对于名称匹配,分别拆分出各自名称的最大中文子串和最大英文子串4.若一方无中(英)文子串,则只比较英(中)文子串;否则中英文子串都进行比较,各占一半的权重5.比较子串时挑选出最长共同的子串,其占整个字符串的长度之比为匹配值开源智能-XPress13匹配结果从从web页面得到的文件名页面得到的文件名从从FTP得到的文件名得到的文件名从从web得得到的文件到的文件大小大小从从FTP得得到的
5、文件到的文件大小大小 cuteftp 5.0.1.0 汉化修正版cuteftp5.0.1.rar17305601729565 二十五史全文检索阅读系统(完整版)3.0二十五史全文检索阅读系统 v3.0-25sBook30.exe1031065610311417 winrar 3.20 简体中文版 WINRAR320CN.exe974848988031 picturetotv 1.4.4 汉化补丁HB_PictureToTV_szl.exe12318721232567 腾讯qq 2003 木子版 1.1QQ2003 Preview4 木子版 1.0.exe65075206507728 腾讯qq自
6、动发消息专杀工具qqav 3.3qqav311021.zip486400488208 腾讯qq自动发消息专杀工具qqav 3.3qqav.exe486400516608 金山巨无霸(sobig)专杀工具 2003.8.20.11Duba_Sobig.exe4505644032 internet设置工具-ieprosetup 1.2.2 简体版IEProSetup1.1.zip272384257926 qq狙击手ipsniper 3.2IpSniper.zip12206081215545 天网 maze 网络文件系统 1.02 betaMaze-1.02-win.exe2869248286960
7、5开源智能-XPress14实际测试n实际查询nhttp:/xpress.3322.org:7001/XPressqLeapftpq网络蚂蚁qMazeq友情强档开源智能-XPress15展望:质n提高匹配的准确程度n不同的单词应该有不同的权重,比如:q“photoshop”之类的词权重应比较高(区分性较强)q“windows”,“system”之类的权重应比较低q“中文版”,“build”之类的权重应非常低n不手工建立词典,采用分布均匀性公式开源智能-XPress16展望:质(续)n对每一个可能的词进行计算n北大计算语言所张化瑞的计算公式n计算词频的分布均匀性(Distributed Cons
8、istency,DC)n分布均匀度越高,该词的权重越低221nFFFresnnFFFEn21)10(DCEresDC开源智能-XPress17展望:量n增加从web上进行信息提取的来源数量n自动发现软件站点q利用我们的软件信息库和现有的搜索引擎n自动提取此类网站的模板q提取出网站中大量相似页面中的不同内容n自动更新软件信息q基本于软件网站同步更新开源智能-XPress18各位员工好,这是我们开源智能跨国公司这个月的财政收入ft!我怎么只有180万!哇,钱不少嘛,不过其实我不爱钱可是钱爱我商业展望:2008年7月开源智能跨国公司的一次月度财政会议谢谢观赏开源智能-XPress20Ontology
9、nA computational entity,a resource containing knowledge about what“concepts”exist in the world and how they relate to one anothernComponentsqConceptsnDomain dependentqContext freeqContext sensitivenDomain independentqContext freeqContext sensitiveqRelationship(relational schema between the concepts)
10、qConstraintsCar-object;Car 0:1 has Make 1:*;Make matches 10 constant extract baudib;end;Car 0:1 has Model 1:*;Model matches 25 constant extract 80;context baudiS*s*80b;end;Car 0:1 has Mileage 1:*;Mileage matches 8 constant extract b1-9d0,2k;substitute kK-000;end;Car 0:1 has Price 1:*;Price matches 8 constant extract 1-9d3,6;context$1-9d3,6;end;