1、从从SIGIR看信息检索技术的看信息检索技术的过去与未来过去与未来马少平,张敏马少平,张敏清华大学计算机系;清华大学计算机系;智能技术与系统国家重点实验室智能技术与系统国家重点实验室2007年年3月月10日,海口日,海口缘起缘起n过去三十五年中,我们在信息检索的路上走过去三十五年中,我们在信息检索的路上走了多远?了多远?n在在IR舞台上,什么是长盛不衰的?舞台上,什么是长盛不衰的?哪些已经渐渐谢幕?哪些已经渐渐谢幕?哪些即将登场?哪些即将登场?nSIGIR 19712006年所有正式论文年所有正式论文主要内容主要内容n检索模型的发展检索模型的发展n关键技术关键技术n检索任务的演变检索任务的演变
2、n人机交互与用户分析人机交互与用户分析n信息检索的评价信息检索的评价n信息检索中的自然语言处理信息检索中的自然语言处理n更多思考与讨论更多思考与讨论检索模型的发展检索模型的发展信息检索模型信息检索模型n从一开始就沿两条路发展从一开始就沿两条路发展n来源于结构化数据处理的灵感来源于结构化数据处理的灵感nE.g.数据库数据库n直接从自由文本处理的角度直接从自由文本处理的角度n前前10年,并驾齐驱,结构化方法占有一定的年,并驾齐驱,结构化方法占有一定的主导地位主导地位n进入进入90年代之后,结构化数据存储相对沉寂年代之后,结构化数据存储相对沉寂n进入进入2000年,开始复苏年,开始复苏n思路转变思路
3、转变 xml IRn两条路逐渐呈现融合趋势两条路逐渐呈现融合趋势IR modelsn自由文本模型自由文本模型三个阶段三个阶段n向量空间模型向量空间模型 80年代初的重点年代初的重点n概率模型概率模型 80年代末兴起,年代末兴起,90年代逐渐成为主流年代逐渐成为主流n基于语言模型的检索基于语言模型的检索 1998年,里程碑年,里程碑n更多模型更多模型 近两三年开始,标志近两三年开始,标志IR进入新的阶段进入新的阶段关键技术关键技术关键技术关键技术n实现实现 n早期早期n倒排索引的提出倒排索引的提出与研究与研究n2000后后n大规模检索大规模检索n最近最近n垃圾垃圾 n走出实验室走出实验室n面向海
4、量数据、面向海量数据、实时处理、真实实时处理、真实网络环境网络环境关键技术关键技术n相关反馈相关反馈n经久不衰的话题经久不衰的话题n3个阶段个阶段n早期早期n建立反馈机制建立反馈机制n90年代中年代中nCBIRn最近最近n区分不同主题区分不同主题n区分不同词区分不同词关键技术关键技术n集中式不能满足要求集中式不能满足要求n分布式系统架构分布式系统架构n3个阶段个阶段n早期:早期:n通用系统设计通用系统设计n90年代中年代中n分布式分布式n大规模大规模n扩展性、效率扩展性、效率n最近最近n自适应系统自适应系统n系统融合系统融合 检索任务的演变检索任务的演变检索任务检索任务 nWeb IRn80年
5、代末期年代末期nWebpagenWeb与传统文本相区与传统文本相区别的特性别的特性n1998年开始年开始nPage,Kleinbergn链接分析链接分析n把把Web作为完整的拓作为完整的拓扑结构扑结构n2000年后年后n更宏观更宏观站点级站点级n更微观更微观Block级级检索任务检索任务 n多媒体检索多媒体检索n很早被提出很早被提出 n语义鸿沟问题语义鸿沟问题n图像检索图像检索n实验室结果实验室结果n利用文本信息利用文本信息n最近最近5年年 n视频视频n音乐音乐n检索任务检索任务 n多语言检索多语言检索nTRECn日语日语n汉语汉语n阿拉伯语阿拉伯语nNTCIRn亚洲多语言亚洲多语言n英文英文
6、n主要技术主要技术n自然语言处理技术自然语言处理技术n词语翻译技术词语翻译技术检索任务检索任务 n由国际标准评由国际标准评测提出,有效测提出,有效推动了信息检推动了信息检索研究的发展索研究的发展nTDTnTRECnNoveltynHARDnGenomicsnBlognLegal n人机交互与用户分析人机交互与用户分析人机交互与用户分析人机交互与用户分析n人们始终青睐有加的研究领域人们始终青睐有加的研究领域n早期:可视化表示早期:可视化表示(查询、文档的可视化)(查询、文档的可视化)n自然语言交互界面自然语言交互界面n2002年以后:年以后:n用户日志分析,用户日志分析,Social Netwo
7、rk,快速学习能力,快速学习能力信息检索的评价信息检索的评价检索的评价检索的评价 nTRECnPooling技术技术n更紧接本质的评价技术更紧接本质的评价技术n评价与技术的共同发展评价与技术的共同发展信息检索中的信息检索中的自然语言处理自然语言处理NLP and IRn最早被提出的问题之一最早被提出的问题之一nStemming,分词,词典使用,词义消歧,命名实体分词,词典使用,词义消歧,命名实体n近年来:更深层次的使用近年来:更深层次的使用n句子完整性重构(更自然的语言表达)句子完整性重构(更自然的语言表达)n2005年,将年,将NLP信息融合到检索的语言模型中信息融合到检索的语言模型中更多思
8、考与讨论更多思考与讨论IR 的发展的发展n来源之一:实际应用来源之一:实际应用n分布式系统分布式系统n系统设计与实现的可扩展性、鲁棒性系统设计与实现的可扩展性、鲁棒性nWeb IR,链接分析链接分析n用户分析:搜索日志分析用户分析:搜索日志分析 IR 的发展的发展n来源之二:国际标准评测来源之二:国际标准评测n跨语言检索跨语言检索n信息检索的评价与测试集的构建信息检索的评价与测试集的构建n话题检测与跟踪话题检测与跟踪n新信息发现新信息发现IR 的发展的发展n来源之三:二者共同推动来源之三:二者共同推动nQAn检索模型发展检索模型发展nSpamnIntranet信息检索信息检索nBlog检索与情
9、感分析检索与情感分析n总结总结n缘起缘起n信息检索模型信息检索模型n关键技术的发展关键技术的发展n检索任务的演化检索任务的演化n人机交互人机交互/用户分析用户分析n检索的评价检索的评价 n信息检索与自然语言处理信息检索与自然语言处理n其他思考其他思考 关于关于IR的发展的发展谢谢!谢谢!n严禁隐瞒、虚报生产安全事故。严禁隐瞒、虚报生产安全事故。22.8.1022.8.10Wednesday,August 10,2022n推行推行ISO9000不走样,企业生存发展有希望。不走样,企业生存发展有希望。14:24:1614:24:1614:248/10/2022 2:24:16 PMn质量出效益,点
10、滴成江河。质量出效益,点滴成江河。22.8.1014:24:1614:24Aug-2210-Aug-22n厕所卫生要注意厕所卫生要注意,干净清洁常保持。干净清洁常保持。14:24:1614:24:1614:24Wednesday,August 10,2022n人人讲安全,安全为人人。人人讲安全,安全为人人。22.8.1022.8.1014:24:1614:24:16August 10,2022n今日的质量,明日的市场。今日的质量,明日的市场。2022年年8月月10日日下午下午2时时24分分22.8.1022.8.10n树立自我信心,把握各工段流程;消灭疵点起因,管理操作是关键。树立自我信心,把
11、握各工段流程;消灭疵点起因,管理操作是关键。2022年年8月月10日星期三日星期三下午下午2时时24分分16秒秒14:24:1622.8.10n安全是增产的细胞,隐患是事故的胚胎。安全是增产的细胞,隐患是事故的胚胎。2022年年8月月下午下午2时时24分分22.8.1014:24August 10,2022n我们极度鄙视一切乱丢乱吐等不文明行为。我们极度鄙视一切乱丢乱吐等不文明行为。2022年年8月月10日星期三日星期三14时时24分分16秒秒14:24:1610 August 2022n清洁清洁拥有清爽明亮的工作环境。拥有清爽明亮的工作环境。下午下午2时时24分分16秒秒下午下午2时时24分分14:24:1622.8.10n贯彻贯彻ISO系列标准系列标准,树立企业新形象。树立企业新形象。22.8.1022.8.1014:2414:24:1614:24:16Aug-22n老兄!品管不是空想,而是起而行的工作。老兄!品管不是空想,而是起而行的工作。2022年年8月月10日星期三日星期三14时时24分分16秒秒Wednesday,August 10,2022n幸福是棵树,安全是沃土。幸福是棵树,安全是沃土。22.8.102022年年8月月10日星期三日星期三14时时24分分16秒秒22.8.10谢谢大家!谢谢大家!