TRS搜索引擎解决方案.ppt

上传人(卖家):晟晟文业 文档编号:4400664 上传时间:2022-12-06 格式:PPT 页数:47 大小:8.35MB
下载 相关 举报
TRS搜索引擎解决方案.ppt_第1页
第1页 / 共47页
TRS搜索引擎解决方案.ppt_第2页
第2页 / 共47页
TRS搜索引擎解决方案.ppt_第3页
第3页 / 共47页
TRS搜索引擎解决方案.ppt_第4页
第4页 / 共47页
TRS搜索引擎解决方案.ppt_第5页
第5页 / 共47页
点击查看更多>>
资源描述

1、TRS 搜索引擎解决方案搜索技术和产品综合搜索平台的需求分析 海量 高效 开放 精准 非结构化TRS 核心技术 专注于非结构化信息处理 主要核心技术 信息检索 文本智能 内容管理 搜索和内容管理 垂直/行业搜索、企业搜索、互联网搜索 内容全生命周期管理融合互联网搜索和企业搜索 互联网搜索和企业级搜索并非一回事TRS领导“高端”搜索技术 海量信息处理能力 智能化信息处理能力 融合互联网搜索和企业搜索的能力 查全和查准的协调 高安全性、可靠性 高端应用伸缩扩展能力 TRS 企业搜索平台和应用特色数据库采集对于综合搜索平台而言,更多的是使用该种方式,实现资源的整合与搜索网页采集互联网信息采集系统设置

2、运行周期控制网页抓取模块网页采集队列链接分析和采集策略控制网页分析模块内容过滤自动分类内码转换自动排重数据输出模块 数据库文件系统数据加工采集支持扫描数据采集海量信息处理海量信息处理的基本策略是“分布式”、“集群”、“多服务器”协同。目前在国内只有TRS已经成功在实际客户处成功部署了多服务器集群检索系统,处理数千万以至上亿条记录信息,无论Autonomy,Verity,Baidu,Google 均没有这方面的成功案例 新华社多媒体数据库(18T,仅中文就4000万记录)中华人民共和国门户网站(全国各级政府网站数据整合)公安部搜索引擎系统(1.2万网站,约2000万网页)新华社多媒体数据库 全球

3、最大中文多媒体数据库每天支持万的访问次数User InterfaceWindows/Linux/Unix数据层资源整合企业搜索引擎应用TRS DBSERVERTRS DPRDBMSTRS GATEWAYTRS InfoRadarWebSphere/Weblogic/Tomcat/.Net Platform数据存储和检索 在TRS搜索引擎方案中,搜索服务所需的数据及其索引并非像其他搜索引擎以单纯的文件来进行组织和存储,而是采用类似关系数据库的管理模式,以“数据库”、“表”、“记录”、“字段”、“全文内容”及“索引”等机制来对来自不同信息源的不同类型的信息对象予以全面而有序的组织管理,这是TRS搜

4、索引擎优于互联网搜索引擎的一大特点和优势数据库管理和存储字段类型TRS全文数据库支持多种不同类型的字段,它们是:DATE日期型字段 NUMBER 数值型字段 CHAR字符串型字段 PHRASE短语型字段 DOCUMENT全文型字段 BIT二进制型字段多种格式文件支持索引模式按字按词字词混合,混合模式只对具有按词索引属性的数据库的Pharse和Document字段有效 全冗余模式:将公共部分分别在“按词”和“按字”索引中各存一份。优点是检索时直接取各自的索引即可,缺点是索引空间膨胀大 半冗余模式:将公共部分只存储在“按词”的索引中。优点是“按词”检索时可直接取“按词”的索引即可,且索引空间膨胀小

5、;缺点是“按字”检索时要取“按字”的索引和“按词”的索引进行合并,多一次“或”运算 零冗余模式:将公共部分单独存储。优点是索引空间膨胀小;缺点是“按字/词”检索时要取“按字/词”的索引和“公共索引”的索引进行合并,多一次“或”运算索引技术 零空间膨胀率(-0.21)索引分区技术(参考索引文件)多线程并行运算技术 Cache技术(针对近期频繁访问的检索结果)检索功能 48种检索运算符 外部特征与正文内容的各种逻辑组合检索 位置检索 二次检索/渐进检索 历史检索 词根检索 大小写敏感检索 概念检索(词典)相关性排序 排序权重计算因素 文章的词频 命中词出现的位置(标题、第一段、第二段、最后一段)检

6、索技术 自动分库技术:将物理数据库转化为能自动分裂数据库的视图。可对生成的分裂视图进行装入记录和复制记录操作,结果将自动反映到其对应的物理数据库里 多库并行检索技术 多级Query-CACHE技术 基于词以及词频的bi-gram算法 索引跳跃式扫描技术知识检索 词典 智能语言检索 简繁检索 相关词提示 拼音检索 自然语言检索(Like函数)TRS搜索集群的示意架构数据库集群服务器示意图TRS信息资源管理平台配套产品:TRS全文数据库服务器(TRS Database Server)TRS全文数据库集群服务器(TRS Database Cluster)TRS数据处理工具(TRS Data Proc

7、essor)TRS关系数据库内容检索引擎(TRS Gateway)TRS内容发布应用服务器(TRS WAS)各产品组合应用可实现异构环境下非结构化信息的采集、存储、检索、控制、发布和服务,并可与主流关系型数据库无缝集成。实现非结构化、半结构化和结构化数据统一管理的完善解决方案。文本挖掘技术和产品智能化信息处理TRS 在业界最早推出实用化的文本挖掘技术,现已发展到4.X 版本,包括自动分类、自动聚类、自动摘要、自动标引、信息过滤和信息提取、相似性检索、短语检索、拼音检索等 新华社多媒体数据库、外交部在863、全国搜索引擎和数据挖掘技术学术评测中均居领先地位,是产业界中敢于参加并获得好成绩的代表,

8、体现了TRS在自然语言和智能信息处理研究领域的强大“内功”智能化分析处理TRS CKM自动分词自动聚类自动分类/规则分类/混合分类文本相似性检索(自动排重)跨语言查重自动摘要+主题词标引(自由词+行业主题词)(摘要和标引也可以分开用)(政治)常识校对 信息过滤拼音、同音检索相关短语检索信息抽取TRS CKM产品描述 国内外第一套成熟的中文文本挖掘技术,文本挖掘是数据挖掘的一个分支,它是进行知识管理的基础和关键技术。TRS CKM 有效结合自然语言处理技术、人工智能技术、知识库以及统计分析技术,实现了商业化应用。在863等多次评测中均名列前茅。内容管理技术和产品内容服务平台内容采集创建网络信息采

9、集信息采集网关多媒体采集数据交换接口内部创作接口电子文档处理内容管理数据存储结构化数据对象数据非结构化数据内容挖掘与知识管理服务自动分类自动摘要自动聚类查重与相似性分析过滤与知识提取本地内容管理本地应用集成本地内容采集本地内容编辑跨媒体发布个性化服务版权保护内容评估站点管理电子商务个人内容桌面内容协作平台内容编审监控统计用户管理工作流引擎协同工作沟通内容管理架构内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数据交换接口内部创作接口电子文档处理内容管理数据存储结构化数据对象数据非结构化数据内容挖掘与知识管理服务自动分类自动摘要自动聚类查重与相似性分析过滤与知识提取本地内容管理本地应用

10、集成本地内容采集本地内容编辑跨媒体发布个性化服务版权保护内容评估站点管理电子商务个人内容桌面内容协作平台内容编审监控统计用户管理工作流引擎协同工作沟通内容管理架构TRS内容管理主流产品内容服务平台内容采集创建网络信息采集信息采集网关多媒体采集数据交换接口内部创作接口电子文档处理内容管理数据存储结构化数据对象数据非结构化数据内容挖掘与知识管理服务自动分类自动摘要自动聚类查重与相似性分析过滤与知识提取本地内容管理本地应用集成本地内容采集本地内容编辑跨媒体发布个性化服务版权保护内容评估站点管理电子商务个人内容桌面内容协作平台内容编审监控统计用户管理工作流引擎协同工作沟通TRS INFORADARTR

11、S GATEWAYTRS APITRS DPTRS CKMTRS DB SERVERTRS CDSTRS WCMTRS优势特点(1)异构资源搜索和整合 TRS能搜索各种RDBMS,文件系统,网页等内容。其他搜索引擎不能。(2)“安全”的搜索引擎 TRS支持内容安全性控制,特定的人只能搜索特定的内容,其他互联网搜索引擎只能进行普遍性搜索,对内容没有安全性控制。TRS是一个基于“内容安全”的搜索引擎(3)支持数据实时更新的搜索引擎 TRS支持对数据的实时更新,其他互联网搜索引擎不支持数据的实时更新。互联网搜索引擎一般有长达数个星期的数据更新周期。在数据库内部没有动态修改数据和索引的算法。不能支持数

12、据动态更新。(4)更高的搜索准确性和更好的搜索体验 TRS能够对不同的内容和查询需要采用不同的索引策略,如按字,按词,混合等搜索手段,按照内容的相关性而不是PageRank 获得相关性。互联网搜索引擎采用网页的标题和PageRank 进行相关性计算,对行业搜索引擎失去效果,查询效果和准确性差 互联网搜索引擎竞价排名等商务模式破坏了行业性用户的搜索体验(5)智能化信息处理,提高信息使用价值 TRS具有领先的中文智能处理技术,如自动分类、自动摘要、自动聚类、信息过滤等技术,实现了高级数据挖掘应用。互联网搜索引引擎在这方面还处于十分原始的阶段。必须基于大量的后台人工处理,这显然对企业和行业用户是不可

13、能实现的。行业用户需要自主服务,自动服务。(6)低成本下实现海量信息检索 TRS搜索引擎具有更低的硬件成本。在同样的硬件环境下可能支持更多的用户;其他互联网搜索引擎采用大量服务器群集实现对大规模用户的并发访问,但是对于一台机器上能够处理海量信息,能力很差。如TRS在新华社的应用采用4台服务器可以支持多达2000万文件的高效检索。(7)多文种、多媒体、跨语言 TRS支持多文种、多媒体、跨语言查询 TRS在外交部全球网站群,新华社多媒体数据库,奥运会官方网站具有成功的应用。(8)超越搜索,提供完整的内容管理价值链 仅有搜索是不够的,用户需要信息的整合、采集、服务、管理等,TRS作为内容管理的领导厂

14、商,提供全面的内容管理和内容服务;互联网搜索引擎仅仅提供搜索服务,大量工作在后台,不对用户开放,无法满足行业用户的需求 互联网搜索引擎的数据和索引组织的主要目标是提供快速的检索,数据资源很难与其他应用共享;TRS具有完备的数据管理功能,采集的数据资源实现完备的数据库管理,并提供完备的应用开发接口(包括C/C+,ADO,Javabeans等标准接口),可供其它应用方便调用。TRS高素质团队与经验20人+的搜索产品研发队伍10人+的顾问咨询队伍50人+的实施与支持队伍众多大型项目成功策划、咨询、研发、实施、培训与支持经验 公安系统搜索引擎、中国人民解放军总参谋部某部、国家发展和改革委员会、中华人民共和国中央人民政府门户网站、新华社多媒体数据库、人民日报社、中国经济网、外交部、国家统计局、国家知识产权局、最高人民法院北京市劳动和社会保障局、厦门市政府、上海市高级人民检察院、国防大学图书馆、广东省广州市图书馆、北京大学、清华大学、中国五金矿产进出口总公司、索尼(中国)、国家电网公司、浙江省电力公司、中国网通、广东移动、中国人民银行、中国证券网、香港中华法律集团、华润(集团)有限公司等等TRS希望与您真诚合作!

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(TRS搜索引擎解决方案.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|