1、理解大数据,实践大数据内容 对大数据的理解 拓尔思大数据产品布局和应用实践反对派认为,我们现在处在一个盲目的大数据崇拜时代大数据产生的背景 数据的爆发式增长和社会化趋势,新摩尔定律 大数据已经成为一种自然资源 机器数据日益重要 大数据不被利用就是成本大数据产生的背景 现有的商业软件难以处理大数据的规模和复杂性 获取(capture)存贮(storage)搜索(search)分享(sharing)分析(analysis)可视化(visualization)奥巴马大数据战略 2012年3月29日,白宫发布美国政府的大数据计划 通过提高从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学
2、与工程中的步伐,加强国家安全,并改变教学研究大数据的4V特性体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的8090%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效对大数据的理解1.大数据比云计算更为落地2.大数据不仅仅是“大”3.软件是大数据的引擎
3、4.大数据的应用不仅仅是精准营销5.管理大数据“易”,理解大数据“难”1、大数据比云计算更为落地商业模式驱动应用需求驱动云计算本身也是大数据的一种业务模式2、大数据不仅仅是“大”多大?PB 级比大更重要的是数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值3、软件是大数据的引擎 和数据中心(Data Center)一样,软件是大数据的驱动力,软件改变世界大数据生态:软件是引擎4、大数据的应用不仅仅是精准营销 通过用户行为分析实现精准营销是大数据的典型应用,但是大数据在各行各业特别是公共服务领域具有广阔的应用前景消费行业金融服务食品安全医疗卫生军事交通环保电子商务气象5、管理大数
4、据“易”理解大数据“难”虽然大数据是一个重大问题,真正的问题是让大数据更有意义 目前大数据管理多从架构和并行等方面考虑,解决高并发数据存取的性能要求及数据存储的横向扩展,但对非结构化数据的内容理解仍缺乏实质性的突破和进展,这是实现大数据资源化、知识化、普适化的核心 非结构化海量信息的智能化处理:自然语言理解、多媒体内容理解、机器学习等拓尔思大数据产品布局TRS机器数据挖掘引擎TRS SMAS 舆情云服务TRS 大数据管理系统V7.0TRS 大数据管理系统发展历程TRS 全文数据库TRS 非结构化数据库TRS 大数据管理系统TRS 大数据管理系统V7.0TRS 大数据管理系统V7.0 分布式并行
5、计算、多副本机制、没有单点的高可靠体系架构,兼容Hadoop标准 支持结构化、半结构化、非结构化数据的管理和搜索 支持实时及用户行为数据的高效管理和分析 支持PB级的海量数据管理 支持海量用户的高并发访问(千万级用户、万级并发)充分释放硬件的潜力(多核、大内存等)大规模部署的自动化和运行状态监控 创新的多检索引擎机制,提供开放的二次开发接口数据备份大数据管理系统 数据存储开发接口基于Hadoop的数据分析CKM文本挖掘与数据挖掘关联规则与序列模式挖掘推荐引擎的离线分析MapReduce数据库监控机器数据搜索引擎用户行为挖掘与推荐引擎基于时间分段的大数据检索与索引接口搜索引擎日志采集监控数据存储
6、层数据分析层日志发送节点Angent 1Angent 2Angent 3Angent n日志接收集群 Collector 1Collector 2Collector 3Collector nMaster管理集群Master 1Master 2Master n日志采集TRS 机器数据挖掘引擎机器数据挖掘引擎TRS 机器数据挖掘引擎特点 支持主流格式机器数据的实时采集、解析、管理和搜索。基于时间分段和负载均衡的大数据索引与检索机制。基于Web的机器数据搜索与分析界面。兼容Hadoop平台的日志挖掘和用户行为分析。基于多种推荐模型的在线推荐引擎 大规模部署的自动化和运行状态监控TRS SMAS功能框
7、架图舆情管理服务共享信息挖掘信息来源新闻论坛博客搜索引擎微博wiki自动排重、自动分类、自动摘要、自动分析舆情分类热点跟踪热点统计微博分析人物分析微博运营趋势分析整合统计关联图谱动态走势兴趣图谱未知探索热点变化意见领袖传播图谱关系分类个性展示敏感预警自由分布数图导出图表切换多维检索探针追踪元搜索外网外网微博论坛SNS网媒 官网官网提高销量用户满意度用户设计趋势分析竞争分析质量缺陷设计缺陷使用缺陷KOL维护声誉管理危机预警事件评估行为分析产品公关营销SMAS用户感知研发情绪感知及时服务口碑监测媒介监测S-CRM广义服务TRS SMAS 作用于企业2.0TRS 在大数据领域的应用实践 新华社多媒体
8、数据库 国家知识产权局专利检索系统 某部信息监控系统 TRS SMAS 云服务(大数据服务)国家质监局 国家药监局 北京市环保局 国家气象局 每日微博热点分析新华社多媒体数据库系统新华社多媒体数据库系统 是新华社的核心业务支撑,典型的非结构化数据管理应用场景,持续IT投资已经超过6亿人民币 以新华社遍布全球的新闻信息及采集网络为依托,全面整合新华社的文字、图片、图表、音视频、报刊等全部资源和社会上有价值的新闻信息资源,拥有包括中、英、法、俄、西、阿及中文繁体在内的 6个文种,数据量超PB最早采用文件系统,后来改为Oracle,效率很低,再改为Oracle+TRS,持续服务至今从大型机改为PC服
9、务器集群新华社新华社多媒体数据库多媒体数据库数据流转图数据流转图新华社多媒体库的技术特点新华社多媒体库的技术特点 非结构化数据和结构化数据统一管理 TRS多语言检索引擎 全面采用TRS文本挖掘技术 良好的集群扩展能力 索引服务器读写分离国家知识产权局专利检索服务系统国家知识产权局专利检索服务系统 1998年专利局引进了欧洲EPOQUE系统,基于大型机的专利检索系统,每年的系统维护费用就达数千万元 2005年开始建设自主可控可持续发展的专利检索和服务系统,采用大量的PC服务器 典型的非结构化/半结构化数据应用场景 目前公共检索和审查员检索系统全部使用TRS检索引擎专利检索系统的需求特点专利检索系
10、统的需求特点 数据多样性 结构化、半结构化和非结构化数据的结合 申请人、申请号、名称等著录项很多;权利要求书、说明书等全文数据规模大 各库数据结构差异大 查询要求高 严格的查全和查准要求 基于领域知识的智能检索 结构化和非结构化信息联合查询 相关专利推荐专利检索与服务系统的数据种类与规模专利检索引擎专利检索引擎数据流转图数据流转图专利检索与服务系统专利检索与服务系统-外观图像检索外观图像检索专利图像外观检索专利图像外观检索局部检索形状检索纹理检索不变性特征检索草图检索数据分类数据聚类基于相关反馈的检索跨语言检索某部网监智能搜索和挖掘系统某部网监智能搜索和挖掘系统 系统特点:巨大的数据量 多样性
11、数据 数据极快速增长 系统现状 已经部署数千台服务器,满足了业务需求 挑战 性能和可扩展性 整合和调度数据量远超过互联网,目前部署TRS 系统2000多套SMAS的用户国家质检总局2012.1 蒙牛致癌门2012.2 苏泊尔质量门2012.3 辽源注水肉2012.3 315质量报告2012.4 含氯可口可乐2012.4 蜜饯质量问题2012.5菲律宾香蕉质量2012仅在2012年上半年,拓尔思运营团队就为质检总局在产品质量、食品安全方面提供超过40余项服务,借助数据中心的大数据与云服务平台,进行全面的整合、统计与分析。国家质检总局质检总局的服务依托云服务平台(SMAS),从媒体调性、平台分布、
12、网民意见、趋势发展等多种角度进行解析,结合系统的自动分析与分析团队的整合,最终以专题报告的方式,第一时间呈现,为质检总局在公共服务的决策提供重要参考。国家药监局2012年4月15日央视曝光的“毒胶囊”事件掀起药品行业的巨大波澜,SMAS运营团队对该事件进行了长时间的跟踪与分析,并用一系列的数据、图表和报告捕获了网络数据里的真相与民意。国家药监局关键人物传播趋势主流观点关键地区SMAS分析团队连续30天跟踪毒胶囊事件,从整体传播趋势、观点、人物、地区等视角,还原了这起颇具影响力的公共事件。-毒胶囊事件-北京市环保局PM2.5分析报 道 量 排 行高低l两会代表委员热议PM2.5l“京V”排放标准
13、首规定PM限值l珠三角成首个公布PM2.5城市群l珠三角PM2.5严重超标l环保局回应PM2.5数据质疑借助数据中心的大数据与云服务平台,从区域分布的角度对PM2.5的相关信息进行归类,进行全面的整合、统计与分析,得到上图分析内容。北京市环保局PM2.5分析PM2.5均匀分布,监测点为何不均匀分布?PM2.5监测不能背离公众感受PM2.5监测,关键词是“真实”20亿元清单,能否换来清新?微博TOP10意见领袖排行郑渊洁郑渊洁微博原文作家通过SMAS平台的抽样分析,提取网民热点话题内容,得到TOP10意见领袖排行。对意见领袖的代表性微博进行传播链分析,可知“意见领袖”巨大的传播影响力。第一层第一
14、层第二层第二层第三层第三层第四层第四层第五层第五层第六层第六层传播了712次占转发数百分比:54.39%传播了432次占转发数百分比:33.00%博主自身的二次转发北京市环保局PM2.5分析气象舆情监测气象舆情监测对气候的影响三峡工程长江中下游干旱台风 梅花日本核辐射极端天气频发,有多少是人为之祸?公众对气象部门的气象服务有了全新的期待。依托数据中心与云服务平台,拓尔思运营团队还原热点气象事件引发的网络舆情,总结气象部门应对气象危机的得失,为气象部门开拓气象服务新领域、提升气象服务水平提供参考。中国气象局气象信息月度走势图气象信息月度走势图年度热门气象事件排行榜年度热门气象事件排行榜全国气象舆情热度概览全国气象舆情热度概览 气象口碑媒体分布图气象口碑媒体分布图借助数据中心的大数据与云服务平台,拓尔思运营团队为气象局提供了全面的多维度分析。中国气象局关系可视化每日微博热点分析拓尔思大数据技术的优势 架构,集群,分析,非结构化信息处理方面的技术工程能力,满足企业级客户的能力 和存储、数据库等厂商相比,更强调大数据的分析和挖掘的能力谢 谢!