东软大数据技术-典型应用案例课件.ppt

上传人(卖家):晟晟文业 文档编号:4424590 上传时间:2022-12-08 格式:PPT 页数:32 大小:4.79MB
下载 相关 举报
东软大数据技术-典型应用案例课件.ppt_第1页
第1页 / 共32页
东软大数据技术-典型应用案例课件.ppt_第2页
第2页 / 共32页
东软大数据技术-典型应用案例课件.ppt_第3页
第3页 / 共32页
东软大数据技术-典型应用案例课件.ppt_第4页
第4页 / 共32页
东软大数据技术-典型应用案例课件.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

1、此处填写密级标识 大数据技术大数据技术典型应用案例典型应用案例东软集团技术战略与发展部2015年7月Copyright 2015 Neusoft Corporation此处填写密级标识 典型应用一:典型应用一:实时监测数据统一采集管理平台实时监测数据统一采集管理平台此处填写密级标识 数据应用需求数据应用需求1、随着传感器、通信技术的发展以及智能电子设备的广泛使用,企业生产现场产生的实时信息量大幅度增长;2、对现存的自动化孤岛进行整合需要统一的实时数据采集管理平台;3、需要接入的智能设备、控制器、自动化系统种类庞杂,过去针对某几种特定设备、仅限于满足具体项目需求的前置系统难以复用,迫切需要能够广

2、泛适应多种系统接入的实时数据采集平台;4、不管是电网运行管理还是电厂生产运营,要求有全方位的实时数据去支撑企业实时决策、敏捷制造;5、企业只有将自动化系统和管理信息系统进行融合,才能充分发挥信息化的作用;此处填写密级标识 数据特点分析数据特点分析 900万低压用户,未来会达到2300万(每用户一个测点)20万高压用户,未来会达到100万(每用户40个测点)30万终端设备,未来会达到100万终端设备采集测点 6小时内采集成功率要求达到98%,每两小时采集一轮(每天每个测点保证成功入库一次)未来可能针对部分高压用户的重要测点需要每15分钟集一轮采集频率 每天1700万数据入库,未来会达到63008

3、000万 每年16.2T,未来会达到每年60T80T数据数据量此处填写密级标识 关键架构决策点关键架构决策点复杂事件引擎StormS4分布式消息队列kafkaMetaQ海量数据存储HBaseMongoDB分布式缓存RedisMemcached此处填写密级标识 技术架构技术架构数据采集用电信息采集物联网类银行联网类第三方系统采集Agent采集Agent采集Agent采集Agentl电能表通讯规约l电力负荷管理数据通讯规约l网省集抄规约、东软集抄规约lModBus PluslModNetlDNP 3.0lIEC101/104规约l非标协议自编程Socket 集成应用安全生产监控系统输变电状态监测系

4、统用电信息采集系统实时信息监控系统管网监控运维系统召测召测召测结果采集持续计算消息队列(流数据)BoltBoltBoltBoltBoltBoltBolt格式转换数据处理数据库NoSQL关系型数据库量测模型业务模型采集数据海量日志业务处理加密数据解密服务监控数据入库数据分析数据过滤Bolt数据预警Bolt数据加密此处填写密级标识 案例总结案例总结Storm-0.9.0.1ZeroMQ or netty?:Storm新版节点间通信采用netty实现,不稳定,经常出现连接中断,更换成ZeroMQ后正常消息去重:从业务上去重【如:消息上增加业务标识】Kafka-2.8.0消息确认机制选择(不确认、Le

5、ader确认、Leader和Follower确认),不确认性能最高同步写文件策略选择(批量写:消息数量和时间间隔)Redis-2.8.6通过批量key获取数据性能最好ZooKeeper-3.4.5单独独立部署:Zookeeper和Storm均涉及大量IO,存在资源争抢问题Hadoop-2.3.0-CDH5.0搭建专门的dns服务器时钟同步密钥文件在共享存储中集中管理IO(磁盘、网络):千兆网络以上Hbase-0.96.1禁止自动文件拆分此处填写密级标识 典型应用二:典型应用二:中国移动中国移动X省大数据平台建设方案省大数据平台建设方案此处填写密级标识 数据应用需求数据应用需求p 业务人员可根据

6、日常工作需求快速创建分析报表,提供灵活的过滤、筛选、分组及钻取能力,适用于个性化主题分析的快速创建。用户通过指标筛选后进行分析,针对指标按不同维度下钻,包括:时间维度、空间维度、区域维度等p 普通用户可以通过(类)SQL接口自行数据报表开发p 高级用户也可以直接使用MR、scala等语言,进行复杂的专题分析设计与应用u以网络业务体系为基础的指标导航此处填写密级标识 数据特点分析数据特点分析目前每日数据量接近4T,2015年将达到7T。当前已建立完成覆盖近30万频道和27亿网页(含WAP)的URL地址库,形成2463个互联网分类标签和27万关键词库。通过与主流市场和APP厂商合作,能够解析覆盖用

7、户产生流量95%以上的手机应用。分类数据源数据描述网络话务网管 GSM、TD网络性能和动态资源数据。数据网管 WLAN网络性能和动态资源数据。网优平台 邻区数据综合资源 静态资源数据业务CRMBOSSVGOPESOP经分 语音、GPRS、WLAN话单数据;小区级月收入汇总;用户基础信息月汇总用户Gn监测 用户上网Gn话单数据A+Abis信令 用户A接口话单数据上网日志 用户上网日志位置位置系统 轨迹管理管理信息系统 财务、ERP等互联网 互联网网页 网页内容爬取此处填写密级标识 关键架构决策点关键架构决策点p 数据处理将构建基于Hadoop+Spark+MPP混搭架构,并尝试探索利用Spark

8、的高速交互迭代计算技术取代MPP商用数据库实现数据分析与挖掘去IOE的可行性。p 研究验证在事务处理和高并发机制场景下吗,利用MySQL取代Oracle的可行性,验证HDFS+Spark+Mysql全开源,完全去IOE架构的应用情况。此处填写密级标识 技术架构技术架构大规模明细数据话单信令HDFS分布式文件存储详单和基于详单的细粒度汇聚结果以及数据挖掘的结果自助分析(Impala)&批量处理(Spark、Hive)&数据挖掘(Spark、Mahout)大数据的清洗、轻度汇聚、计算与挖掘实时流处理与计算引擎综合采集平台汇总数据应用数据库(MySQL)专题分析的结果数据,按照专题分库存储数据同步上

9、层专题应用、即席查询与分析MySQL数据查询代理大数据采集大数据即席查询 与分析(Impala)数据共享告警数据仓库(MPP)结构化、维度化、详单与网管数据关联后的,面向分析主题的明细分析数据。多维度即席查询 与分析(SQL)性能资源终端网优MR营帐经分此处填写密级标识 案例总结案例总结 Hadoop擅长处理那些海量的,处理逻辑相对固定的数据,如对信令CDR进行预处理和简单的关联汇聚处理,可以有针对性的对处理程序进行优化 MPP适合对大量的数据进行复杂的统计与分析,提供很好的人机SQL界面,适合快速变化的分析需求和对大量数据进行即席查询的场景 通过统一的作业调度将Hadoop和MPP的作业穿插

10、结合起来,将两个平台的数据处理作业结合在一起形成一个整体的数据处理流程Hadoop与MPP如何分工协作,充分发挥各自的优势 Sqoop适用于中小数据量,对于大数据量就会存在性能问题 M/R程序在各个数据节点本地生成文件,在各个数据节点本地将文件装载到MPP数据库中Hadoop与MPP数据同步的效率问题此处填写密级标识 案例总结案例总结 详单数据存放在Hadoop中,简单按照号码和日期查询一个用户的详单很快,但是如果通过多个查询条件查询符合这些条件的用户的详单就会很慢 对海量详单数据建立有效的二级索引,来实现多条件多用户的快速详单查询多条件详单查询的效率问题 集群在运行一段时间后,各个数据节点的

11、数据会出现不均衡的现象,影响整体集群的运行效率 定期在闲时进行数据的重分布操作Hadoop集群数据分布不均的问题 引入Spark,用Spark对信令话单数据进行预处理和简单的关联汇聚处理 后续根据Spark的成熟情况逐渐将Spark的应用场景扩大到复杂的数据统计和分析中,逐渐替换MPP的一些工作海量信令数据如何进行快速处理此处填写密级标识 典型应用三:典型应用三:企业信用公示大数据应用实践企业信用公示大数据应用实践此处填写密级标识 数据应用需求数据应用需求2013年国务院在推进公司注册资本登记制度改革时强调:推行注册资本登记制度改革,就是要按照便捷高效、规范统一、宽进严管的原则,创新公司登记制

12、度,降低准入门槛,强化市场主体责任,促进形成诚信、公平、有序的市场秩序。会议明确,将企业年检制度改为年度报告制度,任何单位和个人均可查询,使企业相关信息透明化。企业信用数据公示需求省数据中心信用公示库数据同步索引文档库检索引擎公示服务数据获取建索引企业明细检索企业公众查询此处填写密级标识 数据特点分析数据特点分析数据量大强关系查询为主异构和多样性业务交易数据全省工商数据登记、年检、股东、分支机构等对外提供检索服务图片、PDF、Word等外部采集数据网上申报数据外部交换数据内外接口多共享、交换、同步此处填写密级标识 关键架构决策点关键架构决策点1243大数据平台Hadoop发行版Hbase vs

13、 MongoDBHbase 数据模型安全数据集成Oracle到HBaseHbase到SolrDataExchange vs SqoopUniEAP 集成UniEAP v4版本Hbase 访问接口封装Solr RESTful服务接口封装检索引擎开源与商业产品Solr vs ElasticSearch索引实时性并发访问性能此处填写密级标识 技术架构技术架构数据源省工商数据中心省综合业务交易数据其它部门共享数据公示平台HDFS公示库(HBase)检索库(Solr)DataExchange年报库(Oracle)initCDC实时(lily)批量(DataExchange)批量文件系统/共享存储管理监控

14、业务应用资源监控(Aclome)集群管理(ClouderaManager)安全(Kerberos)公示系统年报系统关系数据非关系数据此处填写密级标识 案例总结案例总结1、DataExchange往HBase大批量加载数据时,RegionServer出现不响应问题。解决办法:预先创建Region,并停止 WAL日志,改善批量加载性能。2、Solr在初始化批量索引时,使用lily构建索引,容易引起HBase GC时间过长,导致zookeeper强制其下线。解决办法:构建索引使用两种方式,一种是批量索引使用import方式导入,一种是增量索引场景,从 HBase使用lily增量近实时构建索引。3、索

15、引及业务数据一致性验证缺乏有效手段,解决办法:定期做一遍索引的全量更新。4、分词词库选择,IK有效性、准确性还有待提高。5、在该平台基础上可以进一步引入Streaming 处理,机器学习等技术,实现更高效的企业黑名单识别、企业族谱的建立等应用决策场景。6、安全方面目前实现基于Kerberos的安全认证,下一步可以结合Sentry实现细粒度授权。此处填写密级标识 典型应用四:典型应用四:基于社会化媒体分析的精准营销基于社会化媒体分析的精准营销此处填写密级标识 数据应用需求数据应用需求精准营销消费洞察客户生命周期社会化洞察产品画像客户评估客户细分用户画像意见挖掘传播互动舆情统计客户发现个性化推荐流

16、失分析人口统计兴趣喜好客户价值客户需求社会化隐性显性消费基因关联分析规则匹配SEO向上营销交叉营销流失预警流失挽留趋势预测意见领袖情感分析情感统计热门主题主题跟踪社交图谱知识图谱兴趣图谱此处填写密级标识 数据特点分析数据特点分析数据价值查询频率数据规模关系复杂数据格式社会化媒体数据7X24小时不间断采集或爬取海量数据,数亿用户用户行为数据。领域数据非结构化、数据多样多维度、噪音大、重复数据多价值密度低,浪里淘沙却又弥足珍贵具有准确性数据按日更新最大限度保证数据的时效性知识图谱、兴趣图谱、社交图谱响应时间处理速度快,秒级响应此处填写密级标识 关键架构决策点关键架构决策点兴趣图谱分布式存储 业务需

17、求:海量数据,查询条件复杂,包含groupby、sort等条件多条件查询无响应内存资源占用大分布式版与单机版查询性能相差不大两个条件到五个条件查询3050sSolr分布式个兴趣词响应时间大约在510s之间横向扩展能力可以应对兴趣-人关系数据的增长Neo4jembedd不稳定导入数据时间长,有timeout异常Neo4jrestserver此处填写密级标识 技术架构技术架构数据资源层内容数据社交媒体数据客服中心数据行为数据网站、App、设备业务交易业务主数据CRM数据资源数据领域数据维基百科、百度百科、Freebase企业知识库数据数据存储层数据抓取Weblech(网页爬取)WeiboSDK(开

18、放API)数据预处理数据存储层HBase(列存储数据库)HDFS(分布式文件系统)数据整合数据去重数据转换数据过滤大数据管理Ozzie(工作流调度)Zookeeper(系统协调)Cloudera Manager日志管理分布式并行计算框架YARN数据分析挖掘自然语言处理中文分词特征提取潜在语义文本挖掘文本滤重情感分析标签传播训练模型模型构建模型训练模型优化分类算法聚类算法关联分析特征选择主题提取标签传播社交图谱兴趣图谱知识图谱安全管理数据访问层Solr(分布式搜索)Redis(分布式缓存)离线算法评估此处填写密级标识 案例总结案例总结选取数据构建模型时,需要考虑业务产品是否具有季节性,比如银行的

19、考核有季度性带来业务上的一些优惠等措施,对流失率影响比较大,所以在选取数据构建模型时都应该有所考虑。选取的训练样本应考虑各影响因子。不同业务场景数据分析周期不同,合理考虑框架模型,根据业务选取线上和线下分析,选取流计算框架或分布式计算框架。对于社交化媒体数据这种非结构化的、大规模的数据集,在技术选型上应做好充分技术调研,比如Neo4j比较适合存储单点出发查询的图谱,而我们的兴趣图谱业务查询是动态并且多条件的,不适合使用Neo4j。此处填写密级标识 典型应用典型应用五:电网企业客户服务大数据分析电网企业客户服务大数据分析此处填写密级标识 业务场景业务场景-1此处填写密级标识 业务场景业务场景-2此处填写密级标识 逻辑架构逻辑架构此处填写密级标识 技术技术架构架构此处填写密级标识 案例总结案例总结通过大数据分析技术,评估预测用电客户发起投诉的可能性,并推荐合适的应对措施。通过大数据分析技术,识别用电客户对停电事件的敏感度,预判用电客户行为,指导客服人员主动提供有针对性的客户服务。通过大数据分析技术,发现客户关注热点,跟踪变化趋势,为客服中心主动服务提供条件。

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 办公、行业 > 各类PPT课件(模板)
版权提示 | 免责声明

1,本文(东软大数据技术-典型应用案例课件.ppt)为本站会员(晟晟文业)主动上传,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。
2,用户下载本文档,所消耗的文币(积分)将全额增加到上传者的账号。
3, 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(发送邮件至3464097650@qq.com或直接QQ联系客服),我们立即给予删除!


侵权处理QQ:3464097650--上传资料QQ:3464097650

【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。


163文库-Www.163Wenku.Com |网站地图|