1、工业互联网大数据平台建设方案 背景介绍 调查分析 平台建设 云平台总体架构 大数据平台介绍 大数据平台应用 模型算法介绍Contents目 录为什么有工业4.0?工业4.0、中国制造2025工信部长苗圩在讲到德国工业工信部长苗圩在讲到德国工业4.04.0与中国制造与中国制造20252025时,曾这样概括:时,曾这样概括:如出一辙、异曲同工、殊途同归。因此,两者表述不同,但内涵基本如出一辙、异曲同工、殊途同归。因此,两者表述不同,但内涵基本一致一致 工业4.0由德国提出,主要指提升制造业的智能化水平,建立具有适应性、资源效率及基因工程学的智慧工厂,在商业流程及价值流程中整合客户及商业伙伴。其技术
2、基础是网络实体系统及物联网。工业4.0 坚持“创新驱动、质量为先、绿色发展、结构优化、人才为本”的基本方针,坚持“市场主导、政府引导,立足当前、着眼长远,整体推进、重点突破,自主发展、开放合作”的基本原则。中国制造2025什么是大数据?所谓“大数据”,指的是所涉及的数据量规模巨大到无法通过目前主流软件工具,在合理时间内达到截取、管理、处理、并整理成为帮助企业经营决策更积极目的的信息。大数据处理技术代表了新一代的技术架构,这种架构通过高速获取数据并对其进行分析和挖掘,从海量形式各异的数据源中更有效地抽取出富含价值的信息。从大量数据中挖掘高价值知识是各界对于大数据的一个共识。海量数据可广泛获得,所
3、稀缺的是如何从中挖掘出智慧和观点。Google 首席经济学家 Hal Varian大数据主要被用于分析和决策,企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合,对企业产生新的价值。工业大数据分析及应用的三个阶段时间时间第一阶段第一阶段1990-2000第二阶段第二阶段2000-2010第三阶段第三阶段2010至今至今核心技术远程监控、数据采集和管理大数据中心和数据分析软件数据分析平台与高级数据分析工具问题对象价值以产品为核心的状态监控,问题发生后的及时处理,帮助用户避免故障造成的损失以使用为核心的信息服
4、务,通过及时维修和预测型维护避免故障发生的风险以用户为中心的平台式服务,实现了以社区为基础的用户主导的服务生态体系商业模式产品为主的附加服务产品租赁体系和长期服务合同按需的个性化自服务模式,分享经济大数据特征:量(Volume)、速度(Velocity)、多样性(Variety)、真实性(Veracity)工业大数据特征:大数据特征可见性(Visibility)、价值(Value)互联网大数据与工业大数据的对比分析互联网大数据互联网大数据工业大数据工业大数据数据量需求大量样本数尽可能全面地使用样本数据质量要求较低较高,需要对数据质量进行预判和修复对数据属性意义的解读不考虑属性的意义,只分析统计
5、显著性强调特征之间地物理关联分析手段以统计分析为主,通过挖掘样本中各个属性之间的相关性进行预测具有一定逻辑地流水线式数据流分析手段。强调跨学科技术的融合,包括数学、物理、机器学习、控制、人工智能等工业大数据待解决问题(3B):隐匿性(Below Surface);碎片化(Broken);低质性(Bad Quality)工业大数据应用 背景介绍 调查分析 平台建设 云平台总体架构 大数据平台介绍 大数据平台应用 模型算法介绍Contents目 录工业大数据的核心是机器数据机器大数据的特点工业互联网和大数据的关系工业互联网和大数据的关系工业互联网工业互联网工业互联网大数据+=企业发企业发展动力展动
6、力通过工业互联网将来自于传感器发出的信息汇总,然后基于大数据平台,根据相应的指标、规则予以过滤、分析,可以提炼出对企业有价值的信息。大数据可以对指定信息进行归纳总结,形成某种规律性的认识,最终提炼为对企业和个人有用的新信息,帮助他们进行更好的决策。工业互联网与大数据的作用 产品的智能化是把传感器、处理器、存储器、通信模块、传输系统融入到各种产品中,使得产品具备动态存储、感知和通信能力,实现产品的可追溯、可识别、可定位。目前互联网汽车、工程机械、智能家电等是产品智能化的热点领域。提升产品智能化 工业互联网与大数据通过网络与企业管理平台连接,企业管理平台可以运用无线网络、视频远程故障诊断等信息服务
7、系统,远程监控设备的运转情况,并基于工业大数据实现故障预警,有针对性地提供维修等服务,实现“服务型制造”。深入拓展行业应用工业互联网与大数据的特点全要素全要素就是说产品数据的完整性,它携带了全部的尺寸、工艺、制造、售后使用的信息。01全方位 关注产品设计、制造、采购、使用等上下游信息。03全过程数据的设计和使用,必须要考虑跨越不同的设计、制造阶段。02全融合万物互联意识,关注企业各业务的全面关联及融合。04大数据对企业的应用价值体现31542自助分析、生产管道可视化、资源解耦随需而动,营销实时,以业务效率提升为标志。提升业务效率数据集中到数据中心,多数据源管理,透明服务支持,实时的决策和预测能
8、力提升整体经营管理水平。增强管理水平数据开放服务、租售数据、广告等新业务.创新商业模式互联网化的电子渠道全景体验、个性化商品推荐、LBS位置营销、面向客户个体的深度洞察提升客户体验以技术驱动为标志,内存计算、MPP、CEP分而治之的分布式计算让运营商实时高效决策.技术高效、低成本挖掘工业大数据价值的核心技术CPS分析手段工艺、效率和产能商业模式内核数据和知识建模智能设备平台基础测量材料设备维护6M6CCPS定义:从实体空间的对象、环境、活动中进行大数据的采集、储存、建模、分析、挖掘、评估、预测、优化、协同,并与对象的设计、测试和运行性能表征相结合,产生与实体空间深度融合、实时交互、互相耦合、互
9、相更新的网络空间;进而,通过自感知、自记忆、自认知、自决策、自重构和智能支持促进工业资产的全面智能化.工业大数据云平台实现路径 增量式的、几乎无限的扩展扩展性 要求系统总是在线运行可用性 灵活可动态改变的数据模型灵活性扩展性纵向扩展横向扩展分布式资源集中计算和存储分布可用性单份数据数据复制 不要使用分布式事务处理一致性大数据处理的需求和特点 背景介绍 调查分析 平台建设 云平台总体架构 大数据平台介绍 大数据平台应用 模型算法介绍Contents目 录工业大数据云平台建设终极目标 IaaS:提供基本的计算、网络和存储资源。PaaS:中间层,提供对行业业务应用的支持。SaaS:向用户交付最终业务
10、应用和数据分析。PaaS环境层:为业务应用提供支撑的软件组件、包括各种中间件和数据库等。以Hadoop为代表的大数据处理。PaaS业务层:包含了应用的后台程序,数据处理算法以及业务数据等实现业务能力的元素。PaaS服务层:将业务层的业务、算法和数据以接口的形式提供给上层的前端应用直接访问。平台核心:统一资源平台核心:统一资源+大数据大数据+开放开放服务服务云平台总体架构 22 面向一般数据中心典型的应用场景,提供对混合IT资源的统一接入,以构筑云模式下基础资源调度的最佳实践。以PaaS能力为核心,将应用系统的典型软件组件以服务形态提供,为业务系统提供统一环境支持,并进行统一管理和监控。将大数据
11、平台作为典型服务组件整合到云平台中进行统一管理,以适应未来应用对大数据能力的普遍使用。为用户提供面向DevOps的统一云服务业务流程,以统一平台提供传统的IaaS和PaaS能力,并贯穿开发、测试和生产的全过程。云平台总体架构介绍工业大数据平台-数据业务逻辑 背景介绍 调查分析 平台建设 云平台总体架构 大数据平台介绍 大数据平台应用 模型算法介绍Contents目 录准实时采集批量采集Hadoop平台MPP,基于X86平台主数据仓库分布式数据库基于X86平台数据采集(云化ETL,流数据处理、爬虫)数据层获取层能力层精细化营销智能运营物联网应用应用商店客服应用基础分析能力数据挖掘能力实时分析能力
12、自助分析能力多维分析能力数据共享能力指标应用报表应用主题分析专题分析互联网GN口半结构化、非结构化数据BSS经分DMVACMC话单业务平台结构化数据数据源分布式文件系统 HDFS记录明细数据HBaseM/RHive记录汇总数据数据统一服务和开放SQL、FTP、WS、MDX、API、分布式数据库(MPP):存储加工、关联、汇总后的业务数据,并提供分布式计算,支撑数据深度分析和数据挖掘能力,向主数据仓库输出KPI和高度汇总数据。主数据仓库(与MPP合设):存储指标数据、KPI数据和高度汇总数据。Hadoop云平台:负责存储海量的流量话单数据,提供并行的计算和非结构化数据的处理能力,实现低成本的存储
13、和低时延、高并发的查询能力。数据开放接口:向大数据应用方提供大数据平台的能力。数据采集(ETL):负责源数据的采集、清洗、转换和加载包括:1、把原始数据加载到Hadoop平台。2、把加工后的数据加载分布式数据库和主数据仓库应用层数据分级存储原则数据融合与分级存储实施按数据血缘按逻辑层次按业务种类按设备网络划分按设备物理地址在线、近线、离线按访问频度内存数据库按响应及时性内存数据库数据生命周期中在线数据对高性能存储的需求,以及随着数据生命周期的变更,逐渐向一般性能存储的迁移,是分级存储管理的一条主线。同时兼顾考虑其他分级原则,共同作用影响数据迁移机制。基于生命周期基于访问压力基于业务用途基于物理
14、属性分级原则高性能磁盘库磁带光盘库中低性能磁盘库将核心模型(即中度汇总的模型)通过改造融入到现有主数据仓库的核心模型中,减少数据冗余,提升数据质量。将主数据仓库中的历史数据和清单数据迁移到低成本分布式数据库,减轻主数据仓库的计算与存储压力并支撑深度数据分析。数据数据数据1、核心模型融入主数据仓库主数据仓库2、历史数据迁移到分布式数据库分布式数据库工业大数据平台-技术架构 源数据导入ETL,进行数据的清洗、转换和入库。基础数据加载到主数据仓库,规划保存3年 清洗、转换后的ODS加载到分布式数据库规划保存1+1月,在分布式数据库内完成明细数据和轻度汇总数据加工生成,规划保存2年 ODS数据和非结构
15、化数据,如爬到的网页数据ftp到Hadoop平台做长久保存 非结化数据分析处理在Hadoop平台完成,产生的结果加载到分布式数据库 生成KPI和高度汇总数据加载到主数据仓库。Hadoop平台主数据仓库报表数据标签库客户统一视图信息子层话单数据非结构化数据明细数据层(DW)轻度汇总层(MK)高度汇总层(MK)应用库分布式数据库MPP数据访问SQLFTPHSQLAPIETL数据采集ETL互联网GN口非结构化数据BSS经分DMVACMC话单业务平台结构化数据数据源获取层123465 业务应用通过数据访问接口获取所需求数据。7精细化营销其他应用1其他应用2指标数据数据采集-设备数据数据采集-实时数据接
16、入处理数据采集-批量数据接入处理 交互式查询 实时 在线处理 实时 流处理 批处理基于spark和hadoop的计算模型,同时支持批处理、交互式处理、流处理。技术架构解决方案批处理应用(分钟级别小时级别)OLTP/在线事务处理应用(毫秒秒级别)OLAP/在线交互式分析应用(秒级别)实时流处理(持续不断)技术架构解决方案 通常的时间跨度在数十秒到数分钟之间按数据维度进行统计、聚合根据历史数据进行拟合和预测计算数据之间的相关性和模式等适合提供高速在线分析服 典型应用场景政府各部门数据证券交易银行保险企业ERP/CRM等 适用于数据量在GB到TB的高速数据分析 通常的时间跨度在数百毫秒到数秒之间数据
17、来源多、高并发、数据处理量达分析结果快速响应 典型应用场景 社交网络分析、关联关系分析用户分类、用户行为预测 高并发查询按主键毫秒级检索按多维度秒级检索按照关键字秒级检索交互式查询交互式查询实时在线处理实时在线处理lHDFS:分布式文件系统有较强的容错性可在x86平台上运行,减少总体成本可扩展,能构建大规模的应用lHBase:非结构化NoSQl分布式数据库 基于分布式文件系统HDFS,保证数据安全列式存储,节省存储空间提供大数据量的高速读写操作lHive:分布式关系型数据库数据可保存在HDFS,可提供海量的数据存储类SQL的查询语句,提供大数据的统计和分析操作,适合海量数据的批处理通过MapR
18、educe实现大规划并行计算lMapReduce:大规划并行计算引擎可将任务分布并行运行在一个集群服务器中Hadoop平台提供了海量数据的分布式存储与处理的框架。基于服务器本地的计算与存储资源,Hadoop集群可以扩展到上千台服务器。同时,Hadoop在设计时充分考虑了硬件设备的不可靠因素,在软件层面提供数据和计算的高可靠保证。HBaseMapReduceHiveHDFS快速的数据读取大数据存储统计复杂计算并行处理技术基础研究方向研究方向关键任务制高点大数据可视化挖掘1)新型内存迭代数据挖掘算法2)数据挖掘可视化开发平台3)房地产、金融、电信等机器学习模型研究1)基于内存计算的机器学习算法2)
19、行业大数据深度机器学习模型3)大数据可视化挖掘大数据内存计算1)基于内存的迭代算法研究2)内存大数据高速统计分析技术1)基于大数据内存的计算技术2)国内产品领先大数据语义分析1)大数据自然语言识别2)非结构化数据的知识发现、集成技术大数据平台的可视化集成目前是空白领域大数据云计算技术1)大数据云计算平台技术2)商业智能云平台技术1)云BI技术及大数据平台的核心技术研究2)大数据云BI在国内应用是未来趋势,有望建成国内第一家云BI平台-技术基础研究方向技术基础研究方向 背景介绍 调查分析 平台建设 云平台总体架构 大数据平台介绍 大数据平台应用 模型算法介绍Contents目 录大数据平台应用-资产管理服务大数据平台应用-数据管理与服务大数据平台应用-数据分析服务大数据平台应用-数据安全服务大数据平台应用-数据展示