1、大数据与安全生产综述张瑞新张瑞新 博士、教授博士、教授国家安全监管总局通信信息中心国家安全监管总局通信信息中心 主任主任国家安全监管总局信息办国家安全监管总局信息办 副主任副主任20152015年年5 5月月1212日日20142014年年1212月月1212日,总局党组书日,总局党组书记、局长杨栋梁主持召开党组记、局长杨栋梁主持召开党组(扩大)会议,(扩大)会议,提出提出“建立安建立安全生产统一数据库,实现全生产统一数据库,实现来来源可查、去向可追、责任可究、源可查、去向可追、责任可究、规律可循规律可循”。贯彻落实总局栋梁局长的指示 2015 2015年年4 4月月2 2日,国务院日,国务院
2、办公厅印发办公厅印发关于加强安全生关于加强安全生产监管执法的通知产监管执法的通知(国办发(国办发201520152020号)。号)。要大力提升安全生产要大力提升安全生产“大数据大数据”利用能力,加利用能力,加强安全生产周期性、关联性等特征分析,做到检索强安全生产周期性、关联性等特征分析,做到检索查询即时便捷、归纳分析系统科学,实现查询即时便捷、归纳分析系统科学,实现来源可查、来源可查、去向可追、责任可究、规律可循去向可追、责任可究、规律可循。贯彻落实国办20号文件精神云计算移动互联网智慧城市大数据物联网社交网络社会管理大数据时代已经到来社会治理行为方式生活方式企业经营工作方式思维方式互联网思维
3、、大数据等信息技术正在改变 安全生产大数据工作思路安全生产大数据工作思路4汇报提纲大数据概述与应用大数据概述与应用2安全生产大数据现状与问题安全生产大数据现状与问题23基本概念简述基本概念简述1 云计算、移动互联网、物联网、社交网络、电子商务、即时通信等技术形式的涌现,推动人类从现实社会快速切换到网络社会形态,形成了人类不同于传统生活方式的虚拟生活方式。(一)信息时代的特征(一)信息时代的特征学习交流娱乐看报购物理财现实世界真实生活移动互联网社交网络社交网络网上教学门户网站网游网上购物互联网金融网络社会虚拟生活三、大数据时代(一)信息时代特征(一)信息时代特征Byte(字节)1PB=1024T
4、一年国产电视剧(1.7万部)容量1EB=1024PB;5EB 相当于至今全世界人类所讲过的话语1ZB=1024EB;全世界海滩上的沙子数量总和1TB=1024G一家大型医院 X光图片1GB=1024M一部广播级电影1MB=1024K50万个汉字1KB=1024B500个汉字Megabyte(MB)Kilobyte(KB)Gigabyte(GB)Terabyte(TB)Petabyte(PB)三、大数据应用三、大数据应用(二)数据的概念上传30小时视频130万人评论200万条搜索27.7万人登录600万条信息发布2.04亿封邮件全球产生7.5PB数据互联网上一分钟三、大数据应用(二)数据的概念(
5、三)互联网、互联网(三)互联网、互联网+新的媒体形式的出现n 起源 上世纪90年代中后期n 应用领域 邮件、门户网站、电子商务 政府、企业大规模信息化建设新的商业模式的出现互联网开始颠覆传统产业之旅互联网+让传统行业插上互联网的翅膀!互联网可以+?工业金融交通政务农业教育医疗民生 互联网正在改变物质之上的所有组织形态、改变物质生产的组织方式。信息技术不是在融合,而是在融化、重构和颠覆其他产业形态。(三)互联网、互联网(三)互联网、互联网+传统模式:u 每个业务需要配备独立的设备(服务器、存储等)u 计算资源难以共享、孤岛现象、资源浪费办公人事财务网站虚拟机虚拟机虚拟机虚拟机云计算模式:把计算资
6、源合并成一个大的计算资源池(云计算中心)云计算中心根据各个业务需要,提供相应的计算能力(四)云计算、云服务(四)云计算、云服务n 云计算的目标是让用户像用电、用水一样使用信息基础设施云计算的目标是让用户像用电、用水一样使用信息基础设施各自配备小发电机各自配备小发电机电厂集中发电电厂集中发电云计算云计算的的本质是把计算能力的专用服务变为了公用服务本质是把计算能力的专用服务变为了公用服务电网集中供电电网集中供电(四)云计算、云服务(四)云计算、云服务虚拟化“一拆多”分布式“多合一”虚拟拆分物理计算机虚拟机虚拟整合物理计算机虚拟机(四)云计算、云服务(四)云计算、云服务(五)物联网(五)物联网 物联
7、网物联网(The Internet of things)(The Internet of things)的概念是在的概念是在19991999年提年提出的,又名传感网,出的,又名传感网,物物相连的互联网物物相连的互联网。把所有物品通。把所有物品通过射频识别(过射频识别(RFIDRFID)、红外感应器、全球定位系统、激光)、红外感应器、全球定位系统、激光扫描器等信息传感设备与互联网连接起来,进行信息交换扫描器等信息传感设备与互联网连接起来,进行信息交换和通讯,实现智能化识别、定位、跟踪、监控和管理。和通讯,实现智能化识别、定位、跟踪、监控和管理。国际电信联盟曾描绘国际电信联盟曾描绘“物联网物联网”
8、时代的图景:时代的图景:当司机出现操作失误时汽当司机出现操作失误时汽车会自动报警;公文包会车会自动报警;公文包会提醒主人忘带了什么东西;提醒主人忘带了什么东西;衣服会衣服会“告诉告诉”洗衣机对洗衣机对颜色和水温的要求等等。颜色和水温的要求等等。人类的网络社会行为,包括聊天、购物、搜索、点赞等,产生了诸如日志、图片、音频、视频等规模巨大、类型多样的存贮在各类介质上的数据。人类由此进入大数据时代!(六)大数据(六)大数据单日信息产生量超过50TB,存储量40PB淘宝淘宝国家电网国家电网到2012年10月资讯系统累计产生大资料2PB第一医院所存资讯2008年130TB,预计2015年1PB高 峰 期
9、 每 秒100万次回应请求联通联通用户上网记录83万条/秒,对应信息量3.6PB/年每天产生信息超过10TB,现已存20PB,预计该基因库最终将达1EB每天1千亿次服务调用、55万亿 次 计 算、300TB存储量公交一卡通每天刷卡4000万次地铁1000万次每秒产生2千元的交易额,累计各种信息达到PB中山大学中山大学新浪微博新浪微博华大基因华大基因每天约处理60亿次搜索请求几十PB数据百度腾讯交通银行北京公交每日约处理600G数据。存量信息超过70TB京东商城农夫山泉每天从销售其矿泉水的超市回传10张照片,每月3TB三、大数据应用(六)大数据(六)大数据核心技术:自然语言处理 语义分析 机器学
10、习 垂直搜索综合门户新闻门户交友社区娱乐网站音乐网站体育网站网上购物旅行网站网上招聘网络游戏新闻评论博客博文讨论话题音视点播网购记录网上简历.交互信息痕迹信息民生民意生活习惯网民喜好关注焦点人群分类人性分析n 行为分析行为分析全民记录记录全民(六)大数据(六)大数据大数据技术:在海量、无序的数据中洞察规律,发现价值!数据的价值不在于数据本身在于数据之间的关联关系 大数据将成为国家竞争力的重要标志,与矿产、土地、石油一样成为国家的基础性战略资产。提高国家治理体系和治理能力现代化要靠大数据。(六)大数据(六)大数据安全生产大数据工作思路安全生产大数据工作思路4汇报提纲大数据概述与应用大数据概述与应
11、用2安全生产大数据现状与问题安全生产大数据现状与问题23基本概念简述基本概念简述1*(一)大数据概念溯源(一)大数据概念溯源http:/ Group(Gartner的前身)指出,随着网络及其应用(电子商务等)发展,数据将呈现出爆炸式增长的趋势,并提出3D Data Management的技术预测,即 Data Volume、Data Velocity 和 Data Variety2012年,Gartner的IT技术发展趋势战略报告指出:大数据正在逼近“Tipping Point”(爆发点),40%以上的企业开始大数据方面的投资。*(一)大数据概念溯源(一)大数据概念溯源2008年9月4日自然(
12、Nature)刊登了一个名为“Big Data”的专辑,从互联网技术、网络经济学、生物医药等多个方面探讨了大数据的挑战与机遇2009年7月OReilly Media出版了名为“Beautiful Data”,介绍大数据相关的技术2009年10月微软为纪念Jim Gray,出版了“第四范式数据密集的科学发现”,认为科学研究范式的发展“理论科学 实验科学计算机仿真数据科学”2011年2月11日:Science刊登了一个名为“Dealing with Data”的专辑,联合Science:Signaling、Science:Translational Medicine和Science Careers
13、推出相关专题,讨论数据对科学研究的重要性2012年4月,欧洲信息学与数学协会会刊ERCIM News出版专刊“Big Data”讨论了数据管理、数据密集型研究等问题*facebook社交网络淘宝、ebay电子商务微博、Apps移动互联 2121世纪是数据信息大发展的时世纪是数据信息大发展的时代,移动互联、社交网络、电子代,移动互联、社交网络、电子商务等极大拓展了互联网的边界商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速和应用范围,各种数据正在迅速膨胀并变大。膨胀并变大。互联网(社交、搜索、电互联网(社交、搜索、电商)、移动互联网(微博)、物商)、移动互联网(微博)、物联网(传感器,智
14、慧地球)、车联网(传感器,智慧地球)、车联网、联网、GPSGPS、医学影像、安全监控、医学影像、安全监控、金融(银行、股市、保险)、电金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生信(通话、短信)都在疯狂产生着数据。着数据。(二)大数据(二)大数据概述概述 GBTBPBEBZB想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:地球上至今总共的数据量:在在2006 2006 年,个人用户才刚刚迈进年,个人用户才刚刚迈进TBTB时代,时代,全球一共新产生了约全球一共新产生了约180EB180EB的数据;的数据;在在2011 2011 年,这个数字达到了年,这个数字达到
15、了1.8ZB1.8ZB。市场研究机构预测:到市场研究机构预测:到2020 2020 年,整个世界年,整个世界的数据总量将会增长的数据总量将会增长44 44 倍,达到倍,达到35.2ZB35.2ZB(1ZB=10 1ZB=10 亿亿TBTB)!)!随着信息不断膨胀与爆炸,已经积累随着信息不断膨胀与爆炸,已经积累到了引发变革的程度。更多的信息增到了引发变革的程度。更多的信息增长速度也在指数级加快。长速度也在指数级加快。1TB=1024GB1PB=1024TB1EB=1024PB1ZB=1024EB(二)大数据(二)大数据概述概述n大数据无法在容许的时间内,用常规软件工具对其内容进行抓取、管理和处理
16、的数据集合;l大数据规模的标准是持续变化的;l大数据当前泛指单一数据集的大小在几十TB和数PB 之间 -维基百科定义 三、大数据应用(二)大数据(二)大数据概述概述 2008年9月美国自然杂志刊登了一个名为“Big Data”的专辑,首次提出大数据(大数据(Big DataBig Data)概念)概念。大数据,或称巨量资料,是指由数量巨大、结构复杂、类型众多数量巨大、结构复杂、类型众多的数据所构成的数据集合,必须通过特殊化处理分析才能形成有规律、可预测的信息服务能力。(二)大数据(二)大数据概述概述(二)大数据(二)大数据概述概述 4V特征数据类型繁多VarietyV V数据体量巨大Volum
17、eV处理速度快VelocityV V价值密度低Valuev vp数据存储量大、计算量大(Volume)预计到2020年,中国产生的数据总量将是8.5ZB,全球的数据总量预计将达到40ZB。若以光盘存储,其总重量相当于424艘满载的尼米兹航空母舰。2020年 35ZB光盘重量=43,078,400吨424艘尼米兹号航母重量(101,600吨)p数据来源多、格式多(Variety)大数据类型分为结构化数据和非结构化数据,结构化数据是指用数据或统一的结构加以表示,如数字、符号;非结构化数据是指无法用数字或统一的结构表示,如文本、图像、声音、网页、地理位置信息等,这些多类型的数据对数据的处理能力提出了
18、更高要求。大数据的来源大数据的来源u 互联网快速发展,社交网络成熟互联网快速发展,社交网络成熟u 移动终端普及移动终端普及u 物联网、传感器、监控设备物联网、传感器、监控设备u 云计算云计算u 主要三类:主要三类:人和人之间人和人之间、人和物(机器)之间人和物(机器)之间、物和物之间物和物之间数据量骤增,数据来源多样。数据量骤增,数据来源多样。主动、被动和自动方式产生数据主动、被动和自动方式产生数据,数据产生方式的巨大变化数据产生方式的巨大变化导致大数据的产生。导致大数据的产生。移动互联网智慧城市物联网电子商务社交网络iPhoneiPadNoteBookPC条码条码RFIDRFID视频采视频采
19、集设备集设备GPSGPS终端终端二维码二维码淘宝淘宝微博微博百度腾讯华大基因华大基因国家电网国家电网联通联通北京公交p价值密度低(Value)n 浪里淘沙又弥足珍贵。一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。n如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。监控卡口1监控卡口2监控卡口3监控卡口41亿/天车行轨迹2300万车辆信息9000千万人口3000万驾驶员卡口信息:牌号:鲁F123*车型:解放j6p颜色:蓝色位置:济南经十山大路口方向:自西向东时间:2013.2.5 8:45:30山东省17地市交通卡口每天采集行车记录数将近1
20、亿条根据牌号比对一天的车辆行驶信息,耗时30分钟,查出4000多辆嫌疑车辆监控卡口.套牌车查找-大数据的分析计算车牌号车型颜色距离.卡口信息卡口信息卡口信息卡口信息卡口信息数据调取数据调取计算结果p数据增长、处理速度快Volecity 利用各种大数据分析工具,比如Hadoop、SPSS和R,可从各种类型的数据中快速获得高价值的信息,这一点和传统的数据分析技术有着本质的区别。(二)大数据概述(二)大数据概述大数据正在改变大数据正在改变人类的思维方式人类的思维方式?随机样本精确求解因果关系全体数据近似求解关联关系传统思维大数据思维(三三)大数据大数据国内外国内外应用应用现状现状1.1.国外现状国外
21、现状2012 2012 年年3 3 月,美国奥月,美国奥巴马政府宣布推出巴马政府宣布推出“大数大数据的研究和发展计划据的研究和发展计划”。该计划承诺将该计划承诺将投资两亿多投资两亿多美元美元,大力推动和改善与,大力推动和改善与大数据相关的收集、组织大数据相关的收集、组织和分析工具及技术,以推和分析工具及技术,以推进从大量的、复杂的数据进从大量的、复杂的数据集合中获取知识和洞见的集合中获取知识和洞见的能力。能力。案例案例1 1:美国治理警察超速行驶大数据应用美国治理警察超速行驶大数据应用美国佛罗里达州为了治理警察超速行驶问题,通过对不美国佛罗里达州为了治理警察超速行驶问题,通过对不同高速口收费站
22、的原始数据记录(约为同高速口收费站的原始数据记录(约为110110万条)的比对挖万条)的比对挖掘分析,得到了一个惊人的结果:当地的掘分析,得到了一个惊人的结果:当地的39003900辆警车在辆警车在1313个个月的时间里共发生了月的时间里共发生了51005100多次的超速行驶记录。通过进一步多次的超速行驶记录。通过进一步的筛选分析发现,警车超速行驶的时间竟然大部分都发生在的筛选分析发现,警车超速行驶的时间竟然大部分都发生在上下班时间上下班时间。通过对海量数据的分析处理可以得出的通过对海量数据的分析处理可以得出的结论是,警车超速行驶大都不是为了执行结论是,警车超速行驶大都不是为了执行公务。分析结
23、果公布在太阳哨兵报之公务。分析结果公布在太阳哨兵报之后,翔实的数据纪录与可信的分析结果引后,翔实的数据纪录与可信的分析结果引起了当地民众的广泛关注,起了当地民众的广泛关注,牵扯到超速案牵扯到超速案件的件的1212个部门近个部门近800800名警察受到处理,名警察受到处理,“警警察开快车察开快车”事件被有效治理和纠正。事件被有效治理和纠正。案例案例2 2:疾病预防疾病预防美国人在去医院前,喜欢在谷歌搜索类似“流感症状”的词汇谷歌据此预测流感趋势,比美国疾病控制和预防中心(CDC)的流感通报提早一周到10天政府由此可提前准备应对措施谷歌推出流感趋势监测系统(Google Flu Trends)20
24、102010年,美国西弗吉尼年,美国西弗吉尼亚州发生死亡亚州发生死亡2929人的矿难,人的矿难,由于该煤矿的监管记录保存由于该煤矿的监管记录保存完整,每条记录都包括检查完整,每条记录都包括检查的时间、结果、违反的法律的时间、结果、违反的法律条款、处理的意见、罚款的条款、处理的意见、罚款的多少、已缴纳的金额、煤矿多少、已缴纳的金额、煤矿是否申诉等数据项。是否申诉等数据项。逾千条的监管记录为事故追责提供了重要证据,最逾千条的监管记录为事故追责提供了重要证据,最终事故认定煤矿安全健康局无监管失职,出事煤矿所属公终事故认定煤矿安全健康局无监管失职,出事煤矿所属公司应承担主要责任。司应承担主要责任。案例
25、案例3 3:美国矿难大数据应用美国矿难大数据应用GPSGPSGPSl 小松挖掘机上装有GPS卫星定位系统和工作状态无线传输系统l 小松公司在后台能够看到每台挖掘机的位置、工作时间和挖掘量案例案例4 4:挖掘机预测经济发展挖掘机预测经济发展2.2.国内现状国内现状 国务院总理李克强主持召国务院总理李克强主持召开国务院常务会议,要求开国务院常务会议,要求“建建立部门间互联共享信息平台,立部门间互联共享信息平台,运用大数据等手段提升监管水运用大数据等手段提升监管水平平”。李克强总理在山东考察时,李克强总理在山东考察时,“现场办公现场办公”要求要以云计算、要求要以云计算、大数据理念,与大数据理念,与企
26、业信息技术企业信息技术平台有机对接平台有机对接,建立统一综合,建立统一综合信用信息平信用信息平台,台,实现实现“大数大数据据”共享。共享。*(三三)大数据大数据国内外国内外应用应用现状现状案例案例1 1:互联网金融互联网金融利用掌握的大数据和大数据技术,为中小企业提供贷款服务从提出申请,到商户收到贷款,整个过程最快只需三分钟累计贷款总额260亿,单日利息收入100万,坏账率仅千份之三商品供应商商品供应商(企业和个人)(企业和个人)商品购买者商品购买者(企业和个人)(企业和个人)资金流资金流云计算平台云计算平台信息流交易信息信息流网络数据模型在线视频调查模式交叉检验技术(辅以第三方验证)客户信用
27、水平和还款能力评估报告和结果交易信息发放发放贷款贷款信息流n监控客户现金流监控客户现金流各渠道信息和调各渠道信息和调研获得的客户信研获得的客户信用记录、交易状用记录、交易状况、投诉情况况、投诉情况n海量的客户和交易数据赋予了阿里巴巴掌握客户信息及其交易行为的强大的优势案例案例2 2:全国公安系统大数据应用全国公安系统大数据应用-网上抓逃犯网上抓逃犯 2014 2014年起,全国公安系统利用基年起,全国公安系统利用基于大数据、云计算技术研发的多点碰于大数据、云计算技术研发的多点碰撞应用系统助力民警办案。应用系统撞应用系统助力民警办案。应用系统通过通过3 3至至1010秒的大数据碰撞,即可迅速秒的
28、大数据碰撞,即可迅速从从2.82.8亿条旅馆和亿条旅馆和2121亿条网吧数据中,亿条网吧数据中,提取出提取出600600万住宿人员和万住宿人员和25002500万网吧上万网吧上网人员,进行交叉碰撞计算,获得网人员,进行交叉碰撞计算,获得5353个候选名单,缩小了排查范围,最后个候选名单,缩小了排查范围,最后交给办案单位进一步筛选,提高了破交给办案单位进一步筛选,提高了破案效率。案效率。案例案例3 3:淘宝网大数据应用淘宝网大数据应用 淘宝上的买家在购买商品前,会比较多家供应商的产淘宝上的买家在购买商品前,会比较多家供应商的产品,进而反映到淘宝网站统计数据中,通过用户比选、购买品,进而反映到淘宝
29、网站统计数据中,通过用户比选、购买行为进行贸易分析预测。行为进行贸易分析预测。20082008年初,淘宝上买家询盘数急剧年初,淘宝上买家询盘数急剧下滑,淘宝网预测到欧美对中国的采购在下滑,最后推断出下滑,淘宝网预测到欧美对中国的采购在下滑,最后推断出世界贸易即将发生变化。世界贸易即将发生变化。案例案例4 4:360360反欺诈应用反欺诈应用p 360360互联网安全中心通过互联网安全中心通过1 1亿亿设备,设备,6.496.49亿亿网名,累计监测到网网名,累计监测到网民个人信息多大民个人信息多大11.211.2亿条,内容包括姓名、电话、上网账户、亿条,内容包括姓名、电话、上网账户、银行卡密、身
30、份证号码等多种用户隐身信息,在银行卡密、身份证号码等多种用户隐身信息,在GISGIS地图上生地图上生产了产了中国网络骗子地图中国网络骗子地图。p 360360通过手机卫士为用户提供骚扰电话拦截服务,识别出骚扰通过手机卫士为用户提供骚扰电话拦截服务,识别出骚扰电话中电话中“响一声响一声”最多,占到了总量一半,每天上午最多,占到了总量一半,每天上午1010点骚扰点骚扰电话最猖獗,周一是骚扰电话也要电话最猖獗,周一是骚扰电话也要“休息休息”,统计出,统计出骚扰电话骚扰电话分布图分布图。中国网络骗子地图2014年骚扰电话分布 2012年3月通过“大数据研究与发展倡议”,率先将大数据上升为国家战略,大力
31、提升美国从海量复杂的数据集合中获取知识和洞见的能力。第一波投资两亿多美元,通过公布重要部门的大数据项目规划,扶持重要领域的大数据技术研发,带动其他部门和社会各界对大数据技术的研发投入和推广应用。具体实现三个目标:(1)开发能对大量数据进行收集、存储、维护、管理、分析和共享的最先进的核心技术;(2)利用这些技术加快科学和工程学领域探索发现的步伐,加强国家安全,转变现有的教学方式;(3)扩大从事大数据技术开发和应用的人员数量。(四)大数据战略(四)大数据战略美国美国 2013年10月31日,英国发布把握数据带来的机遇:英国数据能力战略。该战略由英国商业、创新与技术部牵头编制。战略旨在促进英国在数据
32、挖掘和价值萃取中的世界领先地位,为英国公民、企业、学术机构和公共部门在信息经济条件下创造更多收益。为实现上述目标,该战略从提升数据分析技术、加强国家基础设施建设、推动研究与产业合作、确保数据被安全存取和共享等几个方面做出了部署,并作出11项行动承诺,确保战略目标得以落地,投资金额达1.89亿英镑。(四)大数据战略(四)大数据战略英国英国 2013年10月,澳大利亚政府发布又信息管理办公室成立的“大数据工作组”制定的公共服务大数据战略。该战略旨在推动公共部门利用大数据分析进行服务改革,制定更好的公共政策,保护公民隐私。战略还决定成立数据分析卓越中心(DACOE),通过构建一个通用的能力框架帮助政
33、府部门获得数据分析能力,并促成政府与第三方机构合作以培养分析技术专家。列举了2014年7月前需完成的6项大数据行动计划。(四)大数据战略(四)大数据战略澳大利亚澳大利亚 法国政府宣布将在法国政府宣布将在20132013年年投入投入11501150万欧元万欧元,用于,用于7 7个个大数据市场研发项目。大数据市场研发项目。目的在于目的在于“通过发展创通过发展创新性解决方案,并将其用于新性解决方案,并将其用于实践,来实践,来促进法国在大数据促进法国在大数据领域的发展领域的发展。三、大数据应用(四)大数据战略(四)大数据战略法国法国 p 2012年,中国政府批复“十二五国家政务信息化建设工程规划”,标
34、志着我国开放、共享和智能的大数据时代已经来临。p 我国在“十二五”战略新兴产业发展规划中就明确提出了,要支持海量数据的存储处理技术的研发和产业化。(四)大数据战略(四)大数据战略中国中国p 2014年底发改委、工信部牵头联合相关部门制定大数据战略与行动纲要。p 2014年政府工作报告明确提出,“设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据。”p 2015年政府工作报告明确提出:互联网+大数据、中国制造2015 (五)大数据标准化(五)大数据标准化 大数据标准化工作是支撑大数据产业发展和应大数据标准化工作是支撑大数据产业发展和应用的重要基础用的重要基础n 国际上若干大数据标准化相
35、关工作组,如国际上若干大数据标准化相关工作组,如ISO/IEC JTC1 WG9ISO/IEC JTC1 WG9、ITU-TITU-T、NIST NBD-PWGNIST NBD-PWG等等n 工信部和国标委工信部和国标委20142014年成立了年成立了“全国信标委全国信标委大数据标准工作组大数据标准工作组”n 与发达国家相比还有差距,需结合我国建设与发达国家相比还有差距,需结合我国建设需求和特色,推进标准化的建设需求和特色,推进标准化的建设 (五)大数据标准化(五)大数据标准化国内大数据标准化工作国内大数据标准化工作n 工作范围:工作范围:负责制定和完善我国大数据领域标准体系;组织开展大负责制
36、定和完善我国大数据领域标准体系;组织开展大数据相关技术和标准的研究;申报国家、行业标准,数据相关技术和标准的研究;申报国家、行业标准,承担国家、行业标准制修订计划任务,宣传、推广标承担国家、行业标准制修订计划任务,宣传、推广标准实施;组织推动国际标准化活动准实施;组织推动国际标准化活动n 正在编制正在编制大数据标准化白皮书大数据标准化白皮书2.02.0版本版本n 研制研制20142014年下达的大数据领域年下达的大数据领域1010项国家标准项国家标准n 征集大数据领域的相关标准需求征集大数据领域的相关标准需求序号计划号标准名称120141172-T-469多媒体数据语义描述要求22014118
37、4-T-469数据能力成熟度评价模型320141190-T-469信息技术 大数据 技术参考模型420141191-T-469信息技术 大数据 术语520141194-T-469信息技术 科学数据引用620141200-T-469信息技术 数据交易服务平台 交易数据描述720141201-T-469信息技术 数据交易服务平台 通用功能要求820141202-T-469信息技术 数据溯源描述模型920141203-T-469信息技术 数据质量评价指标1020141204-T-469信息技术 通用数据导入接口规范(六)大数据处理技术(六)大数据处理技术n 大数据采集与预处理大数据采集与预处理n 大
38、数据存储与管理大数据存储与管理n 大数据计算模式大数据计算模式n 大数据分析与挖掘大数据分析与挖掘n 大数据可视化分析大数据可视化分析n 大数据安全大数据安全p 大数据采集与预处理大数据采集与预处理数据的多源和多样性,导致数据质量存在差异,严重影响数据数据的多源和多样性,导致数据质量存在差异,严重影响数据的可用性。很多公司已经推出了多种数据清洗和质量控制的可用性。很多公司已经推出了多种数据清洗和质量控制工具(如工具(如IBMIBM的的Data StageData Stage)。)。p 大数据存储与管理大数据存储与管理存储规模大,管理复杂,要兼顾结构化、非结构化和半结构化存储规模大,管理复杂,要
39、兼顾结构化、非结构化和半结构化的数据。分布式文件系统和分布式数据库的发展正在有效的数据。分布式文件系统和分布式数据库的发展正在有效的解决这些问题。对于大数据存储和管理,尤其值得关注的解决这些问题。对于大数据存储和管理,尤其值得关注的是大数据索引和查询技术、实时及流式大数据存储与处的是大数据索引和查询技术、实时及流式大数据存储与处理的发展。理的发展。p 大数据计算模式大数据计算模式大数据处理多样性的需求,出现了多种典型的计算模式,大数据处理多样性的需求,出现了多种典型的计算模式,如如大数据查询分析计算(如大数据查询分析计算(如HiveHive)、批处理计算(如)、批处理计算(如Hadoop Ma
40、pReduceHadoop MapReduce)、流式计算(如)、流式计算(如StormStorm)、迭代计算)、迭代计算(如(如HaLoopHaLoop)、图计算(如)、图计算(如PregelPregel)和内存计算(如)和内存计算(如HanaHana),这些计算模式的混合计算模式将成为满足多样),这些计算模式的混合计算模式将成为满足多样性大数据处理和应用需求的有效手段。性大数据处理和应用需求的有效手段。p 大数据分析与挖掘大数据分析与挖掘对对迅速膨胀的数据进行深度分析和挖掘,对自动化分析要求迅速膨胀的数据进行深度分析和挖掘,对自动化分析要求越来越高,越来越多的大数据数据分析工具和产品应运越
41、来越高,越来越多的大数据数据分析工具和产品应运而生,如用于大数据挖掘的而生,如用于大数据挖掘的R HadoopR Hadoop版、基于版、基于MapReduceMapReduce开发的数据挖掘算法等开发的数据挖掘算法等。p 大数据可视化分析大数据可视化分析可视化方式可视化方式可可帮助人们探索和解释复杂的数据,有利于决帮助人们探索和解释复杂的数据,有利于决策者挖掘数据的商业价值策者挖掘数据的商业价值。各种相关商品不断出现各种相关商品不断出现,可可视化工具视化工具Tabealu Tabealu 的成功上市反映了大数据可视化的需的成功上市反映了大数据可视化的需求。求。p 大数据安全大数据安全大数据的
42、安全一直是企业和学术界非常关注的研究方向。大数据的安全一直是企业和学术界非常关注的研究方向。通过文件访问控制来限制呈现对数据的操作、基础设备通过文件访问控制来限制呈现对数据的操作、基础设备加密、匿名化保护技术和加密保护等技术正在最大程度加密、匿名化保护技术和加密保护等技术正在最大程度的保护数据安全。的保护数据安全。安全生产大数据工作思路安全生产大数据工作思路4汇报提纲大数据概述与应用大数据概述与应用2安全生产大数据现状与问题安全生产大数据现状与问题23基本概念简述基本概念简述1安全生产大数据安全生产大数据:企业安全生产企业安全生产、政府安全监管政府安全监管、社会个、社会个人参与以及与此关联的经
43、济活动全人参与以及与此关联的经济活动全过程所形成的文本、音频、过程所形成的文本、音频、视频、图片等海量信息视频、图片等海量信息的集合的集合。当下还处于大数据的初级阶当下还处于大数据的初级阶段。段。(一)安全生产大数据概念(一)安全生产大数据概念监监管管机机构构企企业业个个人人中中介介机机构构安安委委会会成成员员单单位位来来源源对对象象数据内容数据内容调查报告调查报告视频动态信息视频动态信息安全管理动态信息安全管理动态信息安全管理静态信息安全管理静态信息生产图纸信息生产图纸信息事故信息事故信息大大安安全全 大大数数据据 大大监监管管互互联联网网p真实性:真实性:安全生产大数据是在依法行政的许可下
44、采集的,安全生产大数据是在依法行政的许可下采集的,任何被采集对象有义务如实地填报各项数据,因此数据要任何被采集对象有义务如实地填报各项数据,因此数据要求是真实准确的,并具有法律效用。求是真实准确的,并具有法律效用。p原始性:原始性:安全生产大数据不论是一次采集还是多次采集,安全生产大数据不论是一次采集还是多次采集,均直接来源于政府、企业或个人,都是最为原始可靠的数均直接来源于政府、企业或个人,都是最为原始可靠的数据采集。据采集。p完整性:完整性:监管机构为了完成一项或几项工作开展数据采集监管机构为了完成一项或几项工作开展数据采集工作,必须努力保证所采集数据对于该项工作的完成是完工作,必须努力保
45、证所采集数据对于该项工作的完成是完整的。整的。p公正性公正性:安全生产大安全生产大数据采集所涉及到的数据采集所涉及到的组织组织或个人,都或个人,都必须履行义务接受采集,任何组织或个人必须履行义务接受采集,任何组织或个人不不可以随意拒绝可以随意拒绝。(二)安全生产大数据具有(二)安全生产大数据具有“七性七性”p可持续性可持续性:安全生产大安全生产大数据可以根据业务需要定时、定期数据可以根据业务需要定时、定期采集,如采集,如安全生产诚信安全生产诚信信息等。也可以根据需要经授权后信息等。也可以根据需要经授权后随时获取,确保业务的持续性。随时获取,确保业务的持续性。p可处理性可处理性:安全生产大安全生
46、产大数据是数据是安监机构安监机构为了履行行政职能为了履行行政职能而采集的,数据的内在关系是明确的,数据结构是合理的而采集的,数据的内在关系是明确的,数据结构是合理的,是可以和便于机器自动处理的。,是可以和便于机器自动处理的。p可开放性可开放性:安全生产大安全生产大数据是数据是安监机构安监机构在依法行政下获取在依法行政下获取的,在确保国家安全、组织或个人的隐私与利益不受侵害的,在确保国家安全、组织或个人的隐私与利益不受侵害的前提下,可以依法开放。任何机构、组织或个人也有权的前提下,可以依法开放。任何机构、组织或个人也有权向相关部门提出获得和使用数据的申请。向相关部门提出获得和使用数据的申请。(二
47、)安全生产大数据要具有(二)安全生产大数据要具有“七性七性”(三)安全生产大数据面临的主要问题(三)安全生产大数据面临的主要问题数据规模小缺数据规模小缺乏原始信息乏原始信息缺乏统一缺乏统一的标准的标准部门协调部门协调能力不足能力不足信息化信息化能力弱能力弱分析工具分析工具欠缺欠缺专业人员专业人员缺乏缺乏主要主要问题问题p数据量小、质量差:数据量小、质量差:虽然安监部门都有一定规模安全生产虽然安监部门都有一定规模安全生产相关数据,但由于其数据搜集、数据整理等相关数据,但由于其数据搜集、数据整理等能力不足能力不足,数,数据完整性、规范性方面还存在很大缺陷。特别是原始、动据完整性、规范性方面还存在很
48、大缺陷。特别是原始、动态数据不足,难以实现全覆盖。态数据不足,难以实现全覆盖。p缺乏标准:缺乏标准:目前我国建筑、交通、铁路、民航、民爆等行目前我国建筑、交通、铁路、民航、民爆等行业的安全监管职责在行业管理部门,非煤、危化、工矿商业的安全监管职责在行业管理部门,非煤、危化、工矿商贸等其他行业的安全监管职责在安监部门,各部门建立的贸等其他行业的安全监管职责在安监部门,各部门建立的事故信息、监管信息等数据库没有形成统一的标准,为数事故信息、监管信息等数据库没有形成统一的标准,为数据衔接造成很大局限。据衔接造成很大局限。p部门协调能力不足:安全监管对象众多,各级机构限于能部门协调能力不足:安全监管对
49、象众多,各级机构限于能力和手段,力和手段,在采集企业、个人及公共安全数据、互联共享在采集企业、个人及公共安全数据、互联共享中协调能力不足,难以得到充分授权与发挥作用。中协调能力不足,难以得到充分授权与发挥作用。(三)安全生产大数据当前面临的主要问题(三)安全生产大数据当前面临的主要问题p企业信息化能力弱。企业信息化能力弱。安全生产隐患排查主要靠人力,易受到安全生产隐患排查主要靠人力,易受到主观因素影响,且很难界定安全与危险状态,可靠性差。主观因素影响,且很难界定安全与危险状态,可靠性差。p分析工具缺乏:分析工具缺乏:在安全生产管理中,由于缺少有效的分析工在安全生产管理中,由于缺少有效的分析工具
50、,缺少对事故规律的认识,导致我国对于安全生产主要采具,缺少对事故规律的认识,导致我国对于安全生产主要采取取“事后管理事后管理”的方式,缺少事前预防,在事故发生后才分的方式,缺少事前预防,在事故发生后才分析事故原因、追究事故责任、制定防治措施。这种方式存在析事故原因、追究事故责任、制定防治措施。这种方式存在很大局限性,不能达到从源头上防止事故的目的。很大局限性,不能达到从源头上防止事故的目的。p大数据专业分析人员缺乏:大数据专业分析人员缺乏:大数据建设的每个环节都需要依大数据建设的每个环节都需要依靠专业人员完成,其关键环节数据分析是基于预言建模或未靠专业人员完成,其关键环节数据分析是基于预言建模