1、大数据下大数据下的的资源资源整合和知识共享整合和知识共享(上)(上)大数据概念应运而生 人工智能是解决这些大问题的关键。 人工智能,主要指大数据的存储技术。互联网上数据量大01数据类型非常多02一、热词解释一、热词解释二、国际大数据案例分析及相关技术介绍二、国际大数据案例分析及相关技术介绍三、大数据实际项目解析三、大数据实际项目解析目目 录录(一)国际大数据案例分析(一)国际大数据案例分析(二)大数据相关技术(二)大数据相关技术一、热词解释一、热词解释(一)(一)“互联网互联网+”+”“互联网+”代表一种全新的经济形态,即充分发挥互联网在生产要素配置中的优化和集成作用,将互联网的创新成果深度融
2、合于经济社会各领域之中,从而提升实体经济的创新力和生产力,形成广泛以互联网为基础的基础设施和实现工具的经济发展新形态。 “互联网+”行动将重点促进以移动互联网、云计算、物联网、大数据等与现代制造业相结合。 这里的结合,不是简单的结合,而是一种有机结合。 它的目的是为了实现产业创新。互联网互联网“+”“+”什么?什么?互联网+社交互联网+通信通信互联网+商场商场互联网+吃饭吃饭互联网+出行出行互联网+支付支付对传统行业的影响对传统行业的影响巨大而深远! “邮政行业不努力,顺丰就替他努力;银行不努力,支付宝就替他努力;通讯行业不努力,微信就替他努力;出租车行业不努力,滴滴快的就替他努力。”“互联网
3、+”倒逼这些行业去提高效率,加快创新。比银行更高的收益率比银行更便捷:支付无手续费零售行业金融行业传统零售商纷纷部署线上转型电商“互联网互联网+”+”的完全定义的完全定义注意: “互联网+”=“互联网+传统行业”“互联网+”是互联网互联网和传统行业传统行业融合的新形式和新业态,是移动互联网移动互联网、大数据大数据、物联网物联网等与传统行业的结合,是对传统行业的颠覆和改造。案例:小米(二)(二)“云计算云计算”云计算是一种按使用量付费按使用量付费的模式;这种模式提供可用的、便捷的、按需的网络访问网络访问,进入可配置的计算资源共享池,计算资源共享池,这些资源能够被快速提供,只需投入很少的管理工作,
4、或与服务供应商进行很少的交互。云计算的核心技术云计算的核心技术01虚拟化技术02分布式数据存储技术03分布式并行编程模式云计算的核心技术云计算的核心技术大规模数据管理分布式资源管理信息安全云计算平台管理所有人都能够访问的云。公有云公有云为某一类或者某一特定用户而定制的云。私有云私有云 混合云(三)(三)“物联网物联网”物联网就是“物物相连的互联网”,利用局部网络或互联网等通信技术通信技术把传感器、控制器、机器、人员和物等通过新的方式联在一起,实现人与物、物与物相联,形成信息化、远程管理控制和智能化的网络。物联网在逻辑上的三个层级家里的所有设备,都通过手机连在一起。(四)(四)“工业工业4.0”
5、4.0”是指利用物联信息系统物联信息系统,将生产中的供应、制造、销售信息数据化数据化、智慧化智慧化,最后达到快速、有效、个人化的产品供应。其中,“4”是相对于前3次工业革命而指出的。(五)(五)“中国制造中国制造2025”2025”2015年5月19日,经李克强总理签批,中国国务院印发中国制造2025,部署全面推进实施制造强国战略,这是中国实施制造强国战略首个十年的行动纲领。报告明确,智能制造是未来制造业发展的重点导向。中国在2015年已启动智能制造试点,2016年会扩大试点,2017年将全面推广。 中国制造2025的核心目标就是推动产业结构迈向中高端,坚持创新驱劢、智能转型、强化基础、绿色发
6、展,加快从制造大国转向制造强国。互联网+工业领域(六)(六)“大数据大数据”夫子曰:夫道,覆载万物者也,洋洋乎大哉.不同同之之谓大。维基百科:在可容忍的运行时间内,使用已有的软硬件方法或架构难以捕获、管理和处理的数据。在研究界,对于大数据没有一个完整而严格的定义。大数据的缘起John Snow,使用大数据的力量,解决了1854年的伦敦霍乱。图上红点越大,代表死的人越多。他利用了大数据的区略图的方法,最终找到了三个结点。用PUI数据进行比对,发现这地方有三口井。最后结合水质调查,发现祸乱的根源其实是通过水源传播的。发病人群分布图(soho区)疾病传播情况示意图大数据的3“V”特征数据容量越来越大
7、地球上至今总共的数据量:2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;2011年,这个数字达到了1.8ZB;2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!数据量增长越来越快,需要处理的速度和响应越来越快。互联网上:每天有5亿个聊天记录产生;每天有3000TB数据产生;每分钟有5000万笔交易发生;每分钟有1100万个状态更新;每秒钟有69000个搜索查询。随着web2.0时代的到来:数据将从结构化半结构化非结构化;传感器数据、音频、视频、日志文件、点击流以及其他任何可用的信息。数据种类越来越多数据量很大,但是价值密度很低,同
8、时它的价值总量很高,它对于商业有很大的商业价值。新的价值洼地大数据特征大数据特征(隐含)(隐含) 治 疗 疾 病 、预 防 犯 罪 、提 高 政 府 管理 效 率 , 提升 教 育 系 统质量。应用价值 商业公司、政府部门对公民隐私数据无节制的采集。 金融、零售等商业企业和警务部门滥用。 新的种族和阶层歧视。隐私威胁二、国际大数据案例分析二、国际大数据案例分析 及相关技术介绍及相关技术介绍(一)国际大数据案例分析(一)国际大数据案例分析1.大数据与政治 Nate Silver预测对了所有50个州的选举结果,选举人票数和得票率都惊人地准确,完胜多组资深政治学专家和观察者,充分展示了大数据与数学模
9、型的力量。2.大数据与文化娱乐挑选演员电影题材播放形式大数据大数据Netflix会投用户所好,根据这些内容拍摄用户感兴趣的电影。3.大数据与公共卫生 Google认为搜索流感相关主题的人数与实际患有流感症状的人数之间存在着密切的关系。其预测结果与美国疾病预防控制中心的监测报告相比对, 数据的相关性高达97%。大数据方法存在不精确性大数据方法存在不精确性 Google从来没有披露过他们是采用哪些搜索关键词来追踪流感信息。1 1搜索算法变化和用户搜索行为影响结果。2 2 大数据傲慢算法变化4.大数据与社交网络最终9小时内完成发明IP追踪技术发明递归激励机制召集愿者,构建社交网络4 43 32 21
10、 12009年美国DARPA,悬赏40万美元,发起组织了一个气球挑战赛。 MIT团队获胜,他们是怎样做到的呢?应用到社会事件上利用行之有效的信息传播机制解决问题。A核心思想是把人作为传感器。B基于社交网络的事件探测与追踪技术如何从社交网络里面,从一个海量、有噪声的数据里提取与事件有关的信息,同时如何定位这些事件的时间、地点。基于社交网络的事件探测与追踪技术基于社交网络的事件探测与追踪技术以地震为例以地震为例微博用户分布统计地震灾害分布统计事件探测时空估计分类器提出框架与模型提出框架与模型率模型空间模型空间模型位置估计时序模型时序模型概率模型目标事件社交传感器与地震有关的发帖数统计地震强度地震强度2 2级以上级以上3 3级以上级以上4 4级以上级以上地震次数78253实际探测到70(89.7%)24(96.0%)3(100%)实验结果实验结果