1、5.1认识大数据 l在日常工作、生活和学习等活动中,人们的一举动基本在日常工作、生活和学习等活动中,人们的一举动基本 上都可以上都可以 数字化。例如,从家中出门到达工作地点选择的交通工具,路线和数字化。例如,从家中出门到达工作地点选择的交通工具,路线和 所用时间所用时间: :每刷一次微博、每刷一次微博、 拨打一次电话、发送。拨打一次电话、发送。 条短信、网上条短信、网上 银行转账或者浏览相关网站,其至所在的地理位置信息等都产生了银行转账或者浏览相关网站,其至所在的地理位置信息等都产生了 大量数据。大量数据。 l在第一章,我们已经介绍了数据的基本概念与特征,下面我们将学在第一章,我们已经介绍了数
2、据的基本概念与特征,下面我们将学 习大数据的基本概念与特征。习大数据的基本概念与特征。 5.1.1 大数据 l大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕大数据是指无法在可承受的时间范围内用常规软件工具进行高效捕 捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决 策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信 息资产。息资产。 l大数据的产生是与人类日益普及的网络行为所件生的大数据的产生是与人类日益普及的网络行为所件生的: :物联网、云物联网、
3、云 计算、移动互联网、车联网、手机、电脑以及遍布地球各个角落的计算、移动互联网、车联网、手机、电脑以及遍布地球各个角落的 各种各样的传感器,无不是数据的来源或是承载的方式。互联网生各种各样的传感器,无不是数据的来源或是承载的方式。互联网生 成的数据量,不仅远超此前一切人类所生成的数据量,不仅远超此前一切人类所生 成的数据量的总和,而成的数据量的总和,而 且在以大爆发性的速度不断增长。且在以大爆发性的速度不断增长。 l在天气预报、大气监测、地球物理探矿和天体运动观测等科学实验在天气预报、大气监测、地球物理探矿和天体运动观测等科学实验 和科学观察等活动中,各种各样的传感器每时每则都在产生大量的和科
4、学观察等活动中,各种各样的传感器每时每则都在产生大量的 数据。数据。 l大数据已成为人们提取信息、大数据已成为人们提取信息、 做出决策的重要依据,是推动信息做出决策的重要依据,是推动信息 社会发展的重要资源。社会发展的重要资源。 5.1.2 大数据的特征 l我们正处于一个大数据时代,大数据使人们的生活、工作与思维方我们正处于一个大数据时代,大数据使人们的生活、工作与思维方 式等都产生了巨大的变革。那么,大数据究竟具有哪些特征式等都产生了巨大的变革。那么,大数据究竟具有哪些特征? ? l探究活动探究活动 分析 仔细阅读以下案例,分析大数据具有哪些特征。 案例1:某市交通智能化分析平台的数据来源于
5、道路交通、电信、地理信息系统等各行各业。例如,交通卡 刷卡每天产生1900万条记录,手机定位数据每天产生1800万条,出租车达营数据每天产生100万条,电子 停车收费系统数据每天产生50万条。等等。这些数据在体量和速度上都达到了大数据的规模。 案例2:搜索引擎公司通过跟踪网民对“感冒症状以及“治疗”等关键词的搜索,发现某个时段在某个区 城内搜索数量急刷增长,从而成功预测了甲型HINI流感的基发时间,地城案例3:目前,某基于大数据的网 约车平台已覆盖全国400多个城市,涵盖出租车、快车、顺风车、代驾、专车、试驾以及租车等多项业务, 为人们的出行带来极大的便利。我们只需在网约车APP上输入或者说出
6、目的地,强大的智能系统就立刻分 配订单,即时通知附近司机:借助定时定位系统,我们可以看到司机的大致位置以及预计到达时间。 l(1)(1)从互联网产生大数据的角度来看,大数据具有从互联网产生大数据的角度来看,大数据具有4V4V特征特征: :大量大量 ( Volume )( Volume )、多样、多样(Variety)(Variety)。低价值密度。低价值密度(Value)(Value)、高速、高速 ( Velerity )( Velerity )。 第一,数据体量巨大。从TB级 别跃升到PB级别。 第二,数据类型繁多。如网络日志、视频、图片、地理位置信息等。 第三,价值密度低。以视频为例,在连
7、续不同断的监控过程中,有用的数据可能仅仅一两秒 第四,变化速度快。数据来自世界各地的网络终端,且以秒为单位快速变化, l(2)(2)从互联网思维的角度来看,大数据具有三个特征从互联网思维的角度来看,大数据具有三个特征: :样本渐趋于总样本渐趋于总 体。精确让位于模糊,相关性重于因果。体。精确让位于模糊,相关性重于因果。 第一,在大数据时代强调数据要全量而不是抽样,即强调数据规模全量,而不是强调数量巨大。大数据时 代有了更好的数据采集手段,让获取全量数据成为可能。 第二,大数据时代研究的数据如此之多,追求的不是精确性,而是视糊性。在大数据时代,只要幸握了大 体的发展方向即可,适当忽略微观层面上的
8、精确度,会让我们在宏观层面拥有更好的洞察力。 第三,大数据时代不是因果关系,而是相关关系。在大数据时代,无须再紧盯事物之间的因果关系,而应 该寻找事物之间的相关关系:相关关系也许不能准确地告诉我们某件 事情为何会发生,但是会提醒我们这件事情正在发生。 l(3)(3)从大数据存储与计算的角度来看,大数据具有两个特征从大数据存储与计算的角度来看,大数据具有两个特征: :分布式分布式 存储和分布式并行计算。存储和分布式并行计算。 第一,大数据存储在互联网不同的服务器与各客户终端。 第二,应用分布式并行计算处理互联网的大数据。 l讨论讨论 以小组为单位上网搜索资料,讨论传统数据与大数据的区别,并填入表
9、5-2中。 5.1.3 大数据对日常生活的影响 l1.1.大数据使人们日常生活更为便捷大数据使人们日常生活更为便捷 l(1)(1)方便支付。方便支付。 中国的移动支付发展得特别快。在中国,每三个手机用户,就有两个在使用移动支付。中国是全球最大的 移动支付市场。医院、餐厅、菜市场、加油站,甚至路边摊,都在使用移动支付。中国人今天的生活,已 经越来越有科技含量。 l(2)(2)方便出行。方便出行。 应用交通系统的大数据,网络约车出行,智能导航行车避免堵车,无人驾驶,智能地图方便寻路,等等。 l(3)(3)方便购物与产品推介。方便购物与产品推介。 网络购物不但节省人们出行购物的时间,而且帮助企业有效
10、判断用户的信息需求和消费需求,对客户进行 产品推介,方便人们选购产品。 l(4)(4)方便看病与诊病。方便看病与诊病。 应用网络预约挂号,减轻与节省患者排队挂号看病的辛劳与时间:同时,又方便医生提前分析患者的病史 数据,以便更科学诊病。 l2.2.大数据对人们日常生活产生的负面影响大数据对人们日常生活产生的负面影响 l(1)(1)个人信息泄露。个人信息泄露。 在大数据时代,我们使用的手机、计算机、网络、信用卡等信息科技,都会产生数据。这些数据时刻存在 泄露的风险。 l(2)(2)信息伤害与诈骗。信息伤害与诈骗。 在大数据时代,我们的网络信息随时都可能被不法分子窃取,并对我们及身边的亲人造成伤害。