1、数据与信息数据与信息第第5 5节节 数据与大数据数据与大数据目录目录/contents/contents大数据的概念大数据的概念0101大数据的特征大数据的特征0202大数据思维大数据思维0303大数据对社会的影响大数据对社会的影响0404大数据的概念大数据的概念第一部分第一部分大数据的概念大数据的概念20世纪90年代末,“大数据”的概念首次首次由美国硅图公司(SGI)的一位科学家正式提出。2016年,数据科学家将大数据正式定义正式定义为:大数据代表着信息量大、速度快、种类繁大数据代表着信息量大、速度快、种类繁多的信息资产,需要特定的技术和分析方法将多的信息资产,需要特定的技术和分析方法将其转
2、化为价值。其转化为价值。大数据之“大大”,不仅指规模、规模、速度和种类速度和种类的特征,还意味着它超出以往常用的数据采集、组织、管理和加工数据采集、组织、管理和加工等软件的处理能力,要求新型集成技术从多元、复杂和巨量多元、复杂和巨量规模规模的数据集里洞察规律。大数据是什么?大数据是什么?大数据的特征大数据的特征第二部分第二部分大数据的特征大数据的特征数据量大并不一定就是大数据数据量大并不一定就是大数据,用传统算法和数据库系统可以处理的海量数据不能算“大数据”。符合大数据概念的数据一般具有数据规模大、处理速度快、数据类型多、价值密度低数据规模大、处理速度快、数据类型多、价值密度低四个特征,可以用
3、4个V来概括,即数量数量(Volume)(Volume)、速度速度(Velocity)(Velocity)、多样多样(Variety)(Variety)和价值价值(Value)(Value)。数据规模大数据规模大处理速度快处理速度快数据类型多数据类型多价值密度低价值密度低数量数量(Volume)(Volume)速度速度(Velocity)(Velocity)多样多样(Variety)(Variety)价值价值(Value)(Value)特征特征4V4V大数据的特征大数据的特征第一,数据体量巨大。第一,数据体量巨大。大数据收集和分析的数据量非常大。现在,传感器、互联网、智能终端等每天都在源源不断
4、地产生海量数据,人类社会的数据量在不断刷新一个个新的量级单位,已经从TBTB、PBPB级别跃升至级别跃升至EBEB、ZBZB级别级别。可以通过下面这个例子简单感受1EB(1EB=2B)的数据量:一本红楼梦约有87万个字(含标点),每个汉字占两个字节,即1个汉字=2B,由此得出1EB约等于6626亿部红楼梦。这个数据量必将随着大数据处理能力的发展而不断扩大。一本红楼梦约有87万个字(含标点)1EB1EB约等于约等于66266626亿部红楼梦亿部红楼梦大数据的特征大数据的特征第二,速度快。第二,速度快。速度快有两种含义:一是数据产生的速度快数据产生的速度快。有的数据是爆发式产生的,比如:微博、微信
5、中的数据,每个用户产生的数据量可能不大,但是由于用户众多,短时间内产生的数据量依然非常庞大。二是数据处理的速度快数据处理的速度快。在信息社会中,数据往往实时变化,只有高效率的数据处理技术才能充分发挥数据的价值,例如:通过气象卫星等设备采集到的数据,只有及时处理才能满足天气预报的需求。大数据的特征大数据的特征第三,数据类型多。第三,数据类型多。大数据的数据来源多,既有人工产生的,如:人们日常使用智能手机,短信、微信、视频、语音、电子邮件等会产生各种数据;也有机器自动产生的,如各种传感器在生产监测、环境监测、交通监测、安防监测等过程中也会产生大量数据。正因为大数据来自多种数据源,其数据种类和格式不
6、可能保持一致,各种结构化、半结构化和非结构结构化、半结构化和非结构化数据共存是大数据的普遍现象化数据共存是大数据的普遍现象。大数据的特征大数据的特征第四,价值密度低。第四,价值密度低。大数据蕴含着巨大的价值,但因其数据量庞大,可能发挥价值的仅是其中非常小的部分,价值密度相对较低。以当前广泛应用的监控视频为例,在连续不间断的监控过程中,大量的视频数据被存储下来,其中有许多冗余数据。比如:某起交通事故的视频画面交通事故的视频画面,有效的部分可能仅仅只需要几秒钟,大量不相关的视频信息会增加获取有效数据的难度。价值密度的高低与数据总量的大小成反比,“提纯”大数据,让其发挥更大的价值,是人们一直在努力的
7、目标。大数据思维大数据思维第三部分第三部分大数据思维大数据思维大数据是一场变革大数据是一场变革,改变的不仅是数据,还有人们的思维。改变的不仅是数据,还有人们的思维。其次,对于数据不再追求精确性,而是能够接受数据的混杂性。首先,大数据要分析的是全体数据,而不是抽样数据。再次,不一定强调对事物因果关系的探求,而是更加注重它们的相关性。接受接受分析分析注重注重在大数据处理过程中,数据的来源多种多样,这些数据可以是结构化的、半结构化的,也可以是非结构化的。在大数据时代,人们不仅可以获得研究所需的直接数据直接数据,而且还能对与之有关联的所有数据进行分析。在大数据时代,比如电商的个性化推荐,不必知道人们购
8、买某些商品的原因,只要找到商品之间的关联性,就能为客户提供精确的推荐。大数据对社会大数据对社会的影响的影响第四部分第四部分大数据对社会的影响大数据对社会的影响大数据已渗透到各行各业,成为重要的生大数据已渗透到各行各业,成为重要的生产因素。产因素。作为全球网民数量最多的国家、重要的电子信息产品生产基地和最具成长性的信息消费市场,中国已经成为重要的大数据中国已经成为重要的大数据资源集聚地和大数据应用市场资源集聚地和大数据应用市场,大数据产业快速发展,产业链加速形成,大数据正在对经济社会发展发挥着越来越重要的作用。一、大数据让生活更便利。一、大数据让生活更便利。二、大数据让决策更精准。二、大数据让决
9、策更精准。三、大数据带来新的社会问题。三、大数据带来新的社会问题。大数据对社会的影响大数据对社会的影响一、大数据让生活更便利。一、大数据让生活更便利。例如:人们可以通过城市热力图热力图了解一个一个区域区域的人流量及拥挤情况拥挤情况,绿色部分显示的是人流量小或稀疏人流量小或稀疏的地理区域。城市热力图通过手机基站来定位定位区域中的手机用户,根据用户数量渲染地图的颜色,来展示该区域的人流密人流密度度,为人们的出行提供参考。城市热力图大数据对社会的影响大数据对社会的影响二、大数据让决策更精准。二、大数据让决策更精准。大数据支持动态跟踪与全样本采集,为各种决策提供了第一手的材料,再加上可视化技术的应用,
10、提高了数据分析的即时性,可以帮助管理者及时发现问题,进行即时干预。例如例如:江西省上饶市教育局利用大数据动态收集农村孩子入学、辍学、父母陪伴等信息,及时发现留守儿童的学习问题,开展精准助学与帮扶;又如,北京在共享单车运行一年后,重新调整了公交路线,正是共享单车所产生的大数据让交通部门发现了部分线路的公交站点缺失,从而精准地确定了更为利民的交通路线图。大数据对社会的影响大数据对社会的影响三、大数据带来新的社会问题。三、大数据带来新的社会问题。大数据给生活带来便利的同时,也带来如信息泄露、数据安全、个人隐私甚至伦理道德等方面的社会问题。用户在网上注册、网上购物等过程中,会留下个人信息。大数据的汇集不可避免地加大了用户隐私数据信息泄露的风险,如何保护个人的隐私成为亟待解决的问题。各领域对于用户隐私保护有多方面的要求和特点,数据之间存在复杂的关联性和敏感性,针对传统关系型数据的隐私保护模型和算法,大部分都不能直接将其移植到大数据应用中。课堂小结课堂小结思考与练习思考与练习1.学生学籍系统中存放着大量的学生数据,这些数据是否属于大数据?为什么?2.在处理数据时,往往会选择“抽样数据”或“全样本数据”进行分析,请比较这两种分析方式的特点,并举例说明。课后任务课后任务课后任务课后任务:请同学们及时完成课后测试题!请同学们及时完成课后测试题!谢谢观看!谢谢观看!