1、大数据引领我们走向数据智能化时代大数据引领我们走向数据智能化时代大数据分析大数据分析大数据的定义理解什么是大数据大数据时代的背景1大数据的定义理解大数据的定义理解大数据的“4V”特征2大数据的构成3大数据时代的背景大数据时代的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、其增长速度也在加快。互联网(社交、搜索、
2、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、物联网(传感器,智慧地球)、车联网、GPSGPS、医学影像、安全监控、金融(银、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。全球每秒钟发送 2.9 2.9 百万封百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5 年每天会有 2.88 2.88 万个小时万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3 年推特上每天发布 5 5 千万条千万条消息,假设10 秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览1
3、6 年每天亚马逊上将产生 6.3 6.3 百万笔百万笔订单每个月网民在Facebook 上要花费7 7 千亿分钟千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB1.3EBGoogle 上每天需要处理24PB 的数据数据量增加TBTBPBPBZBZBEBEB根据IDC 监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020 年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时
4、代正在来临大数据时代的背景大数据时代的背景2020世纪世纪9090年代,数据仓库之父的年代,数据仓库之父的Bill InmonBill Inmon就经常就经常提及提及Big DataBig Data。20112011年年5 5月,月,在在“云计算相遇大数据云计算相遇大数据”为主题的为主题的EMC WoEMC World 2011 rld 2011 会议中会议中,EMC EMC 抛出了抛出了Big DataBig Data概念概念。大数据时代的背景大数据时代的背景体量Volume多样性Variety价值密度Value速度Velocity非结构化数据非结构化数据的超大规模和增长的超大规模和增长占总
5、数据量的占总数据量的8090%8090%比结构化数据增长快比结构化数据增长快1010倍到倍到5050倍倍是传统数据仓库的是传统数据仓库的1010倍到倍到5050倍倍大数据的大数据的异构和多样性异构和多样性很多不同形式(文本、图像、视频、机器数据)很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显无模式或者模式不明显不连贯的语法或句义不连贯的语法或句义大量的不相关信息大量的不相关信息对未来趋势与模式的可预测分析对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能深度复杂分析(机器学习、人工智能VsVs传统商务传统商务智能智能( (咨询、报告等)咨询、报告等)实时分析实时分析而
6、非批量式分析而非批量式分析数据输入、处理与丢弃数据输入、处理与丢弃立竿见影而非事后见效立竿见影而非事后见效大数据的大数据的4V4V特征特征“大量化大量化(Volume)(Volume)、多样化、多样化(Variety)(Variety)、快速化、快速化(Velocity)(Velocity)、价值密度低(、价值密度低(ValueValue)”就是就是“大数据大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。的显著特征,或者说,只有具备这些特点的数据,才是大数据。Value Value 价值价值 挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息. 价值密度低价值密度低
7、, ,是大数据的一个典型特征是大数据的一个典型特征. 2010年海地地震,海地人散落在全国各地,援助人员为弄清该去哪里援助手忙脚乱。传统上,他们只能通过飞往灾区上空来查找需要援助的人群。 一些研究人员采取了一种不同的做法:他们开始跟踪海地人所持手机内部的SIM卡,由此判断出手机持有人所处的位置和行动方向。正如一份联合国(UN)报告所述,此举帮助他们“准确地分析出了逾60万名海地人逃离太子港之后的目的地。”后来,当海地爆发霍乱疫情时,同一批研究人员再次通过追踪SIM卡把药品投放到正确的地点,阻止了疫情的蔓延。Variety Variety 多样性多样性企业内部的经营交易信息;物联网世界中商品,物
8、流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源. 文本/图片/视频 等非结构化非结构化/ /半结构化数据半结构化数据能够在不同的数据类型中能够在不同的数据类型中, ,进行交叉分析的技术进行交叉分析的技术, ,是大数据是大数据的核心技术之一的核心技术之一. .语义分析技术,图文转换技术,模式识别技术,地理信息技术等,都会在大数据分析时获得应用.非结构化数据非结构化数据相对于结构化数据而言,不方便用数据库二维逻辑表来表现的数据即称为非结构化数据,包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频/视频信息等等。Velocity Velocity 速度速度
9、1s 是临界点. 对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的. 实时处理的要求实时处理的要求, ,是区别大数据引用和传统数据仓库技术是区别大数据引用和传统数据仓库技术, ,BIBI技术的关键差别之一技术的关键差别之一.Volume Volume 数据量数据量PBPB是大数据層次的临界点是大数据層次的临界点. . KBKB-MBMB-GBGB-TBTB-PBPB-EBEB-ZBZB-YBYB-NBNB-DBDB大数据不仅仅是大数据不仅仅是“大大”多大?PB 级比大大更重要的是数据的复杂性数据的复杂性,有时甚至大数据中的小数据如一条微博就具有颠覆性的价值指数型增长的
10、海量数据指数型增长的海量数据所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯所有研究都表明,未来数年数据量会呈现指数增长。根据麦肯锡全球研究院(锡全球研究院(MGIMGI)估计,全球企业)估计,全球企业20102010年在硬盘上存储了年在硬盘上存储了超过超过7EB7EB(1EB1EB等于等于1010亿亿GBGB)的新数据,而消费者在)的新数据,而消费者在PCPC和笔记本和笔记本等设备上存储了超过等设备上存储了超过6EB6EB新数据。新数据。1EB1EB数据相当于美国国会图书数据相当于美国国会图书馆中存储的数据的馆中存储的数据的40004000多倍。事实上,我们如今产生如此多的多倍。事实上
11、,我们如今产生如此多的数据,以至于根本不可能全部存储下来。例如,医疗卫生提供数据,以至于根本不可能全部存储下来。例如,医疗卫生提供商会处理掉他们所产生的商会处理掉他们所产生的90%90%的数据(比如手术过程中产生的的数据(比如手术过程中产生的几乎所有实时视频图像)。几乎所有实时视频图像)。大数据大数据 = = 海量数据海量数据 + + 复杂类型的数据复杂类型的数据海量交易数据:海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:大数据包括:交易数据和交互数据交易数据
12、和交互数据集在内的所有数据集集在内的所有数据集海量交互数据:海量交互数据:源于各种网络和社交媒体。它包括了呼叫详细记录、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输协议传送的海量图像文件、Web文本和点击流数据、评价数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。大数据的构成大数据的构成大数据的技术与应用大数据怎么用大数据技术要解决的问题1大数据的技术与应用大数据的技术与应用大数据的相关技术2大数据的应用实例3VolumeVolume海量的数据规模海量的数据规模VarietyVariety多样的数据类型多样的数据类型ValueValueVelocityVelocity
13、快速的数据流转快速的数据流转发现数据价值大数据技术要解决的问题大数据技术要解决的问题软件是大数据的引擎软件是大数据的引擎和数据中心(Data Center) 一样,软件是大数据的驱动力.软件改变世界软件改变世界! !大数据生态大数据生态: :软件是引擎软件是引擎大数据技术被设计用于在大数据技术被设计用于在成本可承受的条件下成本可承受的条件下,通通过过非常非常快速快速(velocityvelocity)地地采集、发现和分析采集、发现和分析,从从大量大量(volumesvolumes)、多类、多类别别(varietyvariety)的数据中的数据中提取价值提取价值(valuevalue),将将是是
14、IT IT 领域新一代的技术领域新一代的技术与架构与架构。企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合。大数据技术要解决的问题大数据技术要解决的问题技术领域的挑战技术领域的挑战1 1、对现有数据库管理技术的挑战传统的数据库部署不能处理数TB TB 级别的数据,也不能很好的支持高级别的数据分析。急速膨胀的数据体量即将超越传统数据库的管理能力。如何构建全球级的分布式数据库(Globally-(Globally-Distributed Database) Distributed Database) ,可以
15、扩展到数百万的机器,数已百计的数据中心,上万亿的行数据。2 2、经典数据库技术并没有考虑数据的多类别(varietyvariety)SQLSQL(结构化数据查询语言),在设计的一开始是没有考虑非结构化数据的。3 3、实时性的技术挑战:一般而言,像数据仓库系统、BIBI应用,对处理时间的要求并不高。因此这类应用往往运行1 1、2 2天获得结果依然可行的。但实时处理的要求,是区别大数据应用和传统数据仓库技术、BIBI技术的关键差别之一。网络架构、数据中心、运维的挑战:技术架构的挑战:人们每天创建的数据量正呈爆炸式增长,但就数据保存来说,我们的技术改进不大,而数据丢失的可能性却不断增加。如此庞大的数
16、据量首先在存储上就会是一个非常严重的问题,硬件的更新速度将是大数据发展的基石。 分析技术:分析技术:数据处理:自然语言处理技术统计和分析:A/B test; top N排行榜;地域占比;文本情感分析数据挖掘:关联规则分析;分类;聚类模型预测:预测模型;机器学习;建模仿真 大数据技术:大数据技术:数据采集:ETL工具数据存取:关系数据库;NoSQL;SQL等基础架构支持:云存储;分布式文件系统等计算结果展现:云计算;标签云;关系图等一些相关技术一些相关技术 存储存储结构化数据:p 海量数据的查询、统计、更新等操作效率低非结构化数据p 图片、视频、word、pdf、ppt等文件存储p 不利于检索、
17、查询和存储半结构化数据p 转换为结构化存储p 按照非结构化存储 解决方案:解决方案:Hadoop(MapReduce技术)流计算(twitter的storm和yahoo!的S4)数据采集数据储存数据管理数据分析与挖掘数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术大数据的相关技术ETL数据众包(CrowdSouring)数据众包数据众包数据众包是一种新的数据采集方式,由企业方通过平台把数据采集任务外包给非特定的大众网络。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文
18、件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理分布式文件系统分布式文件系统分布式文件系统(Distributed File System)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。分布式文件系统分布式文件系统Google文件系统(Google File System,GFS)是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。它运行于廉价的普通硬件上,将服务器故障视为正常现象,通过软件的方式自动容错,在保证系统可靠性和可用性的同时,大大减少了系统的成本。分布式文件系统分布式文件系统GFS将整个系
19、统分为三类角色:Client(客户端)、Master(主服务器)、Chunk Server(数据块服务器)。分布式文件系统分布式文件系统Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。分布式文件系统分布式文件系统一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。非关系型数据库非关系型数据库N
20、oSQLNoSQL 关系型数据库的局限性难以满足高并发读写的需求难以满足对海量数据高效率存储和访问的需求难以满足对数据库高可扩展性和高可用性的需求非关系型数据库非关系型数据库NoSQLNoSQL NoSQL 数据存储不需要固定的表结构,通常也不存在连接操作。在大数据存取上具备关系型数据库无法比拟的性能优势。关系型数据库中的表都是存储一些格式化的数据结构,每个元组字段的组成都一样,即使不是每个元组都需要所有的字段,但数据库会为每个元组分配所有的字段。非关系型数据库以键值对存储,它的结构不固定,每一个元组可以有不一样的字段,每个元组可以根据需要增加一些自己的键值对,这样就不会局限于固定的结构,可以
21、减少一些时间和空间的开销。非关系型数据库非关系型数据库NoSQLNoSQL非关系型数据库非关系型数据库NoSQLNoSQLBigtable的设计目的是可靠地处理PB级别的数据,并且能够部署到上千台机器上。Bigtable已经在超过60个Google的产品和项目上得到了应用,包括 Google Analytics、GoogleEarth等。非关系型数据库非关系型数据库NoSQLNoSQLBigtable是一个键值(key-value)映射。键有三维,分别是行键(row key)、列键(column key)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串
22、。可以用 (row:string, column:string, time:int64)string 来表示一条键值对记录。THANK YOUSUCCESS2022-5-12可编辑非关系型数据库非关系型数据库NoSQLNoSQLBigtable是一个键值(key-value)映射。键有三维,分别是行键(row key)、列键(column key)和时间戳(timestamp),行键和列键都是字节串,时间戳是64位整型;而值是一个字节串。可以用 (row:string, column:string, time:int64)string 来表示一条键值对记录。非关系型数据库非关系型数据库NoSQ
23、LNoSQLDynamoDB是Amazon提供的共享式数据库云服务,可用性和扩展性都很好,性能也不错:读写访问中99.9%的响应时间都在300ms内。DynamoDB通过服务器把所有的数据存储在固态硬盘(SSD)上的三个不同的区域。如果有更高的传输需求,DynamoDB也可以在后台添加更多的服务器。非关系型数据库非关系型数据库NoSQLNoSQLAmazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性。 ImageIDImageID = 1 = 1Title = flowerTitle = flowerTags = flower, jasmin
24、e, whiteTags = flower, jasmine, whiteRatings = 3, 4, 2Ratings = 3, 4, 2一个一个属性属性是一个是一个“名称名称- -值值”对(对(name-value pairname-value pair),),“名称名称”必须是一个必须是一个字符串,字符串,“值值”可以是一个字符串、数字、字符串集合或数字集合。下面是可以是一个字符串、数字、字符串集合或数字集合。下面是关于属性的一些实例:关于属性的一些实例:非关系型数据库非关系型数据库NoSQLNoSQLAmazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个
25、项目包含1个或多个属性(Attibute)。项目项目由属性构成。必须指定一个属性作为由属性构成。必须指定一个属性作为主键主键,这个主键在,这个主键在DynamoDBDynamoDB表中唯表中唯一地标识一个项目。除了主键是必须的,其他项目属性是可选的。一个项目一地标识一个项目。除了主键是必须的,其他项目属性是可选的。一个项目的属性没有顺序关系。某个项目中的属性和同一个表中的其他项目的属性也的属性没有顺序关系。某个项目中的属性和同一个表中的其他项目的属性也没有关系。没有关系。项目被存储在项目被存储在表表中,表中的所有项目都具有相同的主键机制(中,表中的所有项目都具有相同的主键机制(primary
26、key primary key schemescheme)。每个项目都具备一个唯一的主键值。)。每个项目都具备一个唯一的主键值。非关系型数据库非关系型数据库NoSQLNoSQLAmazon DynamoDB把数据组织成表的形式,表中包含了项目(item),每个项目包含1个或多个属性(Attibute)。非关系型数据库非关系型数据库NoSQLNoSQLDynamoDB并没有DB的概念,目前单用户最多能创建256个Table,同时DynamoDB 提供了11个API接口操作表和项目。非关系型数据库非关系型数据库NoSQLNoSQL非关系型数据库非关系型数据库NoSQLNoSQLHBase Hado
27、op Database,是一个分布式的、面向列的开源数据库,HBase在Hadoop之上提供了类似于Bigtable的能力,是Hadoop项目的子项目。Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发,用于储存收件箱等简单格式数据,集Google BigTable的数据模型与Amazon Dynamo的完全分布式的架构于一身。Facebook于2008年将 Cassandra 开源,此后被Digg、Twitter等知名Web 2.0网站所采纳,成为了一种流行的分布式结构化数据存储方案。非关系型数据库非关系型数据库NoSQLNoSQLMongoDB是一个基于分
28、布式文件存储的数据库。由C+语言编写,是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的。它 支持的数据结构非常松散,可以存储比较复杂的数据类型。它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。云计算和云存储云计算和云存储云计算(cloud computing),是分布式计算技术的一种,其最基本的概念,是透过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。透过这项技术,网络服务提供者可
29、以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算机”同样强大效能的网络服务。云计算是一种资源交付和云计算是一种资源交付和使用模式,指通过网络获使用模式,指通过网络获得应用所需的资源(硬件、得应用所需的资源(硬件、平台、软件)。提供资源平台、软件)。提供资源的网络被称为的网络被称为“云云”。白云下面数据跑蓝蓝的天上白云飘如果数据是财富,那么大数据就是宝藏,而云计算就是挖掘和利用宝藏的利器。没有强大的计算能力,数据宝藏终究是镜中花;没有大数据的积淀,云计算也只能是杀鸡用的宰牛刀。云计算和云存储云计算和云存储云计算和云存储云计算和云存储云存储是在云计算(cloud computing
30、)概念上延伸和发展出来的一个新概念,是指通过集群应用、网格技术或分布式文件系统等功能,将网络中大量各种不同类型的存储设备通过应用软件集合起来协同工作,共同对外提供数据存储和业务访问功能的一个系统。当云计算系统运算和处理当云计算系统运算和处理的核心是大量数据的存储的核心是大量数据的存储和管理时,云计算系统中和管理时,云计算系统中就需要配置大量的存储设就需要配置大量的存储设备,那么云计算系统就转备,那么云计算系统就转变成为一个云存储系统,变成为一个云存储系统,所以云存储是一个以数据所以云存储是一个以数据存储和管理为核心的云计存储和管理为核心的云计算系统。算系统。实时流处理实时流处理传统的分布式计算
31、往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。实时流处理实时流处理传统的分布式计算往往是先积累大量的数据,再进行数据拆分和聚合。而实时流处理则是让数据流动起来,数据从内存中流过,截取需要的数据,进行实时分析计算。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/B Testing关联规则分析分类聚类遗传算法神经网络预测模型模式
32、识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言A/B TestingA/B TestingA/B测试是可用性测试的一个方法,其核心为:同时实验两个元素或版本(A和B),确定哪个更好。注册按钮由绿色改成红色提高转化率注册按钮由绿色改成红色提高转化率34%34%人性化的表格提高人性化的表格提高11%11%的转化率。的转化率。MapReduceMapReduceMapReduce是Google提出的一个软件架构,用于大规模数据集(大于1TB)的并行运算。它使编程人员在不了解分布式并行编程的情况下,能将自己的程序运行在分布式系统上。Map=映射Re
33、duce=规约或化简MapReduceMapReduceR R语言语言R语言是一种自由软件编程语言与操作环境,主要用于统计分析、绘图、数据挖掘。R R语言擅长在语言擅长在HadoopHadoop分布分布式文件系统中存储的非结式文件系统中存储的非结构化数据上的分析。构化数据上的分析。R R现现在还可以运行在在还可以运行在HBaseHBase这这种非关系型的数据库以及种非关系型的数据库以及面向列的分布式数据存储面向列的分布式数据存储之上。之上。数据采集数据储存与管理数据分析与挖掘计算结果展示大数据的相关技术大数据的相关技术ETL数据众包(CrowdSouring)结构化、非结构化和半结构化数据分布
34、式文件系统关系数据库非关系数据库(NoSQL)数据仓库云计算和云存储实时流处理A/B Testing关联规则分析分类聚类遗传算法神经网络预测模型模式识别时间序列分析回归分析系统仿真机器学习优化空间分析社会网络分析自然语言分析MapReduceR语言标签云(Tag Cloud)聚类图(Clustergram)空间信息流(Spatial information flow)热图(Heatmap)标签云标签云标签云(Tag Cloud)是一套相关的标签以及与此相应的权重。权值影响标签的字体大小、颜色或其他视觉效果。典型的标签云有30至150个标签,用以表示一个网站中的内容及其热门程度。标签通常是超链接
35、,指向分类页面。标签云标签云奥巴马布什克林顿林肯标签云标签云聚类图聚类图聚类图(Clustergram)是指用图形方式展示聚类分析结果的技术,可以有助于判断簇数量不同时的聚类效果。空间信息流空间信息流空间信息流(Spatial information flow)是展示信息空间状态的一种可视化技术。热图热图热图(Heatmap)是一项数据展示技术,将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据,比如密度、频率、温度等。热图热图机遇与挑战三三大数据赋予我们洞察未来的能力大数据赋予我们洞察未来的能力机遇机遇马云成功预测2008 年经济危机“2008 年初,阿里
36、巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。人类从依靠自身判断做决定到依靠数据做决定的转变,也是大人类从依靠自身判断做决定到依靠数据做决定的转变,也是大数据作出的最大贡献之一。数据作出的最大贡献之一。大数据时代挑战挑战诸多领域的
37、问题亟待解决,最重要的是每个人的信息都被互联网所记录和保留了下来,并且进行加工和利用,为人所用,而这正是我们所担忧的信息安全隐患!更多的隐私、安全性问题:我们的隐私被二次利用了更多的隐私、安全性问题:我们的隐私被二次利用了多少密码和账号是因为“社交网络”流出去的?2011年4月索尼的系统漏洞导致7700万用户资料失窃2011年4月,iOS被发现会按照时间顺序记录用户的位置坐标信息2011年CSDN密码泄露事件眼下中国互联网热门的话题之一就是互联网实名制问眼下中国互联网热门的话题之一就是互联网实名制问题,我愿意相信这是个好事。毕竟我们如果明着亮出题,我愿意相信这是个好事。毕竟我们如果明着亮出自己
38、的身份,互联网才能对我们的隐私给予更好保护。自己的身份,互联网才能对我们的隐私给予更好保护。一、未卜先知怀孕案例塔吉特:比父亲更早知道女儿怀孕塔吉特:比父亲更早知道女儿怀孕曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还曾经有一位男性顾客到一家塔吉特超市店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞在读书的女儿寄婴儿用品的优惠券。这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。女儿真的已经怀孕了。提问:提问:为什么塔吉特能知道这个用户怀
39、孕了?必须有哪几个关键环节为什么塔吉特能知道这个用户怀孕了?必须有哪几个关键环节A A:用户数据收集:用户数据收集 B B:怀孕特征库:怀孕特征库 C C:怀孕潜在用户筛选:怀孕潜在用户筛选 塔吉特在和顾客沟通过程中采用了哪种营销方式塔吉特在和顾客沟通过程中采用了哪种营销方式A A:电子邮件:电子邮件 B B:直邮:直邮 C C:电话营销:电话营销 D D:数据库营销:数据库营销一、未卜先知怀孕案例关键环节一:数据信息记录关键环节一:数据信息记录一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?每位一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?每位顾客初次到塔吉特刷卡消
40、费时,都会获得一组顾客识别编号,内含顾客姓顾客初次到塔吉特刷卡消费时,都会获得一组顾客识别编号,内含顾客姓名、信用卡卡号及电子邮件等个人资料。日后凡是顾客在塔吉特消费,计名、信用卡卡号及电子邮件等个人资料。日后凡是顾客在塔吉特消费,计算机系统就会自动记录消费内容、时间等信息。再加上从其他管道取得的算机系统就会自动记录消费内容、时间等信息。再加上从其他管道取得的统计资料,塔吉特便能形成一个庞大数据库,运用于分析顾客喜好与需求。统计资料,塔吉特便能形成一个庞大数据库,运用于分析顾客喜好与需求。每个每个IDID号还会对号入座的记录下你的人口统计信息:年龄、是否已婚、是号还会对号入座的记录下你的人口统
41、计信息:年龄、是否已婚、是否有子女、所住市区、住址离否有子女、所住市区、住址离TargetTarget的车程、薪水情况、最近是否搬过家、的车程、薪水情况、最近是否搬过家、钱包里的信用卡情况、常访问的网址等等。钱包里的信用卡情况、常访问的网址等等。TargetTarget还可以从其他相关机构还可以从其他相关机构那里购买你的其他信息:种族、就业史、喜欢读的杂志、破产记录、婚姻那里购买你的其他信息:种族、就业史、喜欢读的杂志、破产记录、婚姻史、购房记录、求学记录、阅读习惯等等。乍一看,你会觉得这些数据毫史、购房记录、求学记录、阅读习惯等等。乍一看,你会觉得这些数据毫无意义,但在无意义,但在Andre
42、w PoleAndrew Pole和顾客数据分析部的手里,这些看似无用的数据和顾客数据分析部的手里,这些看似无用的数据便爆发了前述强劲的威力便爆发了前述强劲的威力一、未卜先知怀孕案例关键环节二:数据模型建立关键环节二:数据模型建立Andrew PoleAndrew Pole想到了想到了TargetTarget有一个迎婴聚会有一个迎婴聚会(baby shower)(baby shower)的登记表。的登记表。Andrew Andrew PolePole开始对这些登记表里的顾客的消费数据进行建模分析,不久就发现了许开始对这些登记表里的顾客的消费数据进行建模分析,不久就发现了许多非常有用的数据模式。
43、比如模型发现,许多孕妇在第多非常有用的数据模式。比如模型发现,许多孕妇在第2 2个妊娠期的开始会个妊娠期的开始会买许多大包装的无香味护手霜买许多大包装的无香味护手霜; ;在怀孕的最初在怀孕的最初2020周大量购买补充钙、镁、锌周大量购买补充钙、镁、锌的善存片之类的保健品。最后的善存片之类的保健品。最后Andrew PoleAndrew Pole选出了选出了2525种典型商品的消费数据种典型商品的消费数据构建了构建了“怀孕预测指数怀孕预测指数”,通过这个指数,通过这个指数,TargetTarget能够在很小的误差范围内能够在很小的误差范围内预测到顾客的怀孕情况,因此预测到顾客的怀孕情况,因此Ta
44、rgetTarget就能早早地把孕妇优惠广告寄发给顾客。就能早早地把孕妇优惠广告寄发给顾客。一、未卜先知怀孕案例关键环节三:建立和用户沟通渠道关键环节三:建立和用户沟通渠道那么,顾客收到这样的广告会不会吓坏了呢?那么,顾客收到这样的广告会不会吓坏了呢?TargetTarget很聪明地避免了这很聪明地避免了这种情况,它把孕妇用品的优惠广告夹杂在其他一大堆与怀孕不相关的商品优种情况,它把孕妇用品的优惠广告夹杂在其他一大堆与怀孕不相关的商品优惠广告当中,这样顾客就不知道惠广告当中,这样顾客就不知道TargetTarget知道她怀孕了知道她怀孕了一、未卜先知怀孕案例TargetTarget取得的成就:
45、取得的成就:根据根据Andrew PoleAndrew Pole的大数据模型的大数据模型,Target,Target制订了全新的广告营销方案,结制订了全新的广告营销方案,结果果TargetTarget的孕期用品销售呈现了爆炸性的增长。的孕期用品销售呈现了爆炸性的增长。Andrew PoleAndrew Pole的大数据分析的大数据分析技术技术从孕妇这个细分顾客群开始向其他各种细分客户群推广从孕妇这个细分顾客群开始向其他各种细分客户群推广,从,从Andrew Andrew PolePole加入加入TargetTarget的的20022002年到年到20102010年间,年间,TargetTarget的销售额从的销售额从440440亿美元增长到亿美元增长到了了670670亿美元。亿美元。THANK YOUSUCCESS2022-5-12可编辑