1、大数据与专业课程设置北京航空航天大学北京航空航天大学 20162016年年1111月月摘摘 要要 简要介绍大数据云计算主要内容 就大数据分析框架、大数据处理模式、深度学习、知识计算等方面涉及到的相关学科,推荐相关的课程设置 例如,算法设计分析、数理统计机器学习、神经网络、数据挖掘等课程。大数据时代及其挑战和机遇大数据的产生:(人类获取数据的能力大数据的产生:(人类获取数据的能力不断增强)不断增强)天文学 2000年斯隆数字巡天(Sloan Digital Sky Survey)项目启动,在短短几周内收集到的数据,已经比天文学历史上总共收集的数据还要多。到了2010年,信息档案已经高达1.424
2、2字节。不过,预计2016年投入使用的大型视场全景巡天望远镜大型视场全景巡天望远镜(Large Synoptic Survey Telescope),能在五天之内就获得同样多信息。基因学 2003年,人类第一次破译人体基因密码,辛苦工作十年才完成了三十亿对碱基对的排序。大约十年之后,世界范围内的 基因仪基因仪,每15分钟就可以完成同样的工作。金融领域 美国股市每天的成交量高达70亿股,其中三分之二的交易都是由计算机软件系统自动完成计算机软件系统自动完成的,并且这些软件系统用海量数据来预测利益和降低风险。互联网领域 谷谷歌歌每天要处理超过24PB的数据,这意味着其每天的数据处理量,是美国国家图书
3、馆所有纸质出版物所含数据量的上千倍。FacebookFacebook每天更新的照片量超过1000万张,每天人们点击“喜欢”(Like)按钮或者写评论大约有三十亿次。TwitterTwitter上的信息量几乎每年翻一番,截止到2012年,每天都会发布超过4亿条微博。爆发式增长的数据量大数据的产生 到底增长有多快呢?先看一看DOMO的数据。大数据的产生 相比更早的历史又如何?马丁马丁希尔伯特希尔伯特(Martin Hilbert)的比较全面的研究:范围不仅包括书籍、图画、电子邮件、照片、音乐、视频(模拟和数字),还包括电子游戏、电话、汽车导航和信件等。指出,在2000年的时候,数字存储信息仍只占全
4、球数据量的25%,另外75%的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上。2007年,人类大约存储了超过300EB的数据,其中只有7%是存储在报纸、书籍、图片等媒介上的模拟数据,其余全部是数字数据。数字数据的数量每三年多就会翻一倍。相反,模拟数据的数量则基本上没有增加。大数据的产生 人类人类存储信息量的增长速度比世界经济的增长速度快存储信息量的增长速度比世界经济的增长速度快4 4倍,倍,而计算机数据处理能力的增长而计算机数据处理能力的增长速度则比世界经济的增长速度快速度则比世界经济的增长速度快9 9倍。倍。大数据的产生 如何产生?大数据的产生大数据界定及其特点 大数据(Big Dat
5、a):指大小超出常规的数据库工具获取、存储、管理和分析能力的数据集。-McKinsey 指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。-Wiki 大数据特征:3V、4V到5VBigDatBigData a VolumeVolumeVarietVariety yVelociVelocitytyVeraciVeracitytyValueValue价值密度低:大数据包含深度的价值,大数据分析挖掘和利用将带来巨大的商业价值。多样性:各种格式和形态的数据,如文本、图像、音频、视频。数据生成速度快:需要在一定的时间限度内及时处理。真实性:处理的结果应保证一定的真实性。大体量:可从数
6、百TB到数十数百PB、甚至EB的规模。大数据影响 到底会改变什么呢?彼特诺维格(Peter Norvig)指出:大数据带来的变化如同人类从静态的图片到每秒钟能够播放24幅不同形态的图片一样的体验,由量变导致质变。量变到质变的例子很多:例如,纳米技术专注于把东西变小而不是变大,其原理就是当事物到达分子的级别时,它的物理性质就会发生改变。再例如,铜本来是用来导电的物质,但它一旦到达纳米级别就不能在磁场中导电等等 潜在的性质:大数据时代作者维克多迈尔舍恩伯格指出,大数据的核心就是能够预言。不同于概率论,大数据时代的预言研究具有如下特点:不是随机样本,而是全体数据 不是精确性,而是混杂性 不是因果关系
7、,而是相关关系 基于大数据的应用案例国外 从早期流感发现说起,数据分析 2009年甲型H1N1流感迅速传播;全球的公共卫生机构都担心一场致命的流行病即将来袭;评论家警告可能会引发类似于1918年在西班牙爆发的大规模流感(夺走数千万人性命);医学界还没有研制出抗这种新型流感病毒的疫苗;怎么办?怎么办?公共卫生专家能做的只是减慢它传播的速度,前提是要知道流感在哪里出现!医生发现新流感病例告知疾病控制与预防中心疾控中心每周只进行一次数据汇总人们患病不一定马上去医院;向疾控中心的通知严重延迟;信息滞后几周甚至更长。Jeremy G,Mohebbi M H,Patel R S,et al.Detecti
8、ng influenza epidemics using search engine query data.J.Nature,2009,457(7232):1012-1014.谷歌能够发现冬季流感在全美传播情况,这令公共卫生官员们和计算机科学家们感到震惊!谷歌为了测试这些检索词条,总共处理了4.5亿个不同的数学模型。在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后,谷歌公司发现,他们的软件发现了45条检索词条的组合,将它们用于一个特定的数学模型后,他们的预测与官方数据的相关性高达97%。基于大数据的应用案例国外类似的例子还有奥伦埃齐奥尼(Oren Etzioni)
9、所创立的美国国内机票价格预测系统Forecast。沃尔玛超市里啤酒与尿不湿关联性发现美国消费者的一种行为模式。Target店铺(美国第三大零售商塔吉特)怀孕预测指数。电商网站流量分析人脸识别技术的应用股票市场预测市场物价预测体育赛事预测从早期的大数据发现已逐步走向基于大数据的推荐系统!基于大数据的应用案例国内百度:百度开放云、百度天眼新浪微博:大数据驱动下的微博社会化推荐搜狐移动新闻:基于全网内容的新闻客户端推荐系统中国移动:大云大数据产品宜信大数据:基于大数据的风险管理小米:基于大数据的小米金融浪潮:软件定义数据中心面临的挑战和机遇 由于大数据的众多特点,诸多传统方法如数据挖掘不能直接应用于
10、大数据集场景,大数据分析面临新的挑战,包括:1.传统算法主要基于内存,随着数据规模的空前扩大,它们的时空开销(计算复杂度)变得难于容忍。如何应对大体量的数据,将其装入内存并高效运行成为新的挑战。2.为了支持全数据量的实时数据处理,由于有时无法永久化存储,同时数据使用环境持续变化,使得无法掌握数据整个生命周期的特征。如何通过传统批量算法,基于历史数据构建无偏训练集成为新的挑战。面临的挑战和机遇3.在大数据环境下,数据生产和采集的能力日益增强,这导致数据在规模增大的同时呈现出新的特点:属性数量大而稀疏、数据体量大而高噪声、数据高维而复杂多样。如何处理高维、高噪声、稀疏数据成为新的挑战。4.虽然机器
11、学习善于处理非确定性的复杂问题,但是对于大数据处理与分析的场景,由于大数据的复杂多样性,机器学习在统计分析、学习目标和学习效率方面遇到了新的挑战。大数据存储、处理与分析大数据处理与分析大数据大数据处理与分析所处理与分析所面临的挑战面临的挑战大数据分析框架大数据分析框架大数据处理流程大数据处理流程大数据处理模式大数据处理模式大数据处理关键技术大数据处理关键技术大数据挑战采集数据(采集数据(Capturing dataCapturing data)监管(监管(CurationCuration)存储(存储(StorageStorage)传输(传输(TransferTransfer)共享(共享(Sha
12、ringSharing)查询(查询(SearchingSearching)分析(分析(AnalysisAnalysis)展现(展现(PresentationPresentation)大数据分析框架 大数据分析框架(大数据分析流程与大数据引发的挑战)大数据处理基本流程分层展示大数据处理基本流程数据抽取与集成 原因原因:大数据的多样性特点所致。内涵内涵:对不同数据源的数据进行抽取和集成,从中提取出关系和实体,经过关联和聚合之后采用统一定义的结构来存储所获取的数据。具体包括:数据清洗:保证数据质量和可信性 选取适当的数据处理模式(流式、批处理、交互等)方式方式:基于物化或是 ETL 方法的引擎(Ma
13、terialization or ETL engine)基于联邦数据库或中间件方法的引擎(Federation engine or Mediator)基于数据流方法的引擎(Stream engine)基于搜索引擎的方法(Search engine)大数据处理基本流程数据分析 原因原因:数据分析是发现大数据价值的主要过程。内涵内涵:从异构数据源抽取和集成的数据,构成数据分析原始数据,根据不同应用需求,可以从这些数据中选择全部或部分进行分析。方式方式:数据数据挖掘挖掘 机器学习机器学习 统计分析统计分析 相比于传统的分析方式,仍面临挑战相比于传统的分析方式,仍面临挑战:数据量大,价值密度却低,数据
14、的噪声增多,需要数据清洗和预处理数据量大,价值密度却低,数据的噪声增多,需要数据清洗和预处理。预处理大量数据对硬预处理大量数据对硬件和算法要求高。件和算法要求高。由于实时性要求,算法的准确率不再是大数据分析的主要目标。由于实时性要求,算法的准确率不再是大数据分析的主要目标。云计算环境作为大数据处理的有力工具,对云计算环境作为大数据处理的有力工具,对算法提出算法提出新的要求。新的要求。算法的适用性再次面临挑战,即小量数据挖掘的算法不一定适用于大数据。算法的适用性再次面临挑战,即小量数据挖掘的算法不一定适用于大数据。大数据分析结果的优良与否难于衡量。大数据分析结果的优良与否难于衡量。大数据处理基本
15、流程数据解释 原因原因:用户关心结果的展示。内涵内涵:分析的结果正确但是没有采用适当的解释方法,则所得到的结果很可能让用户难以理解,极端情况下甚至会误导用户。数据解释的方法可以结合传统和大数据时代适用的众多方法。方式方式:引入可视化引入可视化技术:技术:图形化的方式图形化的方式比文字比文字更易理解和更易理解和接受。常见可视化技术有接受。常见可视化技术有标签云标签云(Tag(Tag CloudCloud)、历史流、历史流(history flow)(history flow)、空间信息空间信息流流(Spatial information flow)(Spatial information flo
16、w)等。等。交互式展现技术:交互式展现技术:让用户能够在一定程度上了解和参与具体的分析让用户能够在一定程度上了解和参与具体的分析过程,采用过程,采用人机交互技人机交互技术实现术实现交互式的交互式的数据分析,常见的包括数据朔源技术。数据分析,常见的包括数据朔源技术。大数据处理模式批处理:先存储后处理批处理:先存储后处理(Store-then-process)(Store-then-process)场景:适用于先存储后计算,实时性要求不高,同时数据的准确性和全面性更为重要 代表性开源系统:Nutch 和Hadoop 模型基础:MapReduce编程模型流数据处理:是直接处理流数据处理:是直接处理(
17、Straight-through processing)(Straight-through processing)场景:主要有网页点击数的实时统计、传感器网络、金融中的高频交易(a)数据采集应用;(b)金融银行业的应用 代表性的开源系统如 Twitter 的 Storm、Facebook 的 Scribe、Yahoo的 S4以及 Linkedin 的 Kafka、Samza等。交互数据处理交互数据处理 场景:信息处理系统领域和互联网领域最多。具体包括,(a)人机交互:信息处理系统领域中传统的OLTP和OLAP;(b)人际交互:互联网中交互式数据处理。代表性的开源系统:Berkeley 的 Sp
18、ark 系统和 Google 的 Dremel 系统大数据处理与分析关键技术深度学深度学习习知识计知识计算算可视化可视化社会计算社会计算1.1.在线社会网络结构分析在线社会网络结构分析2.2.在线社会网络的信息传播在线社会网络的信息传播3.3.社会媒体中信息检索与数据挖掘社会媒体中信息检索与数据挖掘云计算平台支撑大数据云计算平台支撑大数据云计算大数据存储大数据管理大数据分析大数据存储 文件存储文件存储 针对文件较大,且读远大于写的应用场景:GFS(Google File System)为基础的HDFS、CloudStore、Dryad等。针对海量小文件读写场景:Facebook的Haystac
19、k,淘宝的TFS等。数据库系统数据库系统 NoSQL数据库(Not Only SQL):具有模式自由(schema-free)、支持简易备份(easy replication support)、简单的应用程序接口(simple API)、最终一致性(或者说支持 BASE 特性,不支持 ACID)、支持海量数据(Huge amount of data)等特点。大数据存储大数据研究:科研第四范式2007年第四范式:数据密集型科学发现出版,指出科学研究从实验、理论、计算逐步走向新的范式:一种理论、实验、仿真相统一的数据密集型科学研究范式。2008年Nature出版了”Big Data”专刊,从互联网
20、技术、网络经济学、超级计算、环境科学、生物医学等多个科技方面介绍大数据带来的挑战。2011年Science也推出数据处理”Dealing With Data”专刊,讨论大数据所带来的挑战和大数据科学研究的重要性。大数据需要云大数据需要云计算环境的支计算环境的支撑撑大数据分大数据分析涉及的析涉及的技术和领技术和领域众多域众多大数据与传大数据与传统数据不同,统数据不同,有自身特点有自身特点课程设置就大数据分析框架、大数据处理模式、深度学习、知识计算等方面涉及到的相关学科,推荐相关的课程设置专业基础课程群 大数据的存储、处理与分析需要云计算环境,特别是并行计算的支撑,因此在专业基础课程群中推荐如下课
21、程:计算机专业基础课程 计算机体系结构 操作系统 计算机网络 数据库 信息安全数学基础课程 概率与数理统计 线性代数专业课程群(1)大数据时代改变了基于数理统计的传统数据科学,促进了数据分析方法的创新,从机器学习和多层神经网络演化而来的深度学习是当前大数据处理与分析的研究前沿。因此,专业课程群(1)中推荐如下课程作为深度学习研究的基础:计算机专业课程 算法设计与分析 并行计算 数据挖掘人工智能专业课程 人工神经网络 机器学习 自然语言理解与分析专业课程群(2)近几年,深度学习在计算机视觉(对象识别或人脸识别)、信息检索、语音识别、自然语言处理以及社会计算等领域应用广泛。因此,专业课程群(2)中
22、推荐如下课程:计算机专业课程 计算机图形学 计算机图像处理 计算机视觉相关编程语言类课程 R语言 Python语言大数据应用技术与工具培训课程群大数据处理是一种极大的挑战,其处理形式主要包括静态数据批量处理、在线数据实时处理(流式数据处理或交互式数据处理)和图数据综合处理。因此,大数据应用技术与工具培训课程群中推荐如下课程:HDFS、MapReduce、Hadoop批处理技术 Storm(Twitter)、Flume(Cloudera)、Nutch(Apache)流式数据处理技术 Spark(Berkeley)、Dremel(Google)交互式数据处理技术 Pregel(Google)、Neo4j、Trinity(微软)图处理技术大数据专业课程设置图谱(建议)谢 谢